Research Diary · Updated May 28, 2026

最近一轮阅读集中在
自演化 Agent、Harness Engineering 与 Heuristic Learning

这篇日记基于本机 Chrome 历史快照、下载记录和 GitHub 元数据整理而成，并在 2026 年 5 月 28 日做了一次复查。时间窗口里最明确的主题是：如何把固定模型包在一个可观测、可回放、可修改的外层系统里，让“改工具链、改控制器、改记忆、改 harness”比“直接改权重”更快地产生能力增益。

重建依据

Chrome 历史快照、下载数据库、本地下载文件名、GitHub 账号仓库元数据。

活跃日期

2026 年 5 月 9 日到 5 月 23 日，5 月 22 日是论文下载最密集的一天。

核心问题

怎样让 agent 系统具备更强的外环优化能力，同时保持可审计、可验证、可回滚。

一页结论

这轮阅读不是散点式搜资料，而是一条很连续的技术线。5 月 9 日到 10 日的 GitHub 浏览记录显示，阅读重点落在 Trinkle23897/learning-beyond-gradients，并且不是只看仓库首页，而是继续钻进了 `mujoco/ant`、`atari/breakout`、`atari/atari57` 和 prompt template 等目录，说明关注点已经从概念层走到了具体实验组织方式。

到 5 月 22 日，下载记录切到一组更偏 agent system 的材料，包括《Agentic Harnesses, AutoResearch, Test-Time Scaling, and Self-Improving LLM Agents》与《自演化与 Agentic 系统的控制论综合分析》，同时本地还存在当月下载的《The Log is the Agent》《AutoTTS》《Darwin Gödel Machine》《Meta-Harness》等论文。这些材料指向同一个判断：能力提升越来越依赖外环结构设计，而不是只依赖基础模型本身。

如果把这条线压缩成一句话，就是：最近关注的不是“更大的模型”，而是“更能自证、回放、演化和分叉的 agent runtime”。这和工程场景里的真实需求是对齐的，因为可追责、可重跑、可灰度验证，往往比单次 benchmark 提升更重要。

阅读过的论文与笔记

《Agentic Harnesses, AutoResearch, Test-Time Scaling, and Self-Improving LLM Agents》

本地下载时间：2026-05-22 07:03 与 07:04

这是一份综合性读书笔记，明确把材料串成了五个代表方向：domain-specific harness、Meta-Harness、memory evolution、test-time controller discovery、agent self-modification。
文档给出的主线很清楚：真正带来收益的往往不是模型本身，而是围绕模型的工具包装、轨迹反馈、回放环境、记忆检索和源码编辑外环。
对工程实现最有价值的判断是“反馈密度比原始自治度更重要”。系统是否能保留原始 trace、是否能回滚、是否能把失败诊断成局部问题，决定了自改写能不能稳定推进。

《自演化与 Agentic 系统的控制论综合分析》

本地下载时间：2026-05-22 07:05

这份笔记把 DGM、AutoTTS、AHE、autoresearch 和 Learning Beyond Gradients 放进同一个控制论框架里分析。
最关键的抽象是“双时间尺度”：内环执行当前 agent，外环基于日志、回放和评测结果去修改 agent 自身或其控制器。
这份材料强调稳定化装置的重要性，例如 rollback、只读评估、复杂度惩罚、holdout transfer，这些都比“让模型自由探索”更接近工程可落地路径。

The Log is the Agent: Event-Sourced Reactive Graphs for Auditable, Forkable Agentic Systems

本地文件：2605.21997v1.pdf · 下载日期：2026-05-23

核心想法是把 append-only event log 设为 source of truth，而不是把日志当作事后观察层。
这直接支持 deterministic replay、cheap fork 和端到端 lineage，适合需要审计和分支比较的 agent 运行时。
如果后续想做可复现实验型 AutoResearch runtime，这篇论文提供了很强的系统设计参考。

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

本地文件：2605.08083v2.pdf · 下载日期：2026-05-21

论文把 test-time scaling 从“人工写策略”改写成“在环境里自动发现控制器”的问题。
重点不是单个 heuristic，而是构造一个反馈便宜、控制空间可搜索的发现环境。
对实用系统的启发是：如果评测可以 replay，controller search 就能做得更便宜，也更适合 agent 自动迭代。

Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents

本地文件：2505.22954v3.pdf · 下载日期：2026-05-22

这篇工作直接把 agent 的代码库设为优化对象，让 agent 通过 benchmark 验证来修改未来的自己。
相比单路径爬山，它更看重 archive 与谱系管理，因为中间退化的分支也可能成为后续突破的 stepping stone。
它代表了“源码级外环改写”这条线的上限，也同时暴露了安全性、治理与验证成本问题。

Meta-Harness: End-to-End Optimization of Model Harnesses

本地文件：2603.28052v1.pdf · 下载日期：2026-05-18

它把 harness 当成优化对象，而不是把 prompt 或参数当成唯一调节手段。
核心方法是让 coding agent 读取历史 harness、分数和原始 trace，再生成新的 harness 代码。
对工程系统的价值在于：它把“围绕模型的程序结构”视为第一等公民，这和面向真实任务的 agent 编排非常一致。

A Survey of Self-Evolving Agents

本地文件：2507.21046v4.pdf · 下载日期：2026-05-23

这篇综述更像是体系化地图，帮助区分“演化什么、何时演化、如何演化、在哪个层面演化”。
它适合拿来做分类框架，而不是拿来直接决定实现细节。
结合前面几篇论文阅读，它可以作为后续整理研究议程时的索引层。

GitHub 深读项目

Trinkle23897/learning-beyond-gradients

访问高峰：2026-05-09 到 2026-05-10

仓库描述就是 “Heuristic Learning Blog Post”，但浏览轨迹显示阅读不止停留在文章页面，而是深入看了 Atari、MuJoCo、Breakout、Ant 和 prompt template 等实验材料。
这说明关注的重点不是“HL 这个概念是否成立”，而是它如何通过代码 heuristics、实验脚本和归档结果落成一个真正可复现的 workflow。
对这轮阅读主线而言，它像是一个非梯度路线的参照组：不是优化模型权重，而是优化程序、规则、策略和搜索过程。

sail-sg/envpool

访问时间：2026-05-09 22:20

这是一个高性能并行环境执行引擎，服务于通用 RL environment 的向量化运行。
它出现在这条阅读链中很合理，因为无论是 Heuristic Learning 还是 controller discovery，背后都依赖便宜、稳定、批量化的 rollout 环境。
它代表的是“实验吞吐量基础设施”这一层，而不是算法主体本身。

vllm-project/vllm

访问时间：2026-05-09 16:46

vLLM 是高吞吐、内存效率高的 LLM inference / serving engine。
它和这轮论文阅读形成互补：论文讨论如何改 agent 外环，vLLM 代表真实推理系统的执行底座。
如果后续把 controller search、trace replay 或 self-improving harness 接到生产推理链路上，类似 vLLM 这样的 runtime 约束是必须面对的。

搜索记录给出的补充信号

本机近期可见的搜索记录非常稀疏，明确抓到的查询主要是 2026 年 5 月 3 日围绕 “deepseek v4 flash mac studio 512G” 的 Google 搜索。这说明当前研究日记的主线更多来自直接访问论文、仓库和本地整理材料，而不是靠搜索引擎连续发散。

换句话说，这一轮不是“广撒网找方向”，而是已经有方向后，围绕少量高相关材料做深挖。

5 月 28 日增补

这次复查重新读取了本机可访问的 Chrome `History` 快照与 `downloads` 表，并补查了 Chrome `Profile 1`。默认 profile 里的 URL 条目依然很稀疏，但 `Profile 1` 仍然保留了 5 月 9 日围绕 `learning-beyond-gradients` 的稳定访问行，以及同日对 `envpool` 和 `vllm` 的邻近访问记录。

高置信度阅读条目仍然来自下载记录与本地文件：`Meta-Harness`、`LLMs Improving LLMs`、`Darwin Godel Machine`、`The Log is the Agent`、`A Survey of Self-Evolving Agents`，再加上两份本地综合笔记《Agentic Harnesses, AutoResearch, Test-Time Scaling, and Self-Improving LLM Agents》与《自演化与 Agentic 系统的控制论综合分析》。

因此，这次增补能够重新确认的深读仓库仍然是 `learning-beyond-gradients`，而 `envpool` 和 `vllm` 更适合作为同一研究线上的基础设施邻近项目。当前公开仓库里与这条研究线最相邻的个人工程项目仍然是 `gradientforce-website`、`codegraph`、`kernel-pilot` 与 `gqa-flash-attn-rtx3060`，但这里不把它们冒充成已确认深读项目。

当前判断

最近阅读最稳定的结论是：下一代 agent 系统的差异化，越来越可能来自外环工程学。哪些状态被保存，哪些 trace 被保留，控制器是否可搜索，失败是否可诊断，分支是否可 fork，评估是否足够便宜，这些问题决定了 agent 是否能持续提升。

对于真实工程任务，这条路线比“再堆一个更大的模型”更可操作。因为日志、图、回放、分叉、回滚、局部验证和基准守门，都是可以逐步加到现有系统里的能力，而不是必须等待新的基础模型代际更替。

Back to Homepage

最近一轮阅读集中在自演化 Agent、Harness Engineering 与 Heuristic Learning