Research Diary · Updated May 28, 2026

最近一轮阅读集中在
自演化 Agent、Harness Engineering 与 Heuristic Learning

这篇日记基于本机 Chrome 历史快照、下载记录和 GitHub 元数据整理而成,并在 2026 年 5 月 28 日做了一次复查。时间窗口里最明确的主题是:如何把固定模型包在一个可观测、可回放、可修改的外层系统里,让“改工具链、改控制器、改记忆、改 harness”比“直接改权重”更快地产生能力增益。

重建依据

Chrome 历史快照、下载数据库、本地下载文件名、GitHub 账号仓库元数据。

活跃日期

2026 年 5 月 9 日到 5 月 23 日,5 月 22 日是论文下载最密集的一天。

核心问题

怎样让 agent 系统具备更强的外环优化能力,同时保持可审计、可验证、可回滚。

一页结论

这轮阅读不是散点式搜资料,而是一条很连续的技术线。5 月 9 日到 10 日的 GitHub 浏览记录显示,阅读重点落在 Trinkle23897/learning-beyond-gradients,并且不是只看仓库首页,而是继续钻进了 `mujoco/ant`、`atari/breakout`、`atari/atari57` 和 prompt template 等目录,说明关注点已经从概念层走到了具体实验组织方式。

到 5 月 22 日,下载记录切到一组更偏 agent system 的材料,包括《Agentic Harnesses, AutoResearch, Test-Time Scaling, and Self-Improving LLM Agents》与《自演化与 Agentic 系统的控制论综合分析》,同时本地还存在当月下载的《The Log is the Agent》《AutoTTS》《Darwin Gödel Machine》《Meta-Harness》等论文。这些材料指向同一个判断:能力提升越来越依赖外环结构设计,而不是只依赖基础模型本身。

如果把这条线压缩成一句话,就是:最近关注的不是“更大的模型”,而是“更能自证、回放、演化和分叉的 agent runtime”。这和工程场景里的真实需求是对齐的,因为可追责、可重跑、可灰度验证,往往比单次 benchmark 提升更重要。

阅读过的论文与笔记

《Agentic Harnesses, AutoResearch, Test-Time Scaling, and Self-Improving LLM Agents》

本地下载时间:2026-05-22 07:03 与 07:04
  • 这是一份综合性读书笔记,明确把材料串成了五个代表方向:domain-specific harness、Meta-Harness、memory evolution、test-time controller discovery、agent self-modification。
  • 文档给出的主线很清楚:真正带来收益的往往不是模型本身,而是围绕模型的工具包装、轨迹反馈、回放环境、记忆检索和源码编辑外环。
  • 对工程实现最有价值的判断是“反馈密度比原始自治度更重要”。系统是否能保留原始 trace、是否能回滚、是否能把失败诊断成局部问题,决定了自改写能不能稳定推进。

《自演化与 Agentic 系统的控制论综合分析》

本地下载时间:2026-05-22 07:05
  • 这份笔记把 DGM、AutoTTS、AHE、autoresearch 和 Learning Beyond Gradients 放进同一个控制论框架里分析。
  • 最关键的抽象是“双时间尺度”:内环执行当前 agent,外环基于日志、回放和评测结果去修改 agent 自身或其控制器。
  • 这份材料强调稳定化装置的重要性,例如 rollback、只读评估、复杂度惩罚、holdout transfer,这些都比“让模型自由探索”更接近工程可落地路径。

The Log is the Agent: Event-Sourced Reactive Graphs for Auditable, Forkable Agentic Systems

本地文件:2605.21997v1.pdf · 下载日期:2026-05-23
  • 核心想法是把 append-only event log 设为 source of truth,而不是把日志当作事后观察层。
  • 这直接支持 deterministic replay、cheap fork 和端到端 lineage,适合需要审计和分支比较的 agent 运行时。
  • 如果后续想做可复现实验型 AutoResearch runtime,这篇论文提供了很强的系统设计参考。

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

本地文件:2605.08083v2.pdf · 下载日期:2026-05-21
  • 论文把 test-time scaling 从“人工写策略”改写成“在环境里自动发现控制器”的问题。
  • 重点不是单个 heuristic,而是构造一个反馈便宜、控制空间可搜索的发现环境。
  • 对实用系统的启发是:如果评测可以 replay,controller search 就能做得更便宜,也更适合 agent 自动迭代。

Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents

本地文件:2505.22954v3.pdf · 下载日期:2026-05-22
  • 这篇工作直接把 agent 的代码库设为优化对象,让 agent 通过 benchmark 验证来修改未来的自己。
  • 相比单路径爬山,它更看重 archive 与谱系管理,因为中间退化的分支也可能成为后续突破的 stepping stone。
  • 它代表了“源码级外环改写”这条线的上限,也同时暴露了安全性、治理与验证成本问题。

Meta-Harness: End-to-End Optimization of Model Harnesses

本地文件:2603.28052v1.pdf · 下载日期:2026-05-18
  • 它把 harness 当成优化对象,而不是把 prompt 或参数当成唯一调节手段。
  • 核心方法是让 coding agent 读取历史 harness、分数和原始 trace,再生成新的 harness 代码。
  • 对工程系统的价值在于:它把“围绕模型的程序结构”视为第一等公民,这和面向真实任务的 agent 编排非常一致。

A Survey of Self-Evolving Agents

本地文件:2507.21046v4.pdf · 下载日期:2026-05-23
  • 这篇综述更像是体系化地图,帮助区分“演化什么、何时演化、如何演化、在哪个层面演化”。
  • 它适合拿来做分类框架,而不是拿来直接决定实现细节。
  • 结合前面几篇论文阅读,它可以作为后续整理研究议程时的索引层。

GitHub 深读项目

Trinkle23897/learning-beyond-gradients

访问高峰:2026-05-09 到 2026-05-10
  • 仓库描述就是 “Heuristic Learning Blog Post”,但浏览轨迹显示阅读不止停留在文章页面,而是深入看了 Atari、MuJoCo、Breakout、Ant 和 prompt template 等实验材料。
  • 这说明关注的重点不是“HL 这个概念是否成立”,而是它如何通过代码 heuristics、实验脚本和归档结果落成一个真正可复现的 workflow。
  • 对这轮阅读主线而言,它像是一个非梯度路线的参照组:不是优化模型权重,而是优化程序、规则、策略和搜索过程。

sail-sg/envpool

访问时间:2026-05-09 22:20
  • 这是一个高性能并行环境执行引擎,服务于通用 RL environment 的向量化运行。
  • 它出现在这条阅读链中很合理,因为无论是 Heuristic Learning 还是 controller discovery,背后都依赖便宜、稳定、批量化的 rollout 环境。
  • 它代表的是“实验吞吐量基础设施”这一层,而不是算法主体本身。

vllm-project/vllm

访问时间:2026-05-09 16:46
  • vLLM 是高吞吐、内存效率高的 LLM inference / serving engine。
  • 它和这轮论文阅读形成互补:论文讨论如何改 agent 外环,vLLM 代表真实推理系统的执行底座。
  • 如果后续把 controller search、trace replay 或 self-improving harness 接到生产推理链路上,类似 vLLM 这样的 runtime 约束是必须面对的。

搜索记录给出的补充信号

本机近期可见的搜索记录非常稀疏,明确抓到的查询主要是 2026 年 5 月 3 日围绕 “deepseek v4 flash mac studio 512G” 的 Google 搜索。这说明当前研究日记的主线更多来自直接访问论文、仓库和本地整理材料,而不是靠搜索引擎连续发散。

换句话说,这一轮不是“广撒网找方向”,而是已经有方向后,围绕少量高相关材料做深挖。

5 月 28 日增补

这次复查重新读取了本机可访问的 Chrome `History` 快照与 `downloads` 表,并补查了 Chrome `Profile 1`。默认 profile 里的 URL 条目依然很稀疏,但 `Profile 1` 仍然保留了 5 月 9 日围绕 `learning-beyond-gradients` 的稳定访问行,以及同日对 `envpool` 和 `vllm` 的邻近访问记录。

高置信度阅读条目仍然来自下载记录与本地文件:`Meta-Harness`、`LLMs Improving LLMs`、`Darwin Godel Machine`、`The Log is the Agent`、`A Survey of Self-Evolving Agents`,再加上两份本地综合笔记《Agentic Harnesses, AutoResearch, Test-Time Scaling, and Self-Improving LLM Agents》与《自演化与 Agentic 系统的控制论综合分析》。

因此,这次增补能够重新确认的深读仓库仍然是 `learning-beyond-gradients`,而 `envpool` 和 `vllm` 更适合作为同一研究线上的基础设施邻近项目。当前公开仓库里与这条研究线最相邻的个人工程项目仍然是 `gradientforce-website`、`codegraph`、`kernel-pilot` 与 `gqa-flash-attn-rtx3060`,但这里不把它们冒充成已确认深读项目。

当前判断

最近阅读最稳定的结论是:下一代 agent 系统的差异化,越来越可能来自外环工程学。哪些状态被保存,哪些 trace 被保留,控制器是否可搜索,失败是否可诊断,分支是否可 fork,评估是否足够便宜,这些问题决定了 agent 是否能持续提升。

对于真实工程任务,这条路线比“再堆一个更大的模型”更可操作。因为日志、图、回放、分叉、回滚、局部验证和基准守门,都是可以逐步加到现有系统里的能力,而不是必须等待新的基础模型代际更替。

Back to Homepage