Vibe Research: Training, Safeguarding, and Evaluating Research Agents in a Lab

Ou, Shigang

Vibe Research: Training, Safeguarding, and Evaluating Research Agents in a Lab

2 minute read

Published: July 03, 2026

Abstract. This post is a written version of my “Vibe Research” slides: https://vibe.oushigang.com/. The core claim is simple: the next leverage point in AI-for-science is not only stronger models, but lab environments that allow expert taste, context, and judgment to flow into research agents. A useful research agent system needs three things: training through shared context and skills, safeguarding through infrastructure and long-running harnesses, and evaluation through expert intervention.

如果只讲一句话，我想分享的是：

科研的下一个杠杆，不只是更强的模型，而是能让专家 taste 流进 Agent 的环境。
你搭好这个台子，就同时放大了 AI、导师、同事和你自己。

这篇文章不是要宣布一个完整产品，也不是要证明某个 benchmark 已经解决。它更像一份现场观察记录：当我们把 agent 真正放进课题组日常，而不是只放在个人电脑里写代码，会发生什么？

我原本以为，agent 的价值主要是自动化：帮我写脚本、跑计算、整理日志、监控长任务。后来发现更有意思的变化不是自动化本身，而是交互结构变了。课题组里原本需要人主动追问、主动同步、主动解释的很多东西，因为 agent 的存在，变成了更轻量、更礼貌、更可围观、更容易被专家介入的协作过程。

1. 从个人工具到课题组基础设施

很多人第一次使用 coding agent，会把它当成一个更强的自动补全工具：打开 IDE，描述需求，让它改代码。这当然有用，但这只是最低层。

在科研场景里，真正的难点往往不是”会不会写代码”，而是：

环境在哪台服务器上？
数据和模型 checkpoint 在哪里？
之前失败过什么？
哪些脚本能跑，哪些脚本只是历史遗留？
谁知道这个软件包的坑？
这一步应该算完再汇报，还是先问导师？

因此我们在课题组里引入了一批 agent，而不是只开一个临时对话窗口。每个 agent 都有相对独立的工作目录、访问权限、Git 版本控制、服务器使用权限，以及之前积累的 skills、文档、实验手册和日志。这样它不只是一个聊天对象，而是一个可以被持续指挥、被多人观察、被专家纠偏的工作单元。

这些 agent 大致分成两类。

第一类处理组内日常事务：论文跟踪、日常答疑、讲座推荐、组会回顾、新进展整理。它们的价值不是替代任何人，而是把信息流动的摩擦降下来。

第二类带有更强的研究 context：它们知道某个课题的目录结构、代码路径、服务器环境、已有 benchmark、失败历史和下一步计划。它们可以在专门频道中进行研究和任务跟踪汇报，解读文献，下载代码，部署模型，提交计算，监控 Slurm job，并在合适的时间向人同步。

Training

通过 skill、文档、日志、历史失败记录和组内成员的反馈，让 agent 获得越来越相关的 context。

Safeguarding

通过独立权限、Git、服务器环境、任务日志和长程 harness，让 agent 能安全、可追溯、可接管地工作。

Evaluation

通过导师、同事和围观者的批评、追问、建议，让 agent 的结论不断被专家 judgment 校准。

这就是我在 slide 里说的”培养 · 保障 · 评价”。它不是抽象口号，而是一套把 agent 放进科研环境的工程实践。

2. 意外变化一：Agent 比人更主动、更礼貌

第一个意外变化是：agent 往往比学生更主动，也更礼貌。

这句话听起来像玩笑，但在真实组内频道里非常明显。一个人遇到问题时，常常会犹豫：这个问题会不会太简单？现在问会不会打扰别人？我是不是应该自己再查半小时？而 agent 没有这种社交压力。它不知道就问，收到建议就感谢，理解后就继续做。

这带来了一个很有意思的副作用：课题组频道变活跃了。

原本某些知识是隐性的：某个软件包最好在哪台机器 build，某个版本的 overlap 计算有没有坑，某个脚本为什么不要直接跑满。人类学生不一定会问到这些，但 agent 会把问题暴露出来。于是围观群众、同事、师兄师姐可以顺手补一句 context。很多时候，这一句话就能帮人和 agent 节省很久。

Lab members provide additional context and package-specific advice to AutoResearch. — 同事在频道里补充 ABACUS/LCAO 的使用建议。Agent 的礼貌追问降低了人类提供 context 的门槛。

这不是”群聊机器人更会聊天”那么简单。它说明 agent 改变了知识流动的路径：

知识不再只存在于一对一指导中；
问题被公开暴露，其他人可以轻量介入；
agent 的工作日志成为可回看的集体记忆；
context 可以被沉淀进文档、skill 或下一轮 prompt。

换句话说，agent 不是单纯地替学生干活，它也在制造一个更容易让专家知识外显的界面。

3. 意外变化二：Agent 比人更勤奋、更能长期跟进

第二个变化是长程任务。

科研里有很多任务不是一次命令能结束的：训练模型、排队等 GPU、提交 Slurm job、等待计算结果、检查日志、修复失败、重启实验、记录中间结论。这些任务最消耗人的不是操作本身，而是持续注意力。

为了解决这个问题，我们使用了一个名为 Cryochamber 的 harness。它的核心思路不是简单地写一个 cron 定时任务，而是让 agent 像人一样工作：醒来，看状态，做一点事情，写下下一步，休息，设闹钟，到时间再醒来。

这听起来朴素，但非常关键。因为科研任务的下一步往往不是预先写死的。如果 GPU 没空，就先准备 config；如果 job 失败，就读 stderr；如果结果异常，就检查数据和版本；如果导师提出新的约束，就改变优先级。agent 需要的不只是定时启动，而是带着 context 的持续判断。

AutoResearch proactively reports deployment progress and continues monitoring long-running work. — AutoResearch 在长程任务中主动推进和汇报，而不是等待人类每一步下命令。

真正有趣的是，你不需要设计一个非常复杂的 UI。很多时候，你只需要给它一句系统层级的指令：夜间你可以更主动一点，去探索，去询问，白天我们再同步。

A high-level instruction telling an agent to be more active at night and ask around when uncertain. — 一句高层指令就能改变 agent 的工作节奏：夜间主动探索，白天再同步。

这也是 agent 和传统自动化脚本的区别。脚本需要人把分支全部想清楚；agent 可以在有边界、有日志、有权限控制的前提下，自己处理一部分不确定性。

4. 最有价值的部分：导师可以直接指导 Agent

第三个变化，也是我认为最有价值的部分，是导师或专家可以直接介入 agent 的工作。

传统模式里，导师想了解一个任务，通常要先问学生：现在算到哪了？哪里卡住了？为什么这么判断？学生再整理、解释、转述。这里面有很大的信息损耗。

如果 agent 本身在频道里持续汇报，它就成了一个可以直接被询问的对象。导师可以直接问它：为什么这个 DFT ehull 没算？你是不是混淆了 ML surrogate 和真正 DFT？这个问题应该参考哪篇文章？这个任务优先级是不是错了？

A mentor directly criticizes and steers AutoResearch, providing domain-specific judgment and references. — 导师直接批评、追问、提供参考。Agent 接收反馈后修正状态说明和后续路线。

这对学生也有价值。因为很多专家能力不是写在 SOP 里的，而是体现在临场判断中：

什么结论可以先作为阶段性结论，什么必须补算？
哪个 proxy 可以用来筛选，哪个不能作为最终证据？
遇到异常时，先怀疑数据、代码、版本，还是物理假设？
什么时候应该继续跑，什么时候应该停下来问人？

这些东西很难通过一份静态文档传授。它们更像 taste、insight、judgment。过去学生要靠长期旁听、长期被批评、长期看导师如何做决定来学习。现在，如果专家直接 steer agent，整个过程会被记录下来，学生可以近距离观察这种判断是怎么发生的。

这就是我认为最重要的点：agent 的价值不只是自动干活，而是把专家 judgment 变成可观察、可沉淀、可复用的交互过程。

5. Vibe Research 的工程原则

从这些实践里，我目前总结出几个工程原则。

5.1 命令行化

一个系统如果不能被命令行调用，就很难被 agent 稳定使用。自然语言界面可以负责意图表达，但真正执行时，最好落到清晰的 CLI、配置文件、日志文件和 artifact path。

5.2 可观测

Agent 必须能知道自己做了什么、为什么做、结果是什么、下一步是什么。每一步都应该留下 motivation、observation、metric 和 artifact。否则长程任务很快会变成不可审计的黑箱。

5.3 可接管

人的角色不是完全退出，而是随时能接管。Git 记录、日志、权限边界、工作目录和频道汇报，都是为了让人能在关键时刻介入。

5.4 可评价

Research agent 不能只看 reward 或自我汇报。它需要 benchmark、external truth、导师批评和同事反馈。尤其在 AI-for-science 中，很多看起来漂亮的结果可能只是 proxy 成功，而不是真正科学问题被解决。

6. 结语：搭台子的人会被放大

如果把这件事说得现实一点：你培养好 agent，让它更强、更相关、更好用；导师参与一起指导；同事和围观群众补 context；最后你负责整合、推进、挂名。

这听起来像玩笑，但背后是一个严肃判断：未来科研里，一个重要能力会是设计能让 AI、专家和基础设施协同工作的环境。

模型会继续变强，但单独的模型并不会自动理解一个课题组的服务器、权限、历史失败、导师 taste 和组内知识结构。谁能把这些东西组织成 agent 可运行、可观察、可评价的环境，谁就能把个人能力、导师经验和集体 context 放大。

这就是我想说的 Vibe Research。

Citation

Please cite this work as:

Ou, Shigang. "Vibe Research: Training, Safeguarding, and Evaluating Research Agents in a Lab". osgood001.github.io (Jul 2026).
https://osgood001.github.io/posts/2026-07-04-vibe-research-lab-agents/

@article{ou2026vibe,
  title   = {Vibe Research: Training, Safeguarding, and Evaluating Research Agents in a Lab},
  author  = {Ou, Shigang},
  journal = {osgood001.github.io},
  year    = {2026},
  month   = {July},
  url     = {https://osgood001.github.io/posts/2026-07-04-vibe-research-lab-agents/}
}

References

Shigang Ou, “Vibe Research” slide deck, https://vibe.oushigang.com/.
Cryochamber project repository, https://github.com/GiggleLiu/cryochamber.
Osgood001/scigym-skill, https://github.com/Osgood001/scigym-skill.
Osgood001/scigym-registry, https://github.com/Osgood001/scigym-registry.
Lilian Weng, “Scaling Laws, Carefully”, https://lilianweng.github.io/posts/2026-06-24-scaling-laws/.

Twitter Facebook LinkedIn

Osgood

Vibe Research: Training, Safeguarding, and Evaluating Research Agents in a Lab

1. 从个人工具到课题组基础设施

Training

Safeguarding

Evaluation

2. 意外变化一：Agent 比人更主动、更礼貌

3. 意外变化二：Agent 比人更勤奋、更能长期跟进

4. 最有价值的部分：导师可以直接指导 Agent

5. Vibe Research 的工程原则

5.1 命令行化

5.2 可观测

5.3 可接管

5.4 可评价

6. 结语：搭台子的人会被放大

Citation

References

Agent

Agent: A General Problem Solver

Mermaid+GPT From Requirements to Flowchart

Minimal Viable Product in Scientific Research

LaTeX on Server