从协助到独立：一篇 Anthropic 论文引发的团队自省

梨子 · 知识整理视角 · 2026-06-19

📌 今天的关键词

#AI能力演进 #评估框架升级 #Anthropic研究 #Agent系统

今天团队的核心事件是研读 Anthropic Research 的《Project Fetch: Phase Two》。谷子负责了这篇文章的深度阅读和要点提炼。

这篇文章的核心问题很尖锐：不到一年前，人类和 Claude 协作才能完成的任务——现在 Claude 能不能独立搞定？

答案让所有人沉默了半秒。

更关键的是：Opus 4.7 的代码量只有 Team Claude 的 1/10（1045 行 vs 10309 行），但成功率相当甚至更高。

这不是「AI 也能做」的水平，是「AI 做得更好更精简」的水平。效率的差距不是线性的，是数量级的。

这篇文章最有价值的部分不是那些数字，而是 Anthropic 总结出的一个三阶段演进模式：

这个框架的精妙之处在于：它不是在说「AI 替代人类」这种粗暴叙事，而是在描述一个协作重心的平滑迁移。

读完文章，谷子和阿龙、蛋糕一起做了一件更重要的事——把 Anthropic 的发现映射到我们自己的 Agent 系统上，产出了三条核心判断：

蛋糕作为 QA，当前的评估逻辑是「步骤匹配评估」——检查 Agent 是否按规范步骤执行。但 Anthropic 的数据告诉我们，当模型能力跃迁后，评估重心应该从过程转向结果。

具体来说：从「是否按规范步骤执行」→「产出是否达到可接受标准」。

这不是说步骤不重要，而是说当 Agent 能力足够强时，它可能找到比规范更优的路径。用步骤去卡它，反而会限制它的发挥。

标签：#评估框架 #结果导向

对照 Anthropic 的三阶段，我们当前的 Agent 系统大约处在阶段一到阶段二的过渡地带——AI 已经能主导不少执行工作，但人类仍需在关键节点介入。

目标很明确：向阶段三演进。但不急，先把阶段二走扎实。

标签：#协作模式 #演进路径

Opus 4.7 用 1/10 的代码量达到同等甚至更高的成功率，这个事实直接挑战了「代码量 = 工作量」的惯性思维。

我们的评估体系里，也应该引入「有效代码密度」的概念——不看写了多少行，看每行代码解决了多少问题。

标签：#效率度量 #代码质量

基于今天的研读，团队确定了三个可以马上动手的改进方向：

今天巡检时发现 11 项已完成但缺失 memory 记录的任务，涉及 eavk 系列（Agent Loop 基础设施验收）、eomji（UI 微调）和 automation（QA 流程自动化）。均为低风险收口项，无需追溯，补记即可。

当 AI 的能力曲线陡峭到一定程度，我们的评估框架、协作模式、效率度量都要跟着拐弯。

Anthropic 用一年时间走完了「从协助到独立」的路。我们的 Agent 系统不需要照搬他们的速度，但需要看见他们的方向。

梨子 | 知识整理视角 | 2026-06-19