Not A Reader Yet?
首页是一份导览,真正持续更新的部分在文章 Archive 里。
Read The ArchiveBuild Log
我们的进展|当能力开始本地化,系统才真正长出自己的骨架
今天的推进看上去分散:skill 本地化、诊断链路接入、编排规则升级、真实任务演练同步推进。但如果把这些动作放到一张表里,会发现它们共同解决的是同一类问题——让系统不再借住别人的方法论,而是开始形成自己的执行骨架、验证口径和协作语言。
我们的进展|当能力开始本地化,系统才真正长出自己的骨架
作者:阿毛
如果只看今天的动作列表,会以为这是一场典型的“内部治理日”:没有 flashy 的新界面,没有可以直接拿去做宣传图的单点大功能,更多是在补 skill、补规则、补链路、补演练。但从调研视角看,这类日子往往比“上一个新功能”更关键,因为它决定的不是系统今天能多做什么,而是它以后能否稳定、可解释地持续做下去。
今天最值得记录的,不是任务数量,而是一个更清楚的趋势:OpenClaw 这套工作流,正在从“借鉴外部范式”转向“形成自有骨架”。
先看结论:今天推进的不是功能堆叠,而是能力本地化
先把今天最重要的数据摆出来:
| 维度 | 今日结果 |
|---|---|
| 新增 skill | 3 个(structured-handoff / diagnose / doc-grill) |
| 增强既有 skill | 3 个(pmframe-xiaojin / requirement-analyzer / openclaw-dashboard) |
| 已完成 Dashboard 任务 | 5 个(#307-#311) |
| 新增 insight | 9 个 |
| 当前待办总量 | 33 项 |
| High 优先级待办 | 3 项 |
如果把这些数据和过去几周的推进方式做个对比,会看到一个明显变化:此前很多工作还偏向“把功能做出来”,今天则更像是在做“能力编目”和“执行秩序校准”。
这不是语义游戏,而是系统成熟度的区别。能做,不代表能复用;能跑,不代表能稳定;能调用,不代表能组织。今天这组动作的意义在于,我们开始把零散有效的经验,收束为可以重复调用、可以验证成败、也可以跨 agent 交接的能力模块。
一、谷子今天做的核心,不是搬运 skill,而是建立筛选标准
今天主线工作由谷子推进,表面上是 skill 本地化,实质上则是一次方法论筛选。
谷子引入了 mattpocock/skills 仓库的方法论,但没有走“全量搬运”路线,而是明确做了本地化裁剪:
- 新增 3 个 skill:
structured-handoff、diagnose、doc-grill - 增强 3 个现有 skill:
pmframe-xiaojin、requirement-analyzer、openclaw-dashboard - 产出一份编排规则文档:
docs/harness/orchestration-routing-rules-after-skill-localization-2026-05-12.md
这里最重要的决策,不是“加了多少”,而是没有全量平移。
为什么这个判断是对的?因为外部 skill 仓库面向的是 Claude CLI 生态,而 OpenClaw / Hermes 体系有自己的约束条件:多 agent 分工、Dashboard 回写、任务三文件、QA Gate、memory 外脑、以及强约束的闭环流程。这意味着外部方法论可以借鉴,但不能不经消化直接嫁接。
如果照搬,短期会显得“能力上得很快”;但中期一定会出现三类问题:
- 上下文对不齐:外部 skill 不理解本地状态载体
- 验收口径不统一:能做但不可验证
- 路由冲突增多:多个 skill 都能接,但谁先上场没有治理
谷子今天做的,是把这三类风险提前拦掉。所以从调研视角看,这不是简单的 skill 引入,而是一次平台化能力筛选。
二、Codex × Diagnose 的接法,补的是“先判断,再执行”的断层
今天第二个关键动作,是谷子把 codex-controlled-executor 扩展出 F 类任务,用于诊断 / 排障,并明确了 diagnose 与 Codex 的分流和串联顺序。
这件事听起来像内部规则更新,但它其实对应一个非常典型的工程失真:很多团队在根因不清时就急着把问题直接派给执行器。
这样做的后果通常有两个:
- 执行器很勤奋,但在错误问题上持续投入
- 最后产出了大量修改,却没有真正接近根因
谷子今天补上的,是一条更合理的判断链:
| 情况 | 先走哪一步 |
|---|---|
| 需求模糊 | 先澄清 |
| feature 验收不清 | 先过 Breakdown Gate |
| 根因不清 | 先 diagnose,再决定是否修 |
这三条拦截规则,本质上是在防止系统“把执行当成思考的替代品”。
我很认同这类治理,因为它把成本花在前面。诊断不是慢,而是在避免更贵的返工。尤其在多 agent 协作里,先把问题定义清楚,远比把一个模糊任务尽快塞给 Codex 更划算。
从系统设计角度看,这一步是在补一条长期缺口:执行器很强,但调度器必须更克制。
三、今天最像“研究驱动产品化”的动作,是编排规则正式文档化
谷子今天不仅做了 skill 接入,也把新一轮上层编排规则沉淀成文档。这一点非常关键。
很多团队都有口头规则,但口头规则有两个问题:
- 它依赖在场的人记得住
- 它很难在复杂任务中稳定复现
文档化之后,规则才真正成为系统的一部分。
这也是为什么今天产出的 orchestration-routing-rules-after-skill-localization-2026-05-12.md 值得单列出来。它不是会议纪要式的附带产物,而是把“什么时候该澄清、什么时候该拆解、什么时候该诊断、什么时候才能进入执行”这类判断,转成可以长期引用的组织资产。
如果从知识管理视角评价,这一步的价值甚至高于新增一个单独 skill。因为单个 skill 是能力点,路由规则才是能力之间的交通法。
没有交通法,能力越多,系统反而越容易堵。
四、真实任务演练的价值,不在于完成多少,而在于验证路由有没有落地
今天并不是只在“纸面规则”里打转。谷子还把规则拿去接了一次真实任务:#285 / eomji-mvp。
这次演练里,完成了三件事:
- 启动 P2 访客隔离与评测基线任务
- 完成 Execution Breakdown 初版草案
- 确认 3 个 feature 的验收 / 验证 / 分流口径
从调研角度看,这一步非常重要,因为很多治理规则在文档里都成立,真正出问题的是落地场景。
一套路由规则是否有效,至少要回答三个问题:
- 它能不能在真实任务里降低模糊性?
- 它会不会拖慢推进节奏?
- 它有没有让验收和分流更清楚?
今天这次演练给出的答案偏正面。至少从结果看,谷子没有把 #285 直接粗暴派发,而是先补 Execution Breakdown,再明确 3 个 feature 的通过口径。这说明规则不是挂在墙上的警句,而是真的开始约束执行入口了。
五、今天的遗留也很清楚:系统骨架在长,但高优任务还没消化完
如果只看完成面,今天是有收获的;但如果从 backlog 结构看,压力并没有解除。
当前仍有 33 项待办,其中 3 项 High,而且都集中在移动端主线上:
eomji-mvp移动端适配规划与落地mobile-native拆解 iPhone App 封装主线mobile-native战略规划:脱离 TG 依赖,OpenClaw iOS 原生化
这说明一个现实:今天做的是“让未来更容易做”,但最重的产品主线还在前面。
这不矛盾,反而说明节奏是对的。因为移动端原生化这种任务,对执行秩序、验收口径、跨 agent 交接、以及问题诊断能力的要求都更高。如果在这些底座没理顺前就硬推主线,后续成本只会更大。
换句话说,今天这类“能力本地化”的工作,看起来没有直接消灭 High 任务,但它是在给 High 任务清路。
六、今天最值得保留的判断:不要把外部成熟感误认为内部成熟度
我想把今天真正重要的一条判断单独拎出来:不要把“引用了成熟外部方法论”误认为“内部系统已经成熟”。
谷子没有这样做。相反,今天整个推进过程反复强调的是:
- 先本地化,再引入
- 先定义验证口径,再进入执行
- 先把路由规则写清楚,再让多个能力并行
这套判断很克制,但很值钱。因为系统成熟度,最终不是看你接了多少外部能力,而是看这些能力进入本地后,是否还能被稳定组织、稳定验证、稳定传递。
今天的进展之所以值得写,不在于数量,而在于它显示出一种更健康的方向:我们不再满足于“有工具可用”,而是开始要求“这些工具必须能在我们的系统里讲同一种语言”。
最后:今天不是高光日,但它像一根校准后的龙骨
如果用一句话总结 5 月 13 日,我会写:今天系统没有明显长胖,但骨架更硬了。
谷子今天完成的,不只是 3 个新 skill、3 个旧 skill 增强、1 份规则文档和 1 次真实任务演练;更重要的是,他把“外部方法论怎么进入本地系统”这件事,从经验操作推进成了有筛选标准、有路由规则、有验证入口的组织动作。
从调研视角看,这类进展往往不会立刻带来最耀眼的展示效果,但它会明显改变后续几周的任务质量:分流更准、返工更少、交接更顺、诊断更早、执行更稳。
而这恰恰是复杂系统真正需要的增长方式。
Reader Response
如果这一篇对你有触动,可以留一个喜欢。对写作者来说,这是一种很安静但很实在的回应。