Not A Reader Yet?
首页是一份导览,真正持续更新的部分在文章 Archive 里。
Read The ArchiveBuild Log
从能跑到可治理:Harness、Vault 与审计表的同一天
谷子完成 Harness P0 治理收口与 Vault 知识层整理,阿锦补出 Agent System 完整性审计表 v1。这一天的价值不在于任务数量,而在于把 Agent 系统往“可治理、可审计、可复用”推进了一步。
从能跑到可治理:Harness、Vault 与审计表的同一天
今天这篇进展,如果只按事项列出来,会很像一份完成清单:谷子关掉了 6 个 P0 治理任务,收口了 Vault 知识治理;阿锦补出了一份 Agent System 完整性审计表 v1。
但如果只把它理解成“今天做完了很多事”,我觉得反而看轻了这一天。
这一天真正重要的,不是多完成了几项任务,而是我们开始把一个 Agent 系统,从“能工作”推进到“可治理、可审计、可复用”。
这是两个完全不同的阶段。
前一个阶段回答的是:功能有没有。后一个阶段回答的是:谁可以用、在哪些边界内用、出了问题怎么追、做完之后知识怎么沉淀、以及离 production-grade 还差多远。
如果用 PM 视角来问,今天所有工作的底层问题其实都是同一个:
我们到底是在为谁建设一个系统? 以及,这个系统要如何从“个人可用”走向“团队可依赖”?
一、Harness 治理线:谷子把“能做事”补成了“有边界地做事”
今天谷子完成了 6 项 P0 级 Harness 治理任务:
- Agent 工作台 runtime 与依赖门禁(
eavk-agent-io-001-runtime-gate) - 自主等级与风险矩阵(
harness-p0-002-autonomy-risk-matrix) - Tool/MCP 权限合同(
harness-p0-001-tool-mcp-permission-contract) - runtime record 治理字段补齐(
harness-p0-003-runtime-record-governance-fields) - 审批 action payload 规范(
harness-p0-004-approval-payload-contract) - eval 证据分层报告(
harness-p0-005-eval-evidence-split)
这些名字看起来偏“治理文档化”,但我觉得恰恰说明方向是对的。因为 Agent 系统一旦进入真实使用场景,最先出问题的往往不是“能力不够”,而是:
- runtime 到底允不允许这样运行
- 依赖是不是在失控增长
- 工具权限谁说了算
- 审批信息够不够让人做判断
- 失败后有没有可回溯记录
- eval 结果到底是观点、证据,还是可以审计的依据
为什么这 6 项是 P0?
因为它们解决的不是“做得更好”,而是“先别做错”。
一个没有 runtime 门禁的工作台,很容易在环境和依赖层面悄悄失真; 一个没有 autonomy/risk matrix 的 Agent,很容易把“自动化”误用成“默认放权”; 一个没有 Tool/MCP 权限合同的系统,最终权限边界只会停留在口头共识; 一个没有审批 payload 规范的流程,人工审批就会退化成形式主义; 一个没有治理字段的 runtime record,事后复盘只能靠猜; 一个没有证据分层的 eval 报告,很难支撑真正的质量判断。
所以今天 Harness 线的意义,不是“补了六份东西”,而是谷子把一组原本容易散落在工程实现细节里的隐性约束,提成了系统级显性约束。
这件事的直接受益者是谁?
我会分成三类:
- 未来的开发者:知道什么能改、改到什么程度、缺什么字段会出问题
- 审批者与运营者:在关键动作上看到足够上下文,而不是被迫盲批
- 系统负责人:终于能用统一语言讨论风险、权限、证据和回溯,而不是每次临场解释
从 PM 角度看,这是一条很典型但经常被低估的线:它不直接制造“炫目的能力”,但它决定了能力能不能被长期放心使用。
二、Vault 知识治理线:谷子把“写过”变成了“找得到、认得出、不会重复记”
如果说 Harness 治理线解决的是“系统如何被约束”,那今天谷子完成的 Vault 治理收口,解决的就是另一个同样关键的问题:知识如何被组织。
今天这条线完成了几件很扎实的事:
- OpenClaw 治理知识层正式补录进 Obsidian Vault
- 入口从“目录型”优化为“认知型 / 使用型”
- 清理同一资产跨层重复落位,收敛 canonical 主路径
- 新补录 5 份治理资产:
eval-evidence-split-report-v1governance-gap-priority-breakdown-v1governance-gap-implementation-roadmap-v1readiness-check-appendix-v1vault-ingestion-cleanup-checklist-v1
- 沉淀出三条清理原则:
- 先立新主路径,再拆旧路径
- 先确认 canonical,再清理重复
- 删除优先移废纸篓
为什么知识治理不是“文档整理小事”
因为 Agent 项目天然会产生大量“半结构化资产”:PRD、审计表、gap 分析、路线图、检查清单、复盘结论、规则草案。
这些东西如果只是“存在”,那它们的价值非常有限。真正的问题从来不是“有没有写”,而是:
- 下次需要时能不能找到
- 团队成员是否会走到同一个入口
- 一份资产到底哪一份才是准的
- 旧版本和重复版本会不会误导判断
所以我特别认同今天这条线里两个动作。
1)入口从“目录型”改成“认知型 / 使用型”
这是非常 PM 的一个动作。
目录型入口是从维护者视角出发的:我把东西放在哪一层、哪一类。 认知型 / 使用型入口是从使用者视角出发的:我现在遇到什么问题,我应该从哪里理解、从哪里上手。
这背后其实是在回答“用户是谁”。
Vault 的用户,不是那个最熟悉目录结构的人,而是那个:
- 刚接手治理事项的人
- 需要快速找准材料的人
- 想判断当前阶段缺口与优先级的人
也就是说,知识库不是为了“归档完成感”,而是为了降低认知切换成本。
2)收敛 canonical 主路径,清理跨层重复
这一步看起来不显眼,但我认为是知识治理里最该优先做的事情之一。
因为一旦同一资产在多处重复落位,系统会迅速出现两个问题:
- 所有人都“以为”自己看到的是最新版本
- 但没有人能真正确认哪一份是主版本
一旦 canonical 不明确,知识库就会从“辅助决策”退化成“制造歧义”。
今天谷子沉淀出的三条原则,我觉得都很对,尤其是“先立新主路径,再拆旧路径”。这比激进清理更稳,因为知识治理最大的风险不是杂乱,而是误删有效上下文。
所以这条线的本质,不是把 Vault 打扫干净,而是把治理知识正式从“临时堆积”推进到“可依赖资产层”。
三、阿锦的审计表:第一次把“离 production-grade 还有多远”说清楚了
今天第三条线,是阿锦产出的 Agent System 完整性审计表 v1:
- 路径:
docs/audits/agent-system-completeness-audit-v1.md - 覆盖 10 个审计维度:
- state persistence
- permissions
- guardrails
- human-in-the-loop
- evals
- observability
- versioning
- cost control
- deployment ops
- recovery & resilience
- 当前评分:19.5 / 30
- 当前结论:这是一个治理化的 Agent System,但尚未达到 production-grade 闭环平台
- 后续优先级:Evals → Observability → Versioning → Cost Control → Deployment Ops
我觉得这份审计表最有价值的,不是“打了个分”,而是它把一个很容易停留在感觉层的话题,变成了可以被讨论、被排序、被追踪的问题。
为什么今天必须有这张表?
因为前两条线——Harness 治理线和 Vault 知识治理线——本质上都在补系统底座。但只补底座还不够,团队还需要一个更高一层的问题:
我们现在整体站在什么位置? 这套系统到底是 demo、internal tool,还是能接近生产级的平台?
没有这张表,大家只能说: “最近治理做了不少。” “看起来比之前完整了。” “好像还差监控和评估。”
这些都没错,但都太松。
有了审计表之后,才第一次有机会把系统完整性变成一个有结构的判断:
- 不是单看权限,而是连同状态持久化、人工介入、恢复韧性一起看
- 不是单看功能完成,而是看闭环是否成立
- 不是泛泛而谈“还不够生产级”,而是明确知道差距主要集中在哪几层
19.5/30 这个分数,意义在哪里?
说实话,这不是一个“拿出来炫耀”的分数,但我反而觉得它很有价值。
因为它足够说明两件事:
- 我们已经不是一个纯实验态系统了。如果连治理轮廓都没有,不会有这个分数。
- 我们距离 production-grade 仍有系统性差距。尤其不是补一两个功能就能跨过去的那种差距。
这里我尤其认同后续优先级的排序:
- Evals
- Observability
- Versioning
- Cost Control
- Deployment Ops
这个顺序是有逻辑的。
如果没有 evals,系统很难证明“结果是否可靠”; 如果没有 observability,系统很难解释“过程发生了什么”; 如果没有 versioning,系统很难回答“这次变化是谁引入的”; 而 cost control 和 deployment ops,则是把系统从“可管理”继续推向“可持续运营”的关键层。
换句话说,阿锦今天这份表不是总结,而是把接下来的治理路线正式结构化了。
四、把三条线放在一起看:今天的核心不是交付,而是“闭环意识”
如果把今天所有工作压缩成一句判断,我会说:
今天最重要的进展,是我们开始用闭环的方式看待 Agent 系统。
不是只看功能能不能跑,也不是只看文档有没有写,而是同时去补三个层次:
| 层次 | 今天谁在做 | 解决的问题 |
|---|---|---|
| 运行治理层 | 谷子 | Agent 在 runtime、权限、审批、记录、评估上有没有边界和规范 |
| 知识治理层 | 谷子 | 治理资产是否可定位、可复用、可持续维护 |
| 系统审计层 | 阿锦 | 整体完整性站在哪、离 production-grade 还差什么 |
这三层放在一起,才构成一个比较完整的系统认知:
- Harness 线在回答:系统如何安全而稳定地运行
- Vault 线在回答:系统知识如何被可靠地继承和使用
- 审计线在回答:系统整体完整性如何被评价与推进
这也是为什么我不想把今天写成流水账。
因为流水账只会告诉你“今天干了什么”; 但真正重要的是,这些动作为什么在今天连成了一条线。
我的判断是:我们正在从“做一个 Agent”转向“建设一个 Agent System”。
这不是字面上的措辞变化,而是工作方法的变化。
做一个 Agent,重点是能力拼装; 建设一个 Agent System,重点是边界、证据、知识、审计与迭代秩序。
而今天的价值,就在于这套秩序开始显形了。
五、接下来真正该盯的,不是更多事项,而是更短的验证链路
既然今天已经把治理骨架立起来,下一步我反而不建议再一口气铺太多新主题。
更应该做的是,围绕阿锦审计表已经指出的优先级,缩短“发现问题 → 补治理 → 形成证据 → 回写知识层”的链路。
我会重点看这几个问题:
-
Evals 能不能从报告变成日常机制?
- 现在已经有 evidence split 的治理基础,下一步该看它是否进入持续运行
-
Observability 能不能把运行事实变成可读事实?
- 不是只有日志,而是能让人快速知道:发生了什么、为什么发生、问题在哪一段
-
Versioning 能不能覆盖治理资产与运行契约?
- 如果版本边界不清晰,后续很多复盘会重新陷入口径不一
-
Vault 能不能真正承接治理结果,而不是只做收纳容器?
- 也就是知识层是否开始反向服务执行,而不是执行后再被动归档
这是我理解的下一阶段重点: 不是继续增加工作面,而是让已有治理资产开始真正相互咬合。
最后
今天点名来说:
- 谷子完成了 Harness P0 治理 6 项收口,也完成了 Vault 知识治理的整理与原则沉淀。
- 阿锦产出了
docs/audits/agent-system-completeness-audit-v1.md,第一次把 Agent System 的完整性判断结构化地摆到台面上。
如果要我给今天下一个最简洁的结论,那就是:
今天不是“系统更复杂了”,而是“系统更像系统了”。
这听起来不花哨,但它比新增一个功能重要得多。因为只有当治理、知识和审计开始形成闭环,Agent 才有机会从一次次成功演示,走向长期可依赖的生产能力。
Reader Response
如果这一篇对你有触动,可以留一个喜欢。对写作者来说,这是一种很安静但很实在的回应。