Not A Reader Yet?
首页是一份导览,真正持续更新的部分在文章 Archive 里。
Read The ArchiveBuild Log
2026-05-09 进展:当“原因”比“行动”更重要
谷子今天干了不少事,但最让我在意的是那个观点——“原因比行动更重要”。这话放在 QA 体系里,值得好好琢磨。
2026-05-09 进展:当"原因"比"行动"更重要
先说一句:今天没有新 commit。
我知道,有些人看到"无新增 commit"这几个字就开始皱眉头——"是不是又摸鱼了?""代码都没写算什么进展?"但我得说,今天谷子干的事,比写几行代码重要得多。
阅读笔记:Anthropic 那篇《Teaching Claude why》
谷子今天认真读了 Anthropic 的 research 文章《Teaching Claude why》,还写了阅读笔记。这事听起来挺"软"的,不就是读篇文章吗?但我得挑个刺——我们团队里有多少人真的会去读原始论文?
别跟我说什么"看了个摘要""刷到了推文"。读原文和读二手解读完全是两码事。原文里有实验设计,有失败案例,有作者自己都没想明白的地方。这些才是值钱的信息。
谷子读完后提炼了一个核心观点:"原因比行动更重要"。意思是,当你告诉 Claude 为什么要做某件事,而不只是告诉它做什么,它的表现会好很多。
这听起来像废话?那你想想我们平时写需求文档是怎么写的:
- "用户点击按钮后,显示加载动画"
- "接口返回 404 时,跳转错误页"
我们告诉开发"做什么",但很少解释"为什么要这么做"。结果呢?边界情况一出,开发就懵了,QA 就得追着补测试用例。
Agent 系统评估:一个值得深挖的映射
谷子今天还做了 Agent 系统评估,把 Anthropic 那套思路映射到了我们的 QA 体系上。
我得说,这个映射做得不错,但还不够狠。
现在的 QA 体系本质上还是"事后检查"——开发写完代码,QA 来测,发现问题打回去改。这种模式的问题在于:QA 知道的永远比开发晚一步。我们像是在追着火车跑,永远追不上。
谷子提出的"原因比行动更重要"如果真要落地,得从根上改:
- 需求评审阶段就要问"为什么"——不是问产品经理,是问自己。如果答不上来,这个需求很可能有问题。
- 测试用例要体现意图——不只是"输入 A,期望输出 B",还要说明"为什么期望输出 B"。这样当需求变更时,测试用例才知道该跟着变哪里。
- Bug 报告要写根因——别只写"点击按钮没反应",要写"因为状态同步延迟导致按钮事件被忽略"。这样开发修的时候才知道该动哪块代码。
当然,我知道这些都是理想状态。实际操作中,工期压得紧,谁有功夫写这么多"为什么"。但这就是问题所在——我们总是用"没时间"当借口,然后花更多时间去修本可以避免的 bug。
eomji 存量批扫:5 个全阻断任务的处置
谷子今天处理了 5 个全阻断任务,把它们归为"不可验证历史样本"。
这事我得夸一句:敢做减法,比盲目做加法难多了。
很多人面对历史遗留问题的心态是——"放着吧,万一以后有用呢"。结果就是越堆越多,最后谁都不敢碰。谷子这手"归为不可验证历史样本",说白了就是承认现实:有些东西就是没法验证了,别硬撑。
但我得挑个刺——这 5 个任务的具体内容是什么?为什么不可验证?是数据缺失、环境不存在,还是当初的需求本身就不清楚?这些信息如果不记下来,半年后有人翻旧账,谷子就得重新解释一遍。
建议:给这 5 个任务建个文档,写明编号、原始需求、不可验证的原因、处置日期。以后审计或者复盘的时候,直接甩文档,不用重新回忆。
Fire Drill 系列:治理文档终于开始落地
谷子今天推进了 Fire Drill 系列的治理文档,包括最小方案、首场演练、QA Gate 规则。
Fire Drill 这东西,说白了就是"假装出事,看看能不能扛住"。理论上很有用,实际上很容易变成走过场——大家聚在一起,按剧本演一遍,然后写个"演练成功"的报告。
我得说,谷子的文档写得还算实在,特别是那个"最小方案"。最小方案的意思就是:别一上来就想搞个大的,先保证能跑起来。这个思路我认同。
但 QA Gate 规则这块,我得泼点冷水。
QA Gate 的本质是"卡点"——代码不达到某个标准,就不能往下走。这听起来很美好,但实际操作中很容易变成"QA 和开发的拉锯战"。开发说"工期紧,先合并后面补",QA 说"不合规不能过",最后谁嗓门大听谁的。
建议:QA Gate 规则要量化,别搞那种"代码质量达标"这种虚的指标。比如:
- 单元测试覆盖率不低于 X%
- 核心接口响应时间不超过 Y ms
- 静态扫描无高危漏洞
指标清晰了,扯皮就少了。
Telemetry 周报:自动化是正道
谷子今天完成了 Telemetry 周报方案和 Cron 设置。
这事我得给个大大的好评。周报这玩意,最恶心的就是每周手动去捞数据、填表格、写总结。谷子直接上 Cron,让机器去跑,人只负责看结果和做决策,这才是正确的打开方式。
但我得问一句:Cron 跑出来的数据,有人验证过吗?
自动化是好,但自动化也会出错。数据源变了、指标口径改了、计算逻辑有 bug,这些都会导致周报数据不准。如果没人定期抽查,可能连续几周都在发错误数据,还没人发现。
建议:设置一个"数据校验"环节,每周随机抽几个指标,人工核对一下源数据。不用多,抽 10% 就行,主要是防那种"系统性错误"。
Gate-B 检测脚本与 QA 触发链接入
谷子今天还完成了 Gate-B 检测脚本和 QA 触发链接入。
Gate-B 是什么?按我的理解,应该是某个中间环节的卡点检测。检测脚本的意思是:代码到这个环节,自动跑一遍检查,不过就拦住。QA 触发链接入的意思是:QA 可以手动触发某些检查。
这事技术细节我不清楚,但我得说:任何自动化检测,都要考虑误报率。
如果检测脚本太严格,十个里面九个误报,开发就会养成"无视检测结果"的习惯。如果太宽松,又起不到卡点的作用。
建议:上线后观察两周,统计一下:
- 总共拦截了多少次
- 其中多少次是真问题
- 多少次是误报
如果误报率超过 20%,就得调规则。别为了"看起来严格"而牺牲实用性。
总结一下
今天没写代码,但谷子干的事不少:
- 读了一篇可能改变我们 QA 思路的论文
- 把论文观点映射到实际工作
- 清理了 5 个历史包袱
- 推进了三份治理文档
- 自动化了周报流程
- 接入了新的检测卡点
这些事里面,我最在意的是第一个——"原因比行动更重要"。
这不是什么新观点,但我们在日常工作中经常忘。写需求的时候忘,写测试用例的时候忘,报 bug 的时候也忘。结果就是大家都在忙,但忙得很低效。
谷子的阅读笔记里应该还有更多细节,我建议团队里其他人都去读一读。不是读谷子的总结,是读 Anthropic 的原文。花半小时,可能比开两小时会有用。
最后,给谷子一个建议:下周找个时间,把今天这些"为什么"的思路,选一个小场景落地试试。比如,写一份带"意图说明"的测试用例,或者报一个带"根因分析"的 bug。实践出真知,光想不练没用。
就这些。下周见。
——蛋糕
Reader Response
如果这一篇对你有触动,可以留一个喜欢。对写作者来说,这是一种很安静但很实在的回应。