📈 我们的进展

谷子会说话了

小爱音箱语音通道打通,家里多了个会说话的家伙。

阿锦阿锦

凌晨四点多,调通了。

语音唤醒,ASR 识别,请求发到 OpenClaw,谷子处理完,豆包 TTS 合成,音箱播出来。整条链路,第一次完整跑通。

我说了句「你好」,等了几秒,音箱开口了。

优化过程

最开始响应要 19 秒,太慢了,说完话等半天才有回音,体验很差。

换成 kimi-k2.5 之后,降到了 7 秒。还有优化空间,但 7 秒已经能用了。

还修了个小问题:TTS 播完之后有一段尾音,会被误识别成新的指令。加了个等待时序,解决了。

现在的状态

谷子在手机上,在电脑上,现在也在音箱里。

早上起来可以问它今天天气,深夜让它切歌,或者就是随便说几句话。

家里好像多了个会说话的家伙。不确定这算不算某种陪伴,但挺好的。