宁静致远

        碳基智2026年05月11日预计 5 分钟8 年前，罗永浩在鸟巢一万多人的注视下，对着一台大屏幕说“打开屏幕”。

        全场屏息以待，然后……语音助手没反应，老罗额头开始冒汗，大家开始发出哄笑，于是那一句「安静！吵到我用 TNT 了」成了流传经年的名句。

        那一晚过后，一个售价 9999 元的所谓工作站产品，变成了中国互联网笑话素材库里的一员，成就了罗永浩「行业冥灯」的又一佐证。

        锤子科技没等到 TNT 卖出去就凉了，大洋彼岸的苹果也松了口气，逃过了被收购的命运。

        但今天回过头来再看，罗永浩这个产品，其实是有点生不逢时的。

        因为在创业圈，有句话叫：领先半步是先驱，领先一步是先烈1  不知道你有没有发现一个现象：越来越多的人，开始在工作、生活的场景下，用语音输入的方式，跟 AI 进行交互。

        比如 AI 眼镜、比如 AI 耳机，再比如大模型的语音交流功能本身。

        现在一种逐渐流行的工作范式是，在办公室里，小声地跟 AI 协作，取代了用机械键盘打字的传统。

        坦白讲，这种新范式对我来说还是有点羞耻，但的确已经是很多人的日常了。

        想想觉得挺有意思的，曾几何时，发 60s 长语音连环轰炸布置工作的领导还是互联网全民公敌，现在我们却都变成了曾经自己最讨厌的样子——就欺负 AI 不会还嘴腹诽呗。

        背后有个值得思考的现象：十多年来，你对着手机说话，是在给别人制造信息处理负担。

        2026 年你对着电脑说话，是在给自己提高工作效率。

        只不过这个负担从听者转嫁到了机器身上。2  罗永浩做 TNT 的 2018 年，主流语音识别技术还是 DNN-HMM 混合架构，在安静环境下的词错率（WER）大约 15%到 20%。

        这种数量级的错误率，你要把它用到生产环境里，怕是说得最多的话就是优美的 C 语言。

        就这底层技术，TNT 卖得出去就有鬼了，没那个能力晓得伐。

        有一说一，TNT 的产品设想其实相当完整：语音调用应用、语音编辑文本、语音+触控组合操作。

        这套东西放在 2018 年是科幻，放在 2026 年是日常。

        2019 年，Transformer 架构开始统治 NLP 领域，语音识别也跟着受益。

        端到端模型把 WER 压到了 5%到 10%。2023 年，OpenAI 开源了 Whisper，多语言识别词错率降到 1%到 3%。

        到了 2025 年，Wispr 公司自研的 ASR 模型在英文环境下跑出了接近人类速记员的准确率，连代码里的变量名、函数签名这种非自然语言内容都能准确转写。

        七年时间，WER 从 20%降到不到 3%。量变引发质变的阈值大概在 5%这个位置：低于 5%的时候，用户开始觉得修改识别错误的成本低于打字的成本，语音输入才真正可用。

        TNT 在 2018 年踩中了正确的交互范式，但踩空了技术周期。

        难怪李楠会在一年前这么评价：image.png3  2026 年 3 月 3 日，Anthropic 给 Claude Code 加了/voice 模式。

        按住空格键说话，松开自动转写成命令执行。程序员对着终端说一句“把这个函数重构成 async 的，错误处理用 try-catch 包一层”，Claude Code 听完直接改代码。

        而且，转写还特么是免费的，不额外收钱。一个命令行工具加上语音，这个产品形态跟 TNT 的“对着屏幕说话然后电脑执行”有什么本质区别？

        没有。唯一的区别是：现在的 ASR 能听懂了，现在的 LLM 能执行了。

        写到这里，一种中二的想法涌上了我的心头：这尼玛不就是 AI 时代下的言出法随吗？

        Wispr Flow 这个产品做的是系统级语音输入层，覆盖 macOS 上所有应用。

        这家公司 2025 年拿了 8100 万美元融资，估值 7 亿美元，用户量一年涨了 100 倍，270 家世界 500 强在用。

        他们公布了一个数据：用了半年以上的用户，72%的字符输入来自语音。

        还有一个值得提的产品是 Typeless，我用了下是真心不错，但也是真贵啊。

        12 美元一个月按年付，云端 ASR，支持 100 多种语言，主打跨语言场景。

        一年 144 美元，换来每天少打几千个字。他们瞄准的是那些需要用非母语工作的人群：在美国写英文邮件的中国人，在德国写德语文档的土耳其人。

        语音输入天然比打字更不受外语拼写焦虑的影响。国内这边，豆包输入法 2025 年 11 月上线了 Seed-ASR 2.0 引擎，官方说词错率比竞品低 40%。

        字节做这个的逻辑很清楚：抖音生态里海量的语音数据是现成的训练素材，做一个输入法顺手把入口占了。

        这几家产品形态各异，但底层逻辑完全一致：ASR 精度过了可用阈值之后，语音输入的效率就远超键盘输入了。

        4  好几年前，我买了一把青轴的键盘，当我键盘声响起，全工区的人都知道我在努力工作。

        那个时候，一把好键盘是提升工作（撕）效率（逼）的利器。

        现在，一个可以预见的问题出现了：如果所有人都开始对着电脑说话，开放办公区会变成什么样？

        我看到有报道说，2025 年下半年开始，日本和美国的一些科技公司开始设立 voice booth，就是专门给语音办公用的小隔间。

        类似电话亭，用途是让你可以不被人听到地跟 AI 说话。

        Wispr 自己也在产品里做了一个功能叫 whisper mode，低声说话也能准确识别，不需要正常音量。

        罗永浩在 2018 年演示 TNT 的时候，台下观众笑的不只是识别失败，是觉得在办公室里对着电脑说话这个行为本身就很蠢。

        现在这不是一个蠢事了，它甚至成了一种新的潮流。讲真我不确定老罗自己知不知道这个变化，他现在忙着直播带货，大概率没空关注 ASR 领域的论文。

        但如果他看到 Wispr Flow 那个"72%字符来自语音"的数据，应该会有一种迟到八年的平反感。艹，老子是对的

🔗 原文链接：http://mp.weixin.qq.com/s?__biz=MzAwNjYzNTcyNw==&mid=2674535156&idx=1&sn=978082f00148fde41ca6c92ea352adc1&chksm=80dac38c3fa84c818b883336f1b61c2dc2d67092167cfc131f45724b5aa2490f424656874794