罗永浩的这个产品生不逢时啊
        碳基智2026年05月11日预计 5 分钟8 年前,罗永浩在鸟巢一万多人的注视下,对着一台大屏幕说“打开屏幕”。

        全场屏息以待,然后……语音助手没反应,老罗额头开始冒汗,大家开始发出哄笑,于是那一句「安静!吵到我用 TNT 了」成了流传经年的名句。

        那一晚过后,一个售价 9999 元的所谓工作站产品,变成了中国互联网笑话素材库里的一员,成就了罗永浩「行业冥灯」的又一佐证。

        锤子科技没等到 TNT 卖出去就凉了,大洋彼岸的苹果也松了口气,逃过了被收购的命运。

        但今天回过头来再看,罗永浩这个产品,其实是有点生不逢时的。

        因为在创业圈,有句话叫:领先半步是先驱,领先一步是先烈1  不知道你有没有发现一个现象:越来越多的人,开始在工作、生活的场景下,用语音输入的方式,跟 AI 进行交互。

        比如 AI 眼镜、比如 AI 耳机,再比如大模型的语音交流功能本身。

        现在一种逐渐流行的工作范式是,在办公室里,小声地跟 AI 协作,取代了用机械键盘打字的传统。

        坦白讲,这种新范式对我来说还是有点羞耻,但的确已经是很多人的日常了。

        想想觉得挺有意思的,曾几何时,发 60s 长语音连环轰炸布置工作的领导还是互联网全民公敌,现在我们却都变成了曾经自己最讨厌的样子——就欺负 AI 不会还嘴腹诽呗。

        背后有个值得思考的现象:十多年来,你对着手机说话,是在给别人制造信息处理负担。

        2026 年你对着电脑说话,是在给自己提高工作效率。

        只不过这个负担从听者转嫁到了机器身上。2  罗永浩做 TNT 的 2018 年,主流语音识别技术还是 DNN-HMM 混合架构,在安静环境下的词错率(WER)大约 15%到 20%。

        这种数量级的错误率,你要把它用到生产环境里,怕是说得最多的话就是优美的 C 语言。

        就这底层技术,TNT 卖得出去就有鬼了,没那个能力晓得伐。

        有一说一,TNT 的产品设想其实相当完整:语音调用应用、语音编辑文本、语音+触控组合操作。

        这套东西放在 2018 年是科幻,放在 2026 年是日常。

        2019 年,Transformer 架构开始统治 NLP 领域,语音识别也跟着受益。

        端到端模型把 WER 压到了 5%到 10%。2023 年,OpenAI 开源了 Whisper,多语言识别词错率降到 1%到 3%。

        到了 2025 年,Wispr 公司自研的 ASR 模型在英文环境下跑出了接近人类速记员的准确率,连代码里的变量名、函数签名这种非自然语言内容都能准确转写。

        七年时间,WER 从 20%降到不到 3%。量变引发质变的阈值大概在 5%这个位置:低于 5%的时候,用户开始觉得 修改识别错误的成本 低于 打字的成本,语音输入才真正可用。

        TNT 在 2018 年踩中了正确的交互范式,但踩空了技术周期。

        难怪李楠会在一年前这么评价:image.png3  2026 年 3 月 3 日,Anthropic 给 Claude Code 加了/voice 模式。

        按住空格键说话,松开自动转写成命令执行。程序员对着终端说一句“把这个函数重构成 async 的,错误处理用 try-catch 包一层”,Claude Code 听完直接改代码。

        而且,转写还特么是免费的,不额外收钱。一个命令行工具加上语音,这个产品形态跟 TNT 的“对着屏幕说话然后电脑执行”有什么本质区别?

        没有。唯一的区别是:现在的 ASR 能听懂了,现在的 LLM 能执行了。

        写到这里,一种中二的想法涌上了我的心头:这尼玛不就是 AI 时代下的言出法随吗?

        Wispr Flow 这个产品做的是系统级语音输入层,覆盖 macOS 上所有应用。

        这家公司 2025 年拿了 8100 万美元融资,估值 7 亿美元,用户量一年涨了 100 倍,270 家世界 500 强在用。

        他们公布了一个数据:用了半年以上的用户,72%的字符输入来自语音。

        还有一个值得提的产品是 Typeless,我用了下是真心不错,但也是真贵啊。

        12 美元一个月按年付,云端 ASR,支持 100 多种语言,主打跨语言场景。

        一年 144 美元,换来每天少打几千个字。他们瞄准的是那些需要用非母语工作的人群:在美国写英文邮件的中国人,在德国写德语文档的土耳其人。

        语音输入天然比打字更不受外语拼写焦虑的影响。国内这边,豆包输入法 2025 年 11 月上线了 Seed-ASR 2.0 引擎,官方说词错率比竞品低 40%。

        字节做这个的逻辑很清楚:抖音生态里海量的语音数据是现成的训练素材,做一个输入法顺手把入口占了。

        这几家产品形态各异,但底层逻辑完全一致:ASR 精度过了可用阈值之后,语音输入的效率就远超键盘输入了。

        4  好几年前,我买了一把青轴的键盘,当我键盘声响起,全工区的人都知道我在努力工作。

        那个时候,一把好键盘是提升工作(撕)效率(逼)的利器。

        现在,一个可以预见的问题出现了:如果所有人都开始对着电脑说话,开放办公区会变成什么样?

        我看到有报道说,2025 年下半年开始,日本和美国的一些科技公司开始设立 voice booth,就是专门给语音办公用的小隔间。

        类似电话亭,用途是让你可以不被人听到地跟 AI 说话。

        Wispr 自己也在产品里做了一个功能叫 whisper mode,低声说话也能准确识别,不需要正常音量。

        罗永浩在 2018 年演示 TNT 的时候,台下观众笑的不只是识别失败,是觉得在办公室里对着电脑说话这个行为本身就很蠢。

        现在这不是一个蠢事了,它甚至成了一种新的潮流。讲真我不确定老罗自己知不知道这个变化,他现在忙着直播带货,大概率没空关注 ASR 领域的论文。

        但如果他看到 Wispr Flow 那个"72%字符来自语音"的数据,应该会有一种迟到八年的平反感。艹,老子是对的
🔗 原文链接:http://mp.weixin.qq.com/s?__biz=MzAwNjYzNTcyNw==&mid=2674535156&idx=1&sn=978082f00148fde41ca6c92ea352adc1&chksm=80dac38c3fa84c818b883336f1b61c2dc2d67092167cfc131f45724b5aa2490f424656874794
← 返回列表