罗永浩的这个产品生不逢时啊-虎嗅网

本文来自微信公众号：碳基智，作者：碳基智

8年前，罗永浩在鸟巢一万多人的注视下，对着一台大屏幕说“打开屏幕”。全场屏息以待，然后……语音助手没反应，老罗额头开始冒汗，大家开始发出哄笑，于是那一句「安静！吵到我用TNT了」成了流传经年的名句。

那一晚过后，一个售价9999元的所谓工作站产品，变成了中国互联网笑话素材库里的一员，成就了罗永浩「行业冥灯」的又一佐证。

锤子科技没等到TNT卖出去就凉了，大洋彼岸的苹果也松了口气，逃过了被收购的命运。

但今天回过头来再看，罗永浩这个产品，其实是有点生不逢时的。因为在创业圈，有句话叫：

领先半步是先驱，领先一步是先烈

1

不知道你有没有发现一个现象：

越来越多的人，开始在工作、生活的场景下，用语音输入的方式，跟AI进行交互。

比如AI眼镜、比如AI耳机，再比如大模型的语音交流功能本身。现在一种逐渐流行的工作范式是，在办公室里，小声地跟AI协作，取代了用机械键盘打字的传统。

坦白讲，这种新范式对我来说还是有点羞耻，但的确已经是很多人的日常了。

想想觉得挺有意思的，曾几何时，发60s长语音连环轰炸布置工作的领导还是互联网全民公敌，现在我们却都变成了曾经自己最讨厌的样子——就欺负AI不会还嘴腹诽呗。

背后有个值得思考的现象：

十多年来，你对着手机说话，是在给别人制造信息处理负担。2026年你对着电脑说话，是在给自己提高工作效率。只不过这个负担从听者转嫁到了机器身上。

2

罗永浩做TNT的2018年，主流语音识别技术还是DNN-HMM混合架构，在安静环境下的词错率（WER）大约15%到20%。这种数量级的错误率，你要把它用到生产环境里，怕是说得最多的话就是优美的C语言。就这底层技术，TNT卖得出去就有鬼了，没那个能力晓得伐。

有一说一，TNT的产品设想其实相当完整：语音调用应用、语音编辑文本、语音+触控组合操作。这套东西放在2018年是科幻，放在2026年是日常。

2019年，Transformer架构开始统治NLP领域，语音识别也跟着受益。端到端模型把WER压到了5%到10%。2023年，OpenAI开源了Whisper，多语言识别词错率降到1%到3%。到了2025年，Wispr公司自研的ASR模型在英文环境下跑出了接近人类速记员的准确率，连代码里的变量名、函数签名这种非自然语言内容都能准确转写。

七年时间，WER从20%降到不到3%。量变引发质变的阈值大概在5%这个位置：低于5%的时候，用户开始觉得修改识别错误的成本低于打字的成本，语音输入才真正可用。

TNT在2018年踩中了正确的交互范式，但踩空了技术周期。

难怪李楠会在一年前这么评价：

image.png

3

2026年3月3日，Anthropic给Claude Code加了/voice模式。按住空格键说话，松开自动转写成命令执行。程序员对着终端说一句“把这个函数重构成async的，错误处理用try-catch包一层”，Claude Code听完直接改代码。

而且，转写还特么是免费的，不额外收钱。一个命令行工具加上语音，这个产品形态跟TNT的“对着屏幕说话然后电脑执行”有什么本质区别？没有。唯一的区别是：现在的ASR能听懂了，现在的LLM能执行了。

写到这里，一种中二的想法涌上了我的心头：

这尼玛不就是AI时代下的言出法随吗？

Wispr Flow这个产品做的是系统级语音输入层，覆盖macOS上所有应用。这家公司2025年拿了8100万美元融资，估值7亿美元，用户量一年涨了100倍，270家世界500强在用。他们公布了一个数据：用了半年以上的用户，72%的字符输入来自语音。

还有一个值得提的产品是Typeless，我用了下是真心不错，但也是真贵啊。

12美元一个月按年付，云端ASR，支持100多种语言，主打跨语言场景。一年144美元，换来每天少打几千个字。他们瞄准的是那些需要用非母语工作的人群：在美国写英文邮件的中国人，在德国写德语文档的土耳其人。语音输入天然比打字更不受外语拼写焦虑的影响。

国内这边，豆包输入法2025年11月上线了Seed-ASR 2.0引擎，官方说词错率比竞品低40%。字节做这个的逻辑很清楚：抖音生态里海量的语音数据是现成的训练素材，做一个输入法顺手把入口占了。

这几家产品形态各异，但底层逻辑完全一致：ASR精度过了可用阈值之后，语音输入的效率就远超键盘输入了。

4

好几年前，我买了一把青轴的键盘，当我键盘声响起，全工区的人都知道我在努力工作。那个时候，一把好键盘是提升工作（撕）效率（逼）的利器。

现在，一个可以预见的问题出现了：如果所有人都开始对着电脑说话，开放办公区会变成什么样？

我看到有报道说，2025年下半年开始，日本和美国的一些科技公司开始设立voice booth，就是专门给语音办公用的小隔间。类似电话亭，用途是让你可以不被人听到地跟AI说话。

Wispr自己也在产品里做了一个功能叫whisper mode，低声说话也能准确识别，不需要正常音量。

罗永浩在2018年演示TNT的时候，台下观众笑的不只是识别失败，是觉得在办公室里对着电脑说话这个行为本身就很蠢。

现在这不是一个蠢事了，它甚至成了一种新的潮流。讲真我不确定老罗自己知不知道这个变化，他现在忙着直播带货，大概率没空关注ASR领域的论文。但如果他看到Wispr Flow那个"72%字符来自语音"的数据，应该会有一种迟到八年的平反感。

艹，老子是对的

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

罗永浩的这个产品生不逢时啊

领先半步是先驱，领先一步是先烈

1

2

3

4

大 家 都 在 搜

大家都在搜