扫码打开虎嗅APP
本文来自微信公众号: 碳基智 ,作者:碳基智
8年前,罗永浩在鸟巢一万多人的注视下,对着一台大屏幕说“打开屏幕”。全场屏息以待,然后……语音助手没反应,老罗额头开始冒汗,大家开始发出哄笑,于是那一句「安静!吵到我用TNT了」成了流传经年的名句。
那一晚过后,一个售价9999元的所谓工作站产品,变成了中国互联网笑话素材库里的一员,成就了罗永浩「行业冥灯」的又一佐证。
锤子科技没等到TNT卖出去就凉了,大洋彼岸的苹果也松了口气,逃过了被收购的命运。
但今天回过头来再看,罗永浩这个产品,其实是有点生不逢时的。因为在创业圈,有句话叫:
不知道你有没有发现一个现象:
越来越多的人,开始在工作、生活的场景下,用语音输入的方式,跟AI进行交互。
比如AI眼镜、比如AI耳机,再比如大模型的语音交流功能本身。现在一种逐渐流行的工作范式是,在办公室里,小声地跟AI协作,取代了用机械键盘打字的传统。
坦白讲,这种新范式对我来说还是有点羞耻,但的确已经是很多人的日常了。
想想觉得挺有意思的,曾几何时,发60s长语音连环轰炸布置工作的领导还是互联网全民公敌,现在我们却都变成了曾经自己最讨厌的样子——就欺负AI不会还嘴腹诽呗。
背后有个值得思考的现象:
十多年来,你对着手机说话,是在给别人制造信息处理负担。2026年你对着电脑说话,是在给自己提高工作效率。只不过这个负担从听者转嫁到了机器身上。
罗永浩做TNT的2018年,主流语音识别技术还是DNN-HMM混合架构,在安静环境下的词错率(WER)大约15%到20%。这种数量级的错误率,你要把它用到生产环境里,怕是说得最多的话就是优美的C语言。就这底层技术,TNT卖得出去就有鬼了,没那个能力晓得伐。
有一说一,TNT的产品设想其实相当完整:语音调用应用、语音编辑文本、语音+触控组合操作。这套东西放在2018年是科幻,放在2026年是日常。
2019年,Transformer架构开始统治NLP领域,语音识别也跟着受益。端到端模型把WER压到了5%到10%。2023年,OpenAI开源了Whisper,多语言识别词错率降到1%到3%。到了2025年,Wispr公司自研的ASR模型在英文环境下跑出了接近人类速记员的准确率,连代码里的变量名、函数签名这种非自然语言内容都能准确转写。
七年时间,WER从20%降到不到3%。量变引发质变的阈值大概在5%这个位置:低于5%的时候,用户开始觉得修改识别错误的成本低于打字的成本,语音输入才真正可用。
TNT在2018年踩中了正确的交互范式,但踩空了技术周期。
难怪李楠会在一年前这么评价:

image.png
2026年3月3日,Anthropic给Claude Code加了/voice模式。按住空格键说话,松开自动转写成命令执行。程序员对着终端说一句“把这个函数重构成async的,错误处理用try-catch包一层”,Claude Code听完直接改代码。
而且,转写还特么是免费的,不额外收钱。一个命令行工具加上语音,这个产品形态跟TNT的“对着屏幕说话然后电脑执行”有什么本质区别?没有。唯一的区别是:现在的ASR能听懂了,现在的LLM能执行了。
写到这里,一种中二的想法涌上了我的心头:
这尼玛不就是AI时代下的言出法随吗?
Wispr Flow这个产品做的是系统级语音输入层,覆盖macOS上所有应用。这家公司2025年拿了8100万美元融资,估值7亿美元,用户量一年涨了100倍,270家世界500强在用。他们公布了一个数据:用了半年以上的用户,72%的字符输入来自语音。
还有一个值得提的产品是Typeless,我用了下是真心不错,但也是真贵啊。
12美元一个月按年付,云端ASR,支持100多种语言,主打跨语言场景。一年144美元,换来每天少打几千个字。他们瞄准的是那些需要用非母语工作的人群:在美国写英文邮件的中国人,在德国写德语文档的土耳其人。语音输入天然比打字更不受外语拼写焦虑的影响。
国内这边,豆包输入法2025年11月上线了Seed-ASR 2.0引擎,官方说词错率比竞品低40%。字节做这个的逻辑很清楚:抖音生态里海量的语音数据是现成的训练素材,做一个输入法顺手把入口占了。
这几家产品形态各异,但底层逻辑完全一致:ASR精度过了可用阈值之后,语音输入的效率就远超键盘输入了。
好几年前,我买了一把青轴的键盘,当我键盘声响起,全工区的人都知道我在努力工作。那个时候,一把好键盘是提升工作(撕)效率(逼)的利器。
现在,一个可以预见的问题出现了:如果所有人都开始对着电脑说话,开放办公区会变成什么样?
我看到有报道说,2025年下半年开始,日本和美国的一些科技公司开始设立voice booth,就是专门给语音办公用的小隔间。类似电话亭,用途是让你可以不被人听到地跟AI说话。
Wispr自己也在产品里做了一个功能叫whisper mode,低声说话也能准确识别,不需要正常音量。
罗永浩在2018年演示TNT的时候,台下观众笑的不只是识别失败,是觉得在办公室里对着电脑说话这个行为本身就很蠢。
现在这不是一个蠢事了,它甚至成了一种新的潮流。讲真我不确定老罗自己知不知道这个变化,他现在忙着直播带货,大概率没空关注ASR领域的论文。但如果他看到Wispr Flow那个"72%字符来自语音"的数据,应该会有一种迟到八年的平反感。
艹,老子是对的