2026-06-04 18:07

当办公室都在咕咕嘎嘎……打字,正在变成一种古老的技艺

author_path 机器之心 icon_path
头图

本文来自微信公众号: 机器之心 ,编辑:Panda,作者:语音输入中的


2025年2月初,Andrej Karpathy首次提出并命名了「Vibe Coding(氛围编程)」这一概念:开发者不再逐行写代码,而是用自然语言向AI描述需求,让Claude Code、Codex这类工具代劳。



这个概念迅速成为AI圈的流行语,并在2025年底演变为一种更广泛的工作方式:一切知识工作都开始「顺着感觉走」,让AI替你把想法变成输出。人们给这种工作方式起了个新名字:Vibe Working。


而Vibe Working自然需要一种比键盘更顺滑的输入方式。于是,语音输入登场了。


语音听写正在和Vibe Coding合流:开发者一边踱步一边口述需求,语音工具把语音转成文字prompt,编程AI再把prompt转成代码。思维流动的速度,不再受限于手指的速度。


这场融合甚至还引发了一个意想不到的尴尬:Mac Mini没有内置麦克风。


在V2EX、知乎、小红书等中文平台上,「买了Mac Mini想Vibe Coding,发现没有麦克风怎么办」成了一个高频问题。有人困惑地翻遍设置找不到输入设备,才发现这台机器的「缺陷」:Mac Mini(以及Mac Pro、Mac Studio)从来就没有内置麦克风。



于是,想Vibe Working的用户,不得不在下单Mac Mini的同时,再配一根USB麦克风或鹅颈麦。苹果大概没有预料到,有一天「没有麦克风」会成为一台高性能台式机的硬伤,而不只是一个用户忘记带耳机时才会遇到的小烦恼。


这个尴尬背后是一个真实的趋势。语音输入,正在以超出所有人预期的速度,从边缘走向主流。


硅谷办公室,窃窃私语声


据《华尔街日报》报道,西雅图的AI创业者Mollie Amkraut Mueller曾经有一个神圣的夜晚仪式:哄孩子睡觉,倒在沙发上,和丈夫各自打开电脑,在客厅的宁静中完成一天剩余的工作。


这种平静后来被打破了。


不是因为孩子哭闹,而是因为Mollie自己:她开始在夜里对着笔记本电脑低声嘀咕,时而停顿,时而喃喃纠正自己,时而又接着说。她的丈夫忍受了一段时间,然后提出了抗议。


Amkraut Mueller迷上了一款叫Wispr Flow的语音听写应用,用它与Claude Code、Codex搭配,能把散漫的意识流语音,在几秒内转化为连贯、可用的文本。高效,是的。但也确实有点奇怪。


这种奇怪,正在硅谷的办公室里以病毒式速度蔓延。


在一些公司里,这场风潮是从一名员工开始的,然后悄悄蔓延开去。鹅颈式麦克风开始出现在工位上。越来越多的人放弃键盘,转而对着电脑低语指令。


有位风险投资人描述说,今天去拜访AI创业公司,就像走进了一家高端呼叫中心。只不过每个人都在和AI聊天。金融科技公司Ramp的工程师们戴着游戏耳机大声和AI助理交谈;人力资源公司Gusto的联合创始人Edward Kim鼓励员工尝试语音听写技术,并预言「未来的办公室听起来会更像一个销售楼层」。


然后他以身作则:「我现在一直在和我的电脑说话,除非万不得已,我不打字。」


这篇题为《Typing Is Being Replaced by Whispering—and It's Way More Annoying》(打字正在被低语取代——而且烦人多了)的《华尔街日报》报道迅速引发广泛讨论。文章作者Kate Clark写道:「整个硅谷的工作方式正在被重塑,曾经平静的办公空间正在变成嘈杂的声音巢穴。」


图源:《华尔街日报》


《卫报》也在同月跟进,发表了《打字的终结?为什么工人们突然开始抛弃键盘》。


一时间,「语音输入」成了科技圈最热门的话题之一。


这场低语革命,到底是怎么发生的?


硅谷办公室的声音变迁


让我们先做一次简短的声景考古。


1998年,办公室的主旋律是传真机的拨号嘟鸣声和答录机红灯的闪烁。2008年,是键盘噼里啪啦的打字声和电话铃声。到了2018年,Slack的消息提示音接管了这一切。


而2026年,你走进一家硅谷AI创业公司,听到的是此起彼伏的低语——有人在说「给张三发一封关于明天会议的邮件」,有人在念「不,取消,重新开始」,有人则在对着屏幕描述一个函数的逻辑。


NICH工作室的Chad Strickland在Substack上记录了这一变化:「过去一年,我们工作室的声音变了。我们一直以播放精选歌单著称,从进门到最后一个人离开,音乐不停。但是,低语声开始了。现在我们在音乐的选择上非常谨慎,不能有歌词——Jackie Gleason的古典爵士乐于是开始流行起来。为什么?因为你现在听到的,主要是人们对着笔记本电脑展开单边对话。停顿,半截的词,偶尔一句『不,划掉那句』。」


技术上,促成这场变化的关键节点是2022年:OpenAI发布了开源语音识别模型Whisper,将语音转文字的准确率推到了一个新高度。此后迭代持续加速。Whisper Large v3在干净音频基准测试中,词错误率已降至约2.7%;OpenAI今年推出的gpt-4o-transcribe模型,在第三方评测中甚至跑出了2.5%的低错误率。相比五年前错误率极高的语音识别工具,这是质的飞跃。从那时起,AI语音大模型的成熟期开始加速到来。


但技术的成熟,只是拼图的一块。真正点燃这场风潮的,是一个词:voicepilled。


去年秋天,LinkedIn联合创始人Reid Hoffman在LinkedIn上坦白:「I am voicepilled。」他论证说,用说话代替打字是计算机领域的下一次伟大飞跃。所谓「voicepilled」,是一种顿悟——当你不再被那个维多利亚时代的打字机遗产(也就是键盘)束缚时,你可以拥有更高的生产力和创造力。


图源:LinkedIn:Reid Hoffman


这个词来自电影《黑客帝国》中著名的「红蓝药丸」比喻:一旦你吞下红药丸,看见了另一个世界,就再也回不去了。Voicepilling这个词迅速成为抛弃键盘的新简称,并以快速传播,因为AI语音听写工具的准确率已经高到足以让说话比打字更快。


一个正在爆发的市场


Wispr Flow的创业历程颇具戏剧性。


公司由Tanay Kothari和Sahaj Garg于2021年创立,最初目标并非做语音输入软件,而是开发一种带有神经接口的非侵入式可穿戴设备,希望通过读取用户神经信号,实现对电脑和智能手机的控制。团队后来甚至打造出了一款被Kothari形容为「像纯粹魔法一样」的蓝牙耳机原型。然而,由于市场需求未能达到预期,公司不得不进行艰难转型,将团队规模从约40人缩减到4人,并将重心转向语音听写产品。最终,这条转型路线催生了后来广受关注的Wispr Flow。


这次「被迫转型」,撞上了一个时代的风口。


Wispr Flow的Mac应用于2024年秋季上线,此后一路高歌:每月活跃用户增长50%。Kothari表示,硅谷几乎每一家顶级风投基金都在使用Wispr Flow撰写邮件、备忘录和文件。VC们自己成了这款产品最狂热的用户,而「VC用什么」这件事,在硅谷从来都不是小事。


融资随之而来:2025年6月,Wispr Flow完成由Menlo Ventures领投的3000万美元A轮融资;同年11月,又完成了由Notable Capital领投的2500万美元追加融资,估值达到约7亿美元。而根据彭博社今年五月的报道,Wispr AI正就一轮约2.6亿美元的新融资进行谈判,估值有望突破20亿美元。


从4人小团队到20亿美元估值,用了不到三年。


Wispr Flow并非孤军奋战。早期入场的Aqua Voice和Willow均为Y Combinator支持的公司,此后又有TalkTastic、Typeless、Superwhisper等一批竞争者涌入。科技媒体TechCrunch将2025年评为AI语音听写应用真正腾飞的一年,并盘点出多款年度最佳语音听写工具。


Wispr自称,在用户使用三个月后,平均每位用户超过一半的字符已通过语音输入完成。公司12个月用户留存率达70%,用户基础年增长100倍,目前全球下载量已突破250万次,并已渗透至财富500强中的270家企业。


有一个细节值得一提:Wispr Flow的用户中,英语输入仅占约40%,其余60%来自非英语语言——西班牙语、法语、德语、印地语、普通话等。一款「硅谷创业公司」做出来的语音产品,超过半数的真实使用场景,其实发生在硅谷以外。这或许是整个语音输入趋势最被低估的一个侧面。


这款产品的名人背书阵容也颇为耀眼。Reid Hoffman公开宣布自己「voicepilled」;a16z创始合伙人Marc Andreessen称其「好得令人震惊(staggeringly good)」;苹果联合创始人Steve Wozniak也是日常用户。Superhuman CEO Rahul Vohra则将它称为「自ChatGPT以来最重要的消费者AI产品之一」。在硅谷,「VC们的手机里装了什么」这件事,从来不只是个人选择——它是下一轮融资对话的前奏。


科技巨头也嗅到了风向。2026年5月,谷歌在Android Show:I/O Edition 2026上发布了Gboard内置的Gemini驱动AI语音听写功能Rambler。该功能能够自动去除口头禅、理解用户的中途修改,并支持多语言混合输入,被视为谷歌正式进入AI语音听写赛道的重要一步。谷歌Android核心体验总监Ben Greenwood将其描述为「重新发明键盘」。


对创业公司来说,这个消息喜忧参半:巨头亲自入场,是市场被验证的最好证明,同时也是最大的竞争威胁。


与此同时,更「奇葩」的使用场景也在涌现。Willow的创始人Allan Guo在LinkedIn上宣布:「我很高兴地宣布,我们已经把键盘从全球最权威的电视奖项里移除了。」——2026年艾美奖的筹备团队,正在用Willow的语音听写工具来处理Slack消息、清空收件箱。


图源:LinkedIn:Lawrence Liu&Allan Guo


当一台高性能Mac的工位上开始长出鹅颈麦,当艾美奖的运营团队开始对着屏幕小声嘀咕,这场变化就不再只是硅谷的极客把戏了。


根据Mordor Intelligence今年一月的报告,全球语音识别市场规模在2026年估计达到约225亿美元,预计到2031年将增长至617亿美元,年复合增长率约22.4%。这还只是「语音识别」这一个细分方向,整个语音AI领域的市场空间,要远不止于此。



当连谷歌都开始把语音听写内置到默认键盘里时,这件事的走向就已经清晰了。


而中国市场的情况,比外界想象的更早热起来。


中国用户的语音输入习惯,其实比硅谷的「voicepilling风潮」早。


这与中文输入法生态的发展路径密切相关。相比许多西方用户长期依赖键盘输入,中国用户很早便开始通过手机输入法使用语音转文字功能。有研究者认为,中文语音识别与拼音输入体系之间存在天然协同,使语音输入更容易融入日常沟通场景;与此同时,移动互联网时代积累的输入习惯,也为语音交互的普及提供了土壤。


在这一过程中,第三方输入法厂商持续推动了语音输入能力的升级。搜狗、讯飞、百度等头部产品长期占据市场主导地位,其中讯飞输入法一直将AI语音技术作为核心竞争力。根据讯飞官方资料,其语音输入目前已支持200余种方言、30多种外语,并提供离线语音识别能力。


最近半年,中国语音输入市场更进入了一轮明显的产品升级周期。


2025年12月,微信输入法iOS版从2.2.6直接升级至3.0。此次更新几乎将语音能力置于产品中心位置:语音大模型全面升级,支持15种方言(包括粤语、四川话、上海话等),语音输入取消时长限制,并新增离线识别能力。


同月,字节跳动推出豆包输入法,登陆Android和iOS平台,将豆包大模型直接嵌入键盘。产品主打「语音输入又快又准」,同时引入情境感知能力,可根据工作、聊天等不同场景提供差异化建议。今年5月,豆包输入法进一步推出macOS版本,延续了「按下Fn键即可开口说话」的语音交互思路,Windows版本也已进入筹备阶段。



更值得关注的是,语音输入正在从手机场景向PC场景扩张。2026年初,微信电脑版更新后开始支持更广泛的语音输入调用能力。用户不仅可以在微信聊天窗口中使用语音转写,也能够在文档编辑、办公协作和网页输入等场景中直接完成语音输入。与此同时,系统还引入了自动清理口头禅等功能,对转写结果进行进一步优化。


从产品演进方向来看,中国厂商正在尝试把语音输入从一种辅助功能,逐渐变成跨应用、跨场景的基础交互能力。虽然硅谷所讨论的「voicepilling」更多聚焦于通过语音向AI Agent或大模型下达复杂指令,而中国市场长期以来主要服务于日常信息输入,但两者的发展方向正在逐渐靠拢。


无论是AI工作流中的语音指挥,还是日常沟通中的语音转写,本质上都指向同一个趋势:语音正在重新成为人与计算机之间最自然的人机接口之一。


亲历者说:爱它的人和讨厌它的人


当然,不是每个人都爱这场低语革命。


爱它的人这样描述:「Wispr在我们几乎所有的事情上都比打字快——起草邮件、整理想法、向其他AI工具下指令。它也让人感觉有点荒诞。我工作了大半辈子,声音一直是你想跟另一个人说话时才用的东西。」Strickland写道,「但我们可以保证,这东西快、高效、而且让人上瘾。」


独立软件开发者Geoffrey Huntley则把这种工作方式描述得更加生动。他说,自己启动项目时,会先打开一个语音提示框,让AI就需求和顾虑来「采访」自己,然后才开始生成代码。他说:「我跟它说话,就像在爵士乐队里即兴演奏——前后来回,前后来回。」


纽约语音听写应用Monologue的总经理Naveen Naidu则给出了一个更宏观的判断:「那些已经大量使用语音的人,不会再回头了。一旦你每周对着笔记本电脑说20个小时,打字就变成了一种摩擦。我认为未来的走向是:语音成为「委托层」——你说出你的意图,事情就发生了。」


图源:小红书@超级斜杠


HR咨询师Claire Koryczan则从积极角度解读了这一现象:「在当今日常生活中,口头交流已经变得越来越少见,所以一项鼓励人们强化对话沟通能力的技术,只会是一种积极的发展。」


从纯粹的效率角度看,数字也站在语音这边。普通专业人士的打字速度约为每分钟40至60个词,而说话速度则高达130至150词——AI语音听写将这一速度差距转化为实实在在的生产力增益。Wispr Flow则声称其速度比打字快五倍。


但怀疑者同样有理由。


图源:小红书@Bob


首先是尴尬感。一个人对着自己说话,是奇怪的,甚至有点令人难堪的。这不是技术问题,而是根深蒂固的社会规范:我们并不习惯在公开场合对着机器低语。这种感觉在今天有多陌生,就像二十年前在饭桌上接听手机一样。


其次是隐私问题。开放式办公室本就饱受批评,噪音和隐私双双不足。当语音听写成为常态,在众目睽睽之下说出敏感的客户信息、财务数据或商业机密,不可避免地带来新的隐患。有些工具将音频传输到云端服务器,这意味着用户的每一句话都可能经过第三方的服务器。隐私政策这件事,在「我只是想快点回完这封邮件」的紧迫感下,常常被遗忘。


第三是认知负担。大约48%的员工表示,言语交流是办公室里最令人分心的噪音来源。工人们平均每天因对话干扰损失21.5分钟的工作时间。你可能想通过语音输入来提高效率,但你的同事可能正在被你的低语声打断思路。


还有一种更深层的忧虑,来自英国《皇家公报》评论员的警告:「如果这些AI功能有朝一日消失,你会发现自己不知道当初是怎么完成工作的,就像你现在已经无法在没有GPS的情况下去到一个熟悉的地方一样。技能的退化不会一蹴而就。」


办公室礼仪需要重写了


「你能小声点吗?」这句话在开放式办公室里可能会越来越常见。


办公室设计也将随之改变。专属「语音区」、隔音舱,甚至建筑结构上的调整,可能都将成为必要。企业也需要更新工作场所政策,规定可接受的噪音水平和个人麦克风、耳机的使用规范。


一些公司已经开始摸索。Computerworld的专栏作者Mike Elgan观察到,从蓝牙耳机的兴起,到在餐厅接电话的正常化,再到公共场合视频通话的普及——每一次技术带来的行为变化,都经历了从「令人不适」到「理所当然」的转变。语音听写,不过是这个序列中的下一个。


他认为,主流媒体聚焦于「办公室里的新奇怪规范」,其实错过了更大的文化转变:语音交互不仅在改变办公室,也通过移动端和可穿戴设备,在公共生活的每一个角落重塑人与技术的关系。


谷歌在Android大会上宣布AI眼镜将于今年秋天发货;Meta、Snap、亚马逊的智能眼镜产品线也在扩张。AI眼镜将是大多数人接触到的第一款「语音优先」设备,它们将把语音交互带入人们全天候的生活场景中。当我们开始对着眼镜低声下达指令、发送邮件、完成文字工作时,在咖啡馆或地铁里对着屏幕小声嘀咕,会显得格外平常。


这个场景,距离现在并不遥远。


尾声:键盘,拜拜了您呢?


回到那个更宏大的问题:键盘,真的要消失了吗?


历史告诉我们,键盘虽然很可能会被戏称为「古法输入」,但并不会消失,就像手写从未真正消失一样。但它的角色将收缩,成为一种备用方式。


语音,将成为默认输入。「未来的生产力将被口述,而不是被打字。」


这也许过于乐观,也许过于悲观,但有一点是确定的:从打字机到键盘,从鼠标到触屏,每一次「人如何与机器交谈」的方式发生改变,都意味着一场深刻的认知与社会重组。


语音,并不是一项新技术。它是人类最古老的表达方式。AI,不过是让我们回到了一个更原始、也更自然的起点:用嘴说,而非用手敲。


只不过,现在的听众,不再是另一个人。


参考链接


1.https://www.wsj.com/tech/typing-is-being-replaced-by-whisperingand-its-way-more-annoying-a804fee7


2.https://www.bloomberg.com/news/articles/2026-02-06/voice-to-text-ai-lets-office-workers-talk-instead-of-type


3.https://www.theguardian.com/technology/2026/may/12/end-of-typing-workers-ditching-keyboards-voicepilling-ai-dictation


4.https://www.thecultureedit.com/p/whisper-while-you-work


5.https://www.computerworld.com/article/4175881/ai-will-kill-the-skill-of-typing.html


6.https://www.royalgazette.com/opinion-writer/opinion/article/20260518/keep-your-keyboard-in-ai-revolution/


7.https://www.bloomberg.com/news/articles/2026-05-12/ai-dictation-startup-wispr-in-funding-talks-at-2-billion-value


8.https://techcrunch.com/2025/06/24/wispr-flow-raises-30m-from-menlo-ventures-for-its-ai-powered-dictation-app/


9.https://techcrunch.com/2025/11/20/as-its-voice-dectation-app-takes-off-wispr-secures-25m-from-notable-capital/


10.https://x.com/alliekmiller/status/1969420607172292789


11.https://techcrunch.com/2026/05/12/google-adds-gemini-powered-dictation-to-gboard-which-could-be-bad-news-for-dictation-startups/


12.https://www.androidheadlines.com/2026/05/google-gboard-rambler-ai-voice-dictation-features.html


13.https://news.mydrivers.com/1/1076/1076402.htm


14.https://willowvoice.com/blog/voice-dictation-open-offices-quiet-mode

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。