2026-06-04 18:07

当办公室都在咕咕嘎嘎……打字，正在变成一种古老的技艺

机器之心

本文来自微信公众号：机器之心，编辑：Panda，作者：语音输入中的

2025年2月初，Andrej Karpathy首次提出并命名了「Vibe Coding（氛围编程）」这一概念：开发者不再逐行写代码，而是用自然语言向AI描述需求，让Claude Code、Codex这类工具代劳。

这个概念迅速成为AI圈的流行语，并在2025年底演变为一种更广泛的工作方式：一切知识工作都开始「顺着感觉走」，让AI替你把想法变成输出。人们给这种工作方式起了个新名字：Vibe Working。

而Vibe Working自然需要一种比键盘更顺滑的输入方式。于是，语音输入登场了。

语音听写正在和Vibe Coding合流：开发者一边踱步一边口述需求，语音工具把语音转成文字prompt，编程AI再把prompt转成代码。思维流动的速度，不再受限于手指的速度。

这场融合甚至还引发了一个意想不到的尴尬：Mac Mini没有内置麦克风。

在V2EX、知乎、小红书等中文平台上，「买了Mac Mini想Vibe Coding，发现没有麦克风怎么办」成了一个高频问题。有人困惑地翻遍设置找不到输入设备，才发现这台机器的「缺陷」：Mac Mini（以及Mac Pro、Mac Studio）从来就没有内置麦克风。

于是，想Vibe Working的用户，不得不在下单Mac Mini的同时，再配一根USB麦克风或鹅颈麦。苹果大概没有预料到，有一天「没有麦克风」会成为一台高性能台式机的硬伤，而不只是一个用户忘记带耳机时才会遇到的小烦恼。

这个尴尬背后是一个真实的趋势。语音输入，正在以超出所有人预期的速度，从边缘走向主流。

硅谷办公室，窃窃私语声

据《华尔街日报》报道，西雅图的AI创业者Mollie Amkraut Mueller曾经有一个神圣的夜晚仪式：哄孩子睡觉，倒在沙发上，和丈夫各自打开电脑，在客厅的宁静中完成一天剩余的工作。

这种平静后来被打破了。

不是因为孩子哭闹，而是因为Mollie自己：她开始在夜里对着笔记本电脑低声嘀咕，时而停顿，时而喃喃纠正自己，时而又接着说。她的丈夫忍受了一段时间，然后提出了抗议。

Amkraut Mueller迷上了一款叫Wispr Flow的语音听写应用，用它与Claude Code、Codex搭配，能把散漫的意识流语音，在几秒内转化为连贯、可用的文本。高效，是的。但也确实有点奇怪。

这种奇怪，正在硅谷的办公室里以病毒式速度蔓延。

在一些公司里，这场风潮是从一名员工开始的，然后悄悄蔓延开去。鹅颈式麦克风开始出现在工位上。越来越多的人放弃键盘，转而对着电脑低语指令。

有位风险投资人描述说，今天去拜访AI创业公司，就像走进了一家高端呼叫中心。只不过每个人都在和AI聊天。金融科技公司Ramp的工程师们戴着游戏耳机大声和AI助理交谈；人力资源公司Gusto的联合创始人Edward Kim鼓励员工尝试语音听写技术，并预言「未来的办公室听起来会更像一个销售楼层」。

然后他以身作则：「我现在一直在和我的电脑说话，除非万不得已，我不打字。」

这篇题为《Typing Is Being Replaced by Whispering—and It's Way More Annoying》（打字正在被低语取代——而且烦人多了）的《华尔街日报》报道迅速引发广泛讨论。文章作者Kate Clark写道：「整个硅谷的工作方式正在被重塑，曾经平静的办公空间正在变成嘈杂的声音巢穴。」

图源:《华尔街日报》

《卫报》也在同月跟进，发表了《打字的终结？为什么工人们突然开始抛弃键盘》。

一时间，「语音输入」成了科技圈最热门的话题之一。

这场低语革命，到底是怎么发生的？

硅谷办公室的声音变迁

让我们先做一次简短的声景考古。

1998年，办公室的主旋律是传真机的拨号嘟鸣声和答录机红灯的闪烁。2008年，是键盘噼里啪啦的打字声和电话铃声。到了2018年，Slack的消息提示音接管了这一切。

而2026年，你走进一家硅谷AI创业公司，听到的是此起彼伏的低语——有人在说「给张三发一封关于明天会议的邮件」，有人在念「不，取消，重新开始」，有人则在对着屏幕描述一个函数的逻辑。

NICH工作室的Chad Strickland在Substack上记录了这一变化：「过去一年，我们工作室的声音变了。我们一直以播放精选歌单著称，从进门到最后一个人离开，音乐不停。但是，低语声开始了。现在我们在音乐的选择上非常谨慎，不能有歌词——Jackie Gleason的古典爵士乐于是开始流行起来。为什么？因为你现在听到的，主要是人们对着笔记本电脑展开单边对话。停顿，半截的词，偶尔一句『不，划掉那句』。」

技术上，促成这场变化的关键节点是2022年：OpenAI发布了开源语音识别模型Whisper，将语音转文字的准确率推到了一个新高度。此后迭代持续加速。Whisper Large v3在干净音频基准测试中，词错误率已降至约2.7%；OpenAI今年推出的gpt-4o-transcribe模型，在第三方评测中甚至跑出了2.5%的低错误率。相比五年前错误率极高的语音识别工具，这是质的飞跃。从那时起，AI语音大模型的成熟期开始加速到来。

但技术的成熟，只是拼图的一块。真正点燃这场风潮的，是一个词：voicepilled。

去年秋天，LinkedIn联合创始人Reid Hoffman在LinkedIn上坦白：「I am voicepilled。」他论证说，用说话代替打字是计算机领域的下一次伟大飞跃。所谓「voicepilled」，是一种顿悟——当你不再被那个维多利亚时代的打字机遗产（也就是键盘）束缚时，你可以拥有更高的生产力和创造力。

图源：LinkedIn：Reid Hoffman

这个词来自电影《黑客帝国》中著名的「红蓝药丸」比喻：一旦你吞下红药丸，看见了另一个世界，就再也回不去了。Voicepilling这个词迅速成为抛弃键盘的新简称，并以快速传播，因为AI语音听写工具的准确率已经高到足以让说话比打字更快。

一个正在爆发的市场

Wispr Flow的创业历程颇具戏剧性。

公司由Tanay Kothari和Sahaj Garg于2021年创立，最初目标并非做语音输入软件，而是开发一种带有神经接口的非侵入式可穿戴设备，希望通过读取用户神经信号，实现对电脑和智能手机的控制。团队后来甚至打造出了一款被Kothari形容为「像纯粹魔法一样」的蓝牙耳机原型。然而，由于市场需求未能达到预期，公司不得不进行艰难转型，将团队规模从约40人缩减到4人，并将重心转向语音听写产品。最终，这条转型路线催生了后来广受关注的Wispr Flow。

这次「被迫转型」，撞上了一个时代的风口。

Wispr Flow的Mac应用于2024年秋季上线，此后一路高歌：每月活跃用户增长50%。Kothari表示，硅谷几乎每一家顶级风投基金都在使用Wispr Flow撰写邮件、备忘录和文件。VC们自己成了这款产品最狂热的用户，而「VC用什么」这件事，在硅谷从来都不是小事。

融资随之而来：2025年6月，Wispr Flow完成由Menlo Ventures领投的3000万美元A轮融资；同年11月，又完成了由Notable Capital领投的2500万美元追加融资，估值达到约7亿美元。而根据彭博社今年五月的报道，Wispr AI正就一轮约2.6亿美元的新融资进行谈判，估值有望突破20亿美元。

从4人小团队到20亿美元估值，用了不到三年。

Wispr Flow并非孤军奋战。早期入场的Aqua Voice和Willow均为Y Combinator支持的公司，此后又有TalkTastic、Typeless、Superwhisper等一批竞争者涌入。科技媒体TechCrunch将2025年评为AI语音听写应用真正腾飞的一年，并盘点出多款年度最佳语音听写工具。

Wispr自称，在用户使用三个月后，平均每位用户超过一半的字符已通过语音输入完成。公司12个月用户留存率达70%，用户基础年增长100倍，目前全球下载量已突破250万次，并已渗透至财富500强中的270家企业。

有一个细节值得一提：Wispr Flow的用户中，英语输入仅占约40%，其余60%来自非英语语言——西班牙语、法语、德语、印地语、普通话等。一款「硅谷创业公司」做出来的语音产品，超过半数的真实使用场景，其实发生在硅谷以外。这或许是整个语音输入趋势最被低估的一个侧面。

这款产品的名人背书阵容也颇为耀眼。Reid Hoffman公开宣布自己「voicepilled」；a16z创始合伙人Marc Andreessen称其「好得令人震惊（staggeringly good）」；苹果联合创始人Steve Wozniak也是日常用户。Superhuman CEO Rahul Vohra则将它称为「自ChatGPT以来最重要的消费者AI产品之一」。在硅谷，「VC们的手机里装了什么」这件事，从来不只是个人选择——它是下一轮融资对话的前奏。

科技巨头也嗅到了风向。2026年5月，谷歌在Android Show:I/O Edition 2026上发布了Gboard内置的Gemini驱动AI语音听写功能Rambler。该功能能够自动去除口头禅、理解用户的中途修改，并支持多语言混合输入，被视为谷歌正式进入AI语音听写赛道的重要一步。谷歌Android核心体验总监Ben Greenwood将其描述为「重新发明键盘」。

对创业公司来说，这个消息喜忧参半：巨头亲自入场，是市场被验证的最好证明，同时也是最大的竞争威胁。

与此同时，更「奇葩」的使用场景也在涌现。Willow的创始人Allan Guo在LinkedIn上宣布：「我很高兴地宣布，我们已经把键盘从全球最权威的电视奖项里移除了。」——2026年艾美奖的筹备团队，正在用Willow的语音听写工具来处理Slack消息、清空收件箱。

图源：LinkedIn：Lawrence Liu&Allan Guo

当一台高性能Mac的工位上开始长出鹅颈麦，当艾美奖的运营团队开始对着屏幕小声嘀咕，这场变化就不再只是硅谷的极客把戏了。

根据Mordor Intelligence今年一月的报告，全球语音识别市场规模在2026年估计达到约225亿美元，预计到2031年将增长至617亿美元，年复合增长率约22.4%。这还只是「语音识别」这一个细分方向，整个语音AI领域的市场空间，要远不止于此。

当连谷歌都开始把语音听写内置到默认键盘里时，这件事的走向就已经清晰了。

而中国市场的情况，比外界想象的更早热起来。

中国用户的语音输入习惯，其实比硅谷的「voicepilling风潮」早。

这与中文输入法生态的发展路径密切相关。相比许多西方用户长期依赖键盘输入，中国用户很早便开始通过手机输入法使用语音转文字功能。有研究者认为，中文语音识别与拼音输入体系之间存在天然协同，使语音输入更容易融入日常沟通场景；与此同时，移动互联网时代积累的输入习惯，也为语音交互的普及提供了土壤。

在这一过程中，第三方输入法厂商持续推动了语音输入能力的升级。搜狗、讯飞、百度等头部产品长期占据市场主导地位，其中讯飞输入法一直将AI语音技术作为核心竞争力。根据讯飞官方资料，其语音输入目前已支持200余种方言、30多种外语，并提供离线语音识别能力。

最近半年，中国语音输入市场更进入了一轮明显的产品升级周期。

2025年12月，微信输入法iOS版从2.2.6直接升级至3.0。此次更新几乎将语音能力置于产品中心位置：语音大模型全面升级，支持15种方言（包括粤语、四川话、上海话等），语音输入取消时长限制，并新增离线识别能力。

同月，字节跳动推出豆包输入法，登陆Android和iOS平台，将豆包大模型直接嵌入键盘。产品主打「语音输入又快又准」，同时引入情境感知能力，可根据工作、聊天等不同场景提供差异化建议。今年5月，豆包输入法进一步推出macOS版本，延续了「按下Fn键即可开口说话」的语音交互思路，Windows版本也已进入筹备阶段。

更值得关注的是，语音输入正在从手机场景向PC场景扩张。2026年初，微信电脑版更新后开始支持更广泛的语音输入调用能力。用户不仅可以在微信聊天窗口中使用语音转写，也能够在文档编辑、办公协作和网页输入等场景中直接完成语音输入。与此同时，系统还引入了自动清理口头禅等功能，对转写结果进行进一步优化。

从产品演进方向来看，中国厂商正在尝试把语音输入从一种辅助功能，逐渐变成跨应用、跨场景的基础交互能力。虽然硅谷所讨论的「voicepilling」更多聚焦于通过语音向AI Agent或大模型下达复杂指令，而中国市场长期以来主要服务于日常信息输入，但两者的发展方向正在逐渐靠拢。

无论是AI工作流中的语音指挥，还是日常沟通中的语音转写，本质上都指向同一个趋势：语音正在重新成为人与计算机之间最自然的人机接口之一。

亲历者说：爱它的人和讨厌它的人

当然，不是每个人都爱这场低语革命。

爱它的人这样描述：「Wispr在我们几乎所有的事情上都比打字快——起草邮件、整理想法、向其他AI工具下指令。它也让人感觉有点荒诞。我工作了大半辈子，声音一直是你想跟另一个人说话时才用的东西。」Strickland写道，「但我们可以保证，这东西快、高效、而且让人上瘾。」

独立软件开发者Geoffrey Huntley则把这种工作方式描述得更加生动。他说，自己启动项目时，会先打开一个语音提示框，让AI就需求和顾虑来「采访」自己，然后才开始生成代码。他说：「我跟它说话，就像在爵士乐队里即兴演奏——前后来回，前后来回。」

纽约语音听写应用Monologue的总经理Naveen Naidu则给出了一个更宏观的判断：「那些已经大量使用语音的人，不会再回头了。一旦你每周对着笔记本电脑说20个小时，打字就变成了一种摩擦。我认为未来的走向是：语音成为「委托层」——你说出你的意图，事情就发生了。」

图源：小红书@超级斜杠

HR咨询师Claire Koryczan则从积极角度解读了这一现象：「在当今日常生活中，口头交流已经变得越来越少见，所以一项鼓励人们强化对话沟通能力的技术，只会是一种积极的发展。」

从纯粹的效率角度看，数字也站在语音这边。普通专业人士的打字速度约为每分钟40至60个词，而说话速度则高达130至150词——AI语音听写将这一速度差距转化为实实在在的生产力增益。Wispr Flow则声称其速度比打字快五倍。

但怀疑者同样有理由。

图源：小红书@Bob

首先是尴尬感。一个人对着自己说话，是奇怪的，甚至有点令人难堪的。这不是技术问题，而是根深蒂固的社会规范：我们并不习惯在公开场合对着机器低语。这种感觉在今天有多陌生，就像二十年前在饭桌上接听手机一样。

其次是隐私问题。开放式办公室本就饱受批评，噪音和隐私双双不足。当语音听写成为常态，在众目睽睽之下说出敏感的客户信息、财务数据或商业机密，不可避免地带来新的隐患。有些工具将音频传输到云端服务器，这意味着用户的每一句话都可能经过第三方的服务器。隐私政策这件事，在「我只是想快点回完这封邮件」的紧迫感下，常常被遗忘。

第三是认知负担。大约48%的员工表示，言语交流是办公室里最令人分心的噪音来源。工人们平均每天因对话干扰损失21.5分钟的工作时间。你可能想通过语音输入来提高效率，但你的同事可能正在被你的低语声打断思路。

还有一种更深层的忧虑，来自英国《皇家公报》评论员的警告：「如果这些AI功能有朝一日消失，你会发现自己不知道当初是怎么完成工作的，就像你现在已经无法在没有GPS的情况下去到一个熟悉的地方一样。技能的退化不会一蹴而就。」

办公室礼仪需要重写了

「你能小声点吗？」这句话在开放式办公室里可能会越来越常见。

办公室设计也将随之改变。专属「语音区」、隔音舱，甚至建筑结构上的调整，可能都将成为必要。企业也需要更新工作场所政策，规定可接受的噪音水平和个人麦克风、耳机的使用规范。

一些公司已经开始摸索。Computerworld的专栏作者Mike Elgan观察到，从蓝牙耳机的兴起，到在餐厅接电话的正常化，再到公共场合视频通话的普及——每一次技术带来的行为变化，都经历了从「令人不适」到「理所当然」的转变。语音听写，不过是这个序列中的下一个。

他认为，主流媒体聚焦于「办公室里的新奇怪规范」，其实错过了更大的文化转变：语音交互不仅在改变办公室，也通过移动端和可穿戴设备，在公共生活的每一个角落重塑人与技术的关系。

谷歌在Android大会上宣布AI眼镜将于今年秋天发货；Meta、Snap、亚马逊的智能眼镜产品线也在扩张。AI眼镜将是大多数人接触到的第一款「语音优先」设备，它们将把语音交互带入人们全天候的生活场景中。当我们开始对着眼镜低声下达指令、发送邮件、完成文字工作时，在咖啡馆或地铁里对着屏幕小声嘀咕，会显得格外平常。

这个场景，距离现在并不遥远。

尾声：键盘，拜拜了您呢？

回到那个更宏大的问题：键盘，真的要消失了吗？

历史告诉我们，键盘虽然很可能会被戏称为「古法输入」，但并不会消失，就像手写从未真正消失一样。但它的角色将收缩，成为一种备用方式。

语音，将成为默认输入。「未来的生产力将被口述，而不是被打字。」

这也许过于乐观，也许过于悲观，但有一点是确定的：从打字机到键盘，从鼠标到触屏，每一次「人如何与机器交谈」的方式发生改变，都意味着一场深刻的认知与社会重组。

语音，并不是一项新技术。它是人类最古老的表达方式。AI，不过是让我们回到了一个更原始、也更自然的起点：用嘴说，而非用手敲。

只不过，现在的听众，不再是另一个人。

参考链接

1.https://www.wsj.com/tech/typing-is-being-replaced-by-whisperingand-its-way-more-annoying-a804fee7

2.https://www.bloomberg.com/news/articles/2026-02-06/voice-to-text-ai-lets-office-workers-talk-instead-of-type

3.https://www.theguardian.com/technology/2026/may/12/end-of-typing-workers-ditching-keyboards-voicepilling-ai-dictation

4.https://www.thecultureedit.com/p/whisper-while-you-work

5.https://www.computerworld.com/article/4175881/ai-will-kill-the-skill-of-typing.html

6.https://www.royalgazette.com/opinion-writer/opinion/article/20260518/keep-your-keyboard-in-ai-revolution/

7.https://www.bloomberg.com/news/articles/2026-05-12/ai-dictation-startup-wispr-in-funding-talks-at-2-billion-value

8.https://techcrunch.com/2025/06/24/wispr-flow-raises-30m-from-menlo-ventures-for-its-ai-powered-dictation-app/

9.https://techcrunch.com/2025/11/20/as-its-voice-dectation-app-takes-off-wispr-secures-25m-from-notable-capital/

10.https://x.com/alliekmiller/status/1969420607172292789

11.https://techcrunch.com/2026/05/12/google-adds-gemini-powered-dictation-to-gboard-which-could-be-bad-news-for-dictation-startups/

12.https://www.androidheadlines.com/2026/05/google-gboard-rambler-ai-voice-dictation-features.html

13.https://news.mydrivers.com/1/1076/1076402.htm

14.https://willowvoice.com/blog/voice-dictation-open-offices-quiet-mode

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI创投日报

频道：前沿科技