扫码打开虎嗅APP
本文来自微信公众号:晚点LatePost(ID:postlate),作者:贺乾明、王与桐、徐煜萌,编辑:程曼祺,题图来自:视觉中国
“Mayday” 可直译为 5 月天,它也是国际通用的无线电求助信号。当飞机有坠落危险时,飞行员会对着对讲机大喊 “Mayday”!
这个 5 月,可能是 ChatGPT 发布至今大模型行业最热闹的时候:OpenAI、Google、微软、字节跳动、阿里巴巴等中美两国公司至少举办了 13 场与大模型相关的发布会,介绍了 10 多款新模型,拿出了一堆新产品。
热闹中的风险与失望是:不少从业者认为技术没有重大进步。
OpenAI 本月新发布的 GPT-4o 处理语言的能力停留在 GPT-4 水平,被期待已久的 GPT-5 仍未登场。
多模态成为顶尖 AI 公司的技术焦点:从 OpenAI、Google 到微软,发布能同时处理语音、图像,甚至理解现实世界的模型。但这些能力支持的产品和应用都还在 Demo 阶段,没正式发布就引出了侵权、隐私隐患等各种麻烦。
唱衰大模型创业机会的金沙江创投主管合伙人朱啸虎有一个观点:如果语言能力的进化速度变慢,“这波热潮就到头了”。
“没什么令人兴奋的。” 一位在中国大公司带队研发大模型的人士说,一系列发布会让他更相信,开发能力更强的小模型才是未来。
一位 AI 创业者说 GPT-4o 不是颠覆性技术,“对 AGI 没帮助”,但它基于一些顶级单点技术构建了组合式创新,“交互能力提升,能帮助普及应用”。
比技术竞争更吸引关注的是大模型价格战。OpenAI 和 Google 都在 5 月的发布会上宣布核心模型价格打 5 折。
在中国,量化交易公司幻方在 5 月初扣动降价扳机,拿出比行业水平低了超 90% 的模型;大模型独角兽智谱 AI 快速跟进。之后的两周,字节、阿里、百度和腾讯等大公司也接连降价甚至免费。
一家中国大公司人士这个月在一个座谈会上说:“如果这种降价变成了烧钱,变成了下一场社区买菜,不利于技术发展。” 他们自己也是降价的一员。
关于如何监管大模型的争论也在这个月达到新高潮。
美国和欧洲政府都选择更强的监管。美国国会开始考虑提出限制开源大模型出口的法案;欧盟在 5 月中旬正式批准起草 3 年的《欧盟人工智能法案》。
OpenAI 首席科学家伊利亚·苏茨克维(Ilya Sutskever)和旨在确保 AI 安全的超级对齐团队负责人扬·莱克(Jan Leike)等数名人员在 5 月离职。莱克在社交媒体上指责 OpenAI 不重视 AI 安全,他们团队分得的资源严重不足:“我们迫切需要弄清楚如何控制比我们聪明得多的人工智能系统。”
图灵奖得主杨立昆(Yann LeCun)针锋相对地评论:在控制 AI 之前,“我们先要找到一点能设计比家猫更聪明的系统的迹象”。他认为大模型远不如一些人渲染的强大。
一批受限于资金压力、技术进步和变现困难的大模型明星创业公司在 5 月集体寻求卖身,如致力于开发 AI Agent 的独角兽 Adept,参与开发了文生图开源模型 Stable Diffusion 的 Stability AI 和开发了 AI Pin 的硬件公司 Humane 等。
“高科技产品推广过程中,最危险的时刻就是从早期市场过渡到主流市场的阶段。” 美国组织理论家杰弗里·摩尔(Geoffrey Moore)在《跨越鸿沟》一书中写道,这个阶段存在经常被人忽视的鸿沟。
最早使用新技术的群体的立场和需求并不能代表主流群体,甚至还会让开发新产品的公司产生错觉,认为自己已经触达了主流人群。摩尔认为,只有成功跨越鸿沟,新技术才能创造财富,否则会一败涂地。
大模型正在接近鸿沟边缘。全球最知名的 AI 产品 ChatGPT 的日活已横在数千万多时,早期用户尝鲜后,所有公司都亟需跳上有海量大众用户的鸿沟彼岸。
相比 ChatGPT、GPT-4、Sora 发布时引发的全球震动,OpenAI 在 5 月 13 日推出的 GPT-4o 更像是给过去一年多大语言模型的性能狂飙点了一脚刹车。
据 OpenAI 公布的评测数据,他们投入数百人研发的 GPT-4o 相比之前的 GPT-4 Turbo ,文本处理能力提升不大:MMLU(本科生水平的知识)得分提升 2.5%、HumanEval(编程能力)提升 3.6%、MGSM(跨语言数学能力)提升 2.3%、DROP(文本段落分析推理)还下降了 3%。

“这个趋势大概率会延续下去。” 国内大模型独角兽 MiniMax 的天使轮投资人、云启资本合伙人陈昱说,一个关键原因是能够训练大语言模型优质数据已接近耗尽。
GPT-4o 的提升主要在文本之外的语音、图像等多模态功能上,其中最受关注的是语音能力,它用上了端到端架构——输入端是语音,输出端也是语音,不需要在中间用文本做转换。
端到端的最大提升是把语音对话产品的回应时间从数秒减少到了数百毫秒,延时低得人耳无法察觉。它也能让人在对话中随时打断机器人,而不是一轮轮地你问我答,这更符合人与人聊天时的习惯。
一位中国大模型独角兽创始人说,OpenAI 最强的地方在于,它不见得是第一个发明某种技术的公司,但总能把优化做到最好,比如杨立昆领导的 Meta AI 实验室几年前就做出了语音端到端模型,但效果一直不如传统的语音转文字再转语音。“OpenAI 在这个工程问题上解决得还挺惊艳的。” 他说。
另一位考虑开发端到端语音模型的创始人认为,语音就是语言的外化,OpenAI 已经证明了这条路在技术和提升产品体验上是可行的。
不过 OpenAI 尚未将端到端语音对话能力开放给用户,他们称 “还有一系列问题要解决”,语音和视频功能要几周后才会上线。
另一个可能被忽视的进步是 GPT-4o 的图像生成能力。在能力评测数据集上,GPT-4o 的图片理解能力得分相比 GPT-4 Turbo 和同行们的 Gemini Ultra、Claude Opus 有大幅提升。一些从业者认为,部分指标几乎相当于 GPT-3.5 到 GPT-4 的变化。

OpenAI 发布会没有展现的一点是,GPT-4o 现在已可以生成图片中的文字。之前,让大模型生成出正常的文字,难度不亚于让模型生成正常的人手,现在也没几个模型能做到。
Google 5 月 14 日的 I/O 大会甚至没提太多大模型处理文本能力的新进展。能处理图像、语音的模型 Project Astra 和 Gemini 1.5 Flash 成为重点。
Project Astra 可以通过摄像头识别现实环境、解读代码、做数学题,几乎实时地与人语音交互。Gemini 1.5 Flash 则是一款规模更小的模型,Google 没公布它的具体参数,只强调它可发挥不输更大参数模型的能力:能高效处理文本、图像和视频数据。
6 天后的微软 Build 大会上,OpenAI 不再像一年前那样是唯一的大模型主角。除了介绍多个公司的大模型,微软还发布了只有 42 亿参数的自研模型 Phi-3-Vision。这也是一个能理解图像的多模态模型。而且因为参数足够小,它可以用到移动设备中。
OpenAI、Google 和微软发布会上展现出的技术趋势,是当前大模型发展的缩影:文本处理能力的升级放缓;处理语音、图像的多模态能力成为重点;开发参数更小但性能更强的模型。
它们服务同一个目标:用更低的成本、更丰富的功能,推动大模型进入更多商业场景,让更多人高频使用。
想要达到让更多人高频使用产品的鸿沟彼岸,只靠技术不够。
“AI 并不意味着可以轻松开发一个伟大的产品、公司或服务,只靠 AI 无法打破一些商业规则。” 没在 OpenAI 发布会上亮相的OpenAI CEO 山姆·阿尔特曼(Sam Altman)在微软的发布会上说。
OpenAI 靠着更强的模型和先发优势,去年卖会员带来 10 多亿美元收入,跟他们过去和未来需要的投入显然不是一个量级。
据美国红杉资本估算,大模型行业购买英伟达的 GPU 就投入了 500 亿美元,收入只有 30 亿美元。与过去的互联网、移动互联网、云计算技术变革相比,大模型的商业化进展弱上几分。苹果推出 App Store 两年后,Instagram 就出现了。
即使如此,微软、Google、Meta 等公司今年仍打算花数百亿美元买英伟达的 GPU,训练更强的大模型,为未来可能的大模型应用爆发做准备。
它们设想中的爆发方向包括语音助手、搜索引擎、操作系统等。这些产品在 5 月的发布会中频繁亮相。
据市场消息,苹果已与 OpenAI 签订协议,用 GPT-4o 的语音处理能力改进 Siri,将在下个月的 WWDC(苹果全球开发者大会) 上宣布。一同被苹果考虑的还有 Google、Anthropic 开发的模型。
除了手机,耳机也成为硬件焦点之一。OpenAI 发布会之后,字节跳动被报道花 5000 万美元收购了一家耳机公司,字节可能会把大模型与耳机做结合。
“GPT-4o 让我们看到了语音交互效果提升后的情况。” 近期投资了另一家国内智能耳机创业公司的投资人说,当前市场上的 AI 硬件都不算成功,很大原因在于它们与手机的重复度太高,“它们能做的,手机上也可以,但大多数人都需要一个单独的耳机。”
微软设想的一个杀手级产品是植根于 Windows 11 操作系统中的 Recall 功能。它可以 “记住” 用户过去 3 个月内在设备上用过什么程序、处理过什么内容。用户只需要一句话就可以搜出自己处理过的信息。

在上方文本框输入 “blue dress ” 后,Recall 功能可以搜出来用户在电脑上看过和输入过的相关信息。图片来自微软。
Google 也终于把大模型与搜索引擎结合起来,推出了一个叫 AI Overviews 的功能。用户搜索时,大模型会拆解问题,再去搜索各种网页,自动生成能用的答案,并附上链接。
不过这些产品在证明有拓展大众用户的潜力前,都遇到了一些风波。
OpenAI 的 GPT-4o 语音功能因使用了一款与科幻电影《她》(Her)的配音者、演员斯嘉丽·约翰逊非常相似的声音,被她本人抗议。这款声音已下架。
微软的 Recall 功能则需要每隔几秒自动截屏一次,以记录设备上进行的各个操作。这种经常被一些互联网公司用来监控员工的手段,现在成了使用新鲜大模型功能的前提。尽管微软强调数据会被加密存在设备上,但还是引起了隐私风波。
Google 的 AI Overviews 更是会输出匪夷所思的结果:建议苦恼披萨上的奶酪总是掉下来的用户在披萨上涂胶水;告诉用户过去 20 年美元的通胀率是-43.49%(实际为 77%);人眼可以直视太阳 15 分钟。
至于 OpenAI 的 GPT-4o 和 Google 的 Project Astra 虚拟助手展现的大模型理解图片、视频和现实世界的能力,则还需要找到具体产品形态和应用场景。一位中国大模型独角兽公司创始人说:“如果模型只是看到三个人在喝咖啡,没有什么商业价值。如果没有应用,模型又怎么持续优化?”把多模态模型用到机器人身上(具身智能)可能是一个有价值的方向,但想要做好太难。
“跨越鸿沟的基本原则,是找准一个具体的细分市场作为攻击点,集中所有资源全力进攻,以最快的速度拿下领导地位。” 杰弗里·摩尔在《跨越鸿沟》一书中写道。现在大模型公司都还在寻找:这个准确的攻击点到底在哪儿?
价格战是 5 月的另一个 AI 主题。
发布 GPT-4o 时,OpenAI 宣布调用 GPT-4o 模型 API (编程接口)的价格比 GPT-4 Turbo 下降一半,处理 100 万 Token 的输入只用 5 美元。Google 也跟着把其主力模型 Gemini 1.5 Pro 的调用价格调低了一半,处理 100 万 Token 只要 3.5 美元。
但与中国大模型公司动辄降价超 90% 的激烈竞争相比,它们只打五折的降价幅度还是太小。
5 月 7 日,量化交易公司幻方发布对标 GPT-4 的模型 DeepSeek-V2,API 价格只有 GPT-4 Turbo 的近百分之一:处理 100 万 Tokens 输入 1 元人民币,输出 2 元(32K 上下文)。
5 月 11 日,国内大模型创业第一梯队的智谱 AI 也降价 80%,入门级产品 GLM-3 Turbo 模型调用价格从 5 元/百万 Tokens 降到 1 元/百万 Tokens。
5 月 15 日,字节的豆包大模型对外提供服务,并将处理输入文本的价格定在 0.8 元 / 百万 Tokens,也就是处理 1500 多个汉字只要 8 厘钱,宣称比行业水平便宜了 99.3%。
一周后的 5 月 21 日,阿里更进一步,把对标 GPT-4 的 Qwen-Long API 输入价格降到 0.5 元 / 百万 Tokens。
当天下午,百度宣布主力模型文心一言 ERNIE Speed 和 Lite 模型宣布免费。
第二天,腾讯宣布轻量大模型 “混元-lite” 免费,最高配置的万亿参数模型 “混元-pro” 降至 300 元 / 百万 Tokens,降幅 70%。
一些公司是降低最高端模型的价格:如阿里、字节跳动和幻方;百度、腾讯和智谱则主要在更轻量、更小的模型上降价或免费。
低价和免费也有一定限制条件。企业或开发者真正调用模型开发产品时,想提高调用大模型处理文本的频率或者处理更多文本时,还要多花钱。
阿里通义大模型降价的那个上午,我们正在采访做儿童绘本的创业公司童语故事。被问及豆包降价后是否会考虑切换,创始人张华说:“如果只考虑降价,那么阿里肯定也会降,所以不用换。”
不到一小时后,交谈还未结束,张华的手机上就弹出了一条新闻:阿里通义也降价了。
降价部分来自技术优化。字节跳动旗下火山引擎总裁谭待在 5 月发布模型和宣布降价的发布会上说,他们有多个降价技巧,如调整模型架构、把在单个设备上做推理改成在多个设备上分布式推理,集中处理模型调用任务,提升芯片的利用率。
整个大模型行业的降本共识还有:用更多优质数据训练参数规模小的模型,参数少推理成本就低;训练 MoE 架构的大模型,处理文本时不用所有参数都运行一遍,节省算力。
芯片也在降价中扮演重要角色。英伟达年初宣称,靠着改进推理框架等方法,一年内就把大模型推理成本减少到了原本的四分之一。今年 3 月,英伟达发布新产品 GB200 ,宣称它能把大模型推理性能再提高 30 倍。
中国大公司的降价预计还会持续。它们同时做云计算和大模型,降价的商业合理性是可以用模型当引子卖云服务,比如存储、数据库等。
一位云计算厂商人士说,相比降价,GPU 空置才是云厂商更大的成本:“一套 8 块的英伟达高端 GPU 服务器,现在一个月租金要大几万,如果卡买得多,租不出去、空置才是亏钱。”
他推测阿里通义降价后仍有利润:“现在训练模型的需求变少了,空出来的高端 GPU 也可以去做推理,理论上综合成本都一样,因为资源已经虚拟化了。” 阿里云有成本优势。另一位阿里云人士也表示,大模型降价后并不亏钱;降价也不是应对价格战,是既定战略。
创业公司则持观望态度。百川智能创始人王小川在 5 月下旬的一场媒体沟通会上多次被问及怎么看大公司的大模型价格战。“你们去问他们,我们有自己的节奏。” 王小川说,百川不会加入价格战,他认为降价的云厂商卖的不是模型本身,是背后的整套云服务,和大模型创业公司逻辑不同。
零一万物创始人李开复也在 5 月下旬的分享会上说不加入价格战:“如果中国市场就是这么卷,大家宁可赔光、通输也不让你赢,那我们就走国外市场。”
云启资本陈昱对比了过去的打车和 O2O 大战,当时创业公司激进价格战的逻辑是把对手烧死,最后获得垄断。但大模型不需要繁重的“地推扫街”,大公司下场容易。
“创业公司能烧的钱有限,就算融了 10 亿美元,大公司单个季度的利润都比这多多了。” 他认为价格战打到最后还是大公司赢,“除非创业公司另辟蹊径,走与大公司不同的产品和商业化路线。”
再小的模型都需要推理成本。现在百度、腾讯等公司对部分模型已经走到了免费这步,字节也给出了超出一般降本速度的降价幅度。这把 to B 卖大模型 API 的竞争也带向了前期亏损换用户的 to C 产品竞争。
新模型、新产品密集发布,价格战你追我赶之时,一批明星 AI 创业公司正在退场。
今年 5 月,Transformer 作者之一参与创办的 Adept 被报道考虑出售,已接触了 Meta;参与开发开源文生图模型 Stable Diffusion 的公司 Stability AI 去年就在寻求出售,现在仍在与不同买家接触;大模型开发商 Reka 正在以 10 亿美元估值寻求被收购;AI Pin 背后的 Humane 也正以 7.5 到 10 亿美元的价格寻找买家。
在中国,一些立志追赶 OpenAI 的大模型公司已许久没有拿到新融资了。还有一些公司迅速调整方向,比如面壁智能现在研发能用在手机等终端上的小语言模型,今年 4 月完成了由华为旗下哈波基金领投的一轮数亿元新融资。
到今年 5 月,中国头部大模型公司的单轮融资额已经达到数亿美元,能拿到新融资的公司越来越少;能接得住大模型公司后续融资的投资方也越来越集中于大型互联网科技公司。
一位小型投资机构的投资人说:我们这样管着十亿元规模的公司已经没有投模型层的机会了。在某次见大模型创业公司时,他提出想要一些额度,对方没给:“我反而松了一口气,因为我知道我们投不起。”
大模型应用层仍有新公司和新交易。美国红杉资本合伙人索尼娅·黄(Sonya Huang)认为,当前还没有哪个大模型应用的用户留存达到流行的移动应用水平,仍对于大模型应用创业者来说,窗口期仍在。
据了解,去年曾被认为将被大语言模型取代的秘塔,在今年 3 月推出秘塔搜索并取得了超 500% 的用户增长后,多个互联网大公司向它抛来投资橄榄枝。曾做出妙鸭相机的张月光,在新创业方向尚未明朗时,就已获得了近 3 亿元人民币的融资。
模型层的价格战,客观上减少了部分基于大模型做应用的新玩家的试错成本。整个 5 月,快手、网易、字节跳动接连有 AI 产品或技术负责人离职、投身创业。如网易副总裁及研究院院长汪源在社交媒体公开宣布:会回到 To C 市场,招募有海外 AI 或生产力工具类软件的产品、运营、算法和应用开发人才。
应用公司获得初始融资的门槛不如大模型公司高,但竞争难度不小于资源集中的模型层。
“出来得太晚了。”一位投资人评价 5 月密集的创业新动向:“更重要的是,他们能有什么新想法呢?现在硅谷普遍的反馈就是,受限于大模型能力进展,这半年没有新东西出来。”市场上仍能看到早期投融资交易的原因是:“第一轮的钱好拿,大家缺资产,总想赌一下。但后面就得看产品数据了。”
全球范围内对 AI 的投资热情正在下降。安永(爱尔兰)在 5 月中旬预测,今年全球风投投资生成人工智能的金额将达到 120 亿美元,在已经过去的一季度,这个数字是 30 亿美元。而 2023 年全年的总投资额是 213 亿美元。
那些正寻求出售的大模型公司,现在更难找到合适的买家。去年市场上还有 Datebricks 以 13 亿美元收购 MosaicML。而新近寻求收购的一批 AI 公司的潜在买家往往都已建立了自己的 AI 团队,或此前已收购了一些公司。
如 Reka 的潜在买家之一是它的投资人 Snowflakes,据 The Information 报道,接近 Snowflake 的人士透露,Reka 和 Snowflake 间的收购谈判已破裂;接近 Meta 的人士也称,Meta 不太可能收购 Adept。
入场要抓住时机,退场也是。
围绕现在的 AI 是否已强大到要被关进笼子的争论也在这个月进一步发酵。
5 月 20 日,25 位科学家在《科学》(Science)的政策栏目上发布题为《在人工智能飞速发展进程中管理极端风险》(Managing extreme AI risks amid rapid progress)的文章,署名作者包括约书亚·本吉奥(Yoshua Bengio)、杰弗里·辛顿(Geoffrey Hinton)和姚期智(Andrew Yao)三位图灵奖得主。
这些科学家认为 “毫无准备的代价远远大于过早准备的代价”,呼吁各国政府更有力地规范 AI,并警告 “近六个月所取得的进展还不够”。
另一位图灵奖得主、Meta AI 首席科学家杨立昆觉得这种想法可笑。两派观点的核心分歧是,AI 到底有多强?
写联名信的科学家看到,AI 已经在玩策略游戏和预测蛋白质结构上超过了人类,它还能复制数百万个自己:“在这个十年或下个十年内,将开发出在许多关键领域超越人类能力、高度强大的 AGI 系统。那时会发生什么?”
杨立昆则认为家猫都比现在最优秀的大模型聪明,大模型并不能真正理解逻辑和做因果推理,现在就急迫地讨论 AI 的安全性,就好像有人在 1925 年说:“我们迫切需要弄清楚如何控制能够以接近音速运送数百名乘客的飞机。”
人工智能科学家李飞飞和斯坦福人工智能研究所的联合主任约翰·艾克曼迪(John Etchemendy)也在 5 月下旬于《时代》杂志发表文章称,大模型 “只是在概率性地完成任务而已”。
政府宁可未雨绸缪。2021 年 4 月,欧盟委员会就提出人工智能法案草案,以 “风险为本”(risk-based approach)、从政府层面规制 “人工智能的应用边界” —— 尽管他们尚不知道边界在哪儿。
该草案提出两年内都没有太大进展。直到去年 ChatGPT 席卷全球,该草案增加了大模型监管内容,并于去年被正式投票通过。
今年 5 月,欧盟理事会正式批准该法案生效。法案要求在欧盟提供服务的大模型公司披露训练模型时用了哪些有版权的数据、哪些内容是人工智能生成的,还要防止模型生成有害内容。
去年通过关于人工智能的监管法令的美国政府,在这个月又在推进一项新法案。与之前强调规避大模型 “国家安全、国家经济安全等构成严重风险” 不同,新法案作为 2018 年《出口管制改革法案》的修订版,核心目标是方便限制开源模型出口:“保护美国人工智能及其他支持技术免受外国对手的利用。”
该法案 5 月 23 日通过了众议院外交事务委员会的投票,后续立法流程还有:众议院、参议院投票和总统签署。
如果说各国政府对互联网的监管和反垄断是后知后觉,对 AI 的提防则来得早得多。这是一个还未进入商业应用大繁荣就被监管的行业。
OpenAI、Google、Anthropic 在内的大模型领先者和大公司倾向推动监管。过去一年,多封强调大模型风险的公开信中都有这几家公司高层的名字。更严格的监管有利于领先者,不利于资源有限的中小公司和非主流方向的探索与创新。
不过相比公司间的竞争,现在整个大模型领域更需要新的技术 “兴奋剂”,要么更快地褪去黑科技光环,开始落地、赚钱。
去年 5 月,借着 GPT-4 刚刚发布引发的关注,山姆·阿尔特曼开启全球旅行,与多个国家的政要交流怎么监管大模型。
一年过去,OpenAI 安全团队负责人离开了。阿尔特曼也不再怎么谈论大模型的风险,参加各种活动讲最多的就是:更强大的 GPT-5 就要来了。
本文来自微信公众号:晚点LatePost(ID:postlate),作者:贺乾明、王与桐、徐煜萌,编辑:程曼祺