Meta 憋了 9 个月的大招揭晓了

出品｜虎嗅科技组
作者｜赵致格
编辑｜苗正卿
头图｜视觉中国

在大模型赛道沉寂已久的Meta终于冒头了。

4月9日，Meta旗下的超级智能实验室（Meta Superintelligence Labs, MSL）突然官宣了首款自研大模型Muse Spark。目前，这款模型已在meta.ai网站和Meta AI App上线，API预览版向部分用户开放。受到这一好消息的提振，Meta股价当日一度大涨近9%，创下自今年1月以来最大单日涨幅。截至收盘，Meta股价收涨6.5%。

Meta在博客文章中表示：“过去九个月，MSL从零重建了我们的 AI 技术体系，开发速度超越以往任何周期。这款初始模型设计小巧、运行高效，却足以推演科学、数学与健康领域的复杂问题。它是强大的基础，下一代模型已在研发中。”

一年之前，Meta的开源大模型Llama4一经发布就迅速陷入造假争议。网友实测后发现Llama4的性能远不如官方给出的数据。在几个月后离职的Meta前首席科学家杨立昆（LeCun）也对媒体曝光了内幕，称Llama4团队在不同测试中换上了不同版本的模型来凑数。

而被骗的扎克伯格则开始了对AI团队的大破大立，一边对原团队大幅度裁员，一边为新成立的超级智能实验室启动科技史上堪称最激进的人才招募计划，不惜一切代价挖掘行业领袖，收购技术精英团队。

其中最引人瞩目的一笔支出无疑是Meta斥资143亿美元收购数据标注公司Scale AI近49%股权，并任命其联合创始人汪滔（Alexandr Wang）为首席人工智能官，负责领导MSL的工作。

Meta在同时期延揽的技术精英还包括前苹果基础模型团队（AFM）负责人庞若明，来自OpenAI的大型语言模型专家Trapit Bansal、强化学习权威Shuchao Bi，从事多模态AI研发的Allan Jabri和Lu Liu；来自DeepMind的机器学习先驱Jack Rae和图像生成顶尖专家Huiwen Chang；还有Claude核心开发者Anton Bakhtin和推理系统专家Joel Pobar等等。

Meta显然是不差人也不差钱，但在此前的9个月里，Meta自研大模型的进度一直在云里雾里。只有在Meta财报会议和扎克伯格的部分采访中，人们才知道了这个代号牛油果的新模型的少量消息。今年3月，一度有传言称汪滔因为大模型进度迟缓而离职，但Meta很快进行了辟谣。

一边是其他科技大厂以稳健的姿态高频进行着大模型的版本更新，一边是MSL团队在长达9个月的时间里闭门炼丹，汪滔和他的团队显然承担了不小的压力。

随着Muse Spark的空降发布，汪滔看上去心情无比释放，先是在X上连发8条消息介绍Muse Spark，并将其在BenchMark上的各项分数置顶，随后又转发了50多条消息，其中有团队成员的感言，有科技媒体的报道，也有不少普通网友的夸赞。

如果要总结这个让Meta基本满意的新模型水平，可以说它终于摆脱了Llama4“遥遥落后”的局面，综合表现挤进了全球大模型的第一梯队。

第三方评测机构Artificial Analysis给Muse Spark综合智能指数的打分是52分，低于57分的Gemini3.1、57分的GPT5.4和53分的Claude Opus4.6，排名全球第四。而此前Llama4的评分仅为18分。

如果分开看Muse Spark在不同领域的评分，可以看出Muse Spark在考验高难度专业知识的Humanity’s Last Exam with tools（HLE，人类最后的考试）中分数仅为50.4，在五个主流前沿大模型中排名最末。

Muse Spark在考察AI的纯视觉抽象推理的ARC AGI 2中同样表现较差，分数为42.5，而在这一测试中表现最好的Gemini3.1Pro的分数为76.5，两者差距明显。

Muse Spark另一个相对而言的短板是编程能力，这一点Meta也在博客中承认，称Muse Spark在长时序agentic系统和编程工作流方面仍有差距”。在LiveCodeBench Pro中，Muse Spark 80分的成绩远低于GPT-6.4的87.5；在接近实战的Terminal-Bench 2.0（终端编程）中，Muse Spark 的59分低于GPT5.4的75.1。

Muse Spark也有一些优势明显的领域。在在HealthBench Hard（开放式健康问答）的测试中，Muse Spark得分42.8，大幅领先于GPT-5.4的40.1、Gemini 3.1 Pro的20.6和Opus 4.6的14.8。Meta在博文中也特意提到了其新模型在医疗领域具有较强应用潜力。Meta称自己与超过1000名医生合作，对模型进行训练以生成有关营养和运动等主题的更详细回答。可以说，健康是Meta AI团队当下押注的方向。

在CharXiv Reasoning（图表科学推理）测试中，Muse Spark以86.4分同样领先其他4位竞争对手，这显示其强大的多模态信息提取与逻辑推理能力，尤其擅长处理科学论文图表等复杂信息。

除了不错的综合表现，人们关注另一个点是，曾经把Llama系列向开发者全面开放的Meta此次选择了闭源。很多人评论称Meta已经背离了其“开放科学”的初衷。

汪滔在X上对此进行了回应，称“九个月前我们从零开始重写了AI技术栈，全新基础设施、全新架构、全新数据 pipeline……这只是第一步，更大模型已在研发中，未来版本计划开源。”

我们不知道汪滔承诺的“未来会开源”是否能兑现。但前期为大模型研发投入巨资的Meta显然已经在探索AI模型的营利方式了。

目前，仅未具名的“特定合作伙伴”可使用Muse Spark的“私有 API 预览版”，但Meta计划未来向更广泛用户提供付费 API 访问。此外，Meta称该模型是 “为全产品生态量身打造”，未来几周将接入Meta旗下的Facebook、Instagram、WhatsApp以及智能硬件。

此外，Meta 还宣布将会推出Muse Spark的购物模式，大模型可以根据用户在Instagram、Facebook上关注的内容和品牌偏好做个性化的购物推荐。

或许Meta当下的核心思路是，相较于开源赚的声誉，用大模型盈利以及用大模型更好地服务自己的30亿用户更重要。9个月前，Meta在MSL实验室成立时还在聊AGI的理想，现在的Meta更关心如何让大模型渗透进社交、购物、医疗、硬件等真实场景。

本内容未经允许不得转载。授权事宜请联系 hezuo@huxiu.com。

AI创投日报

频道：前沿科技