扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2025-02-19 09:32

马斯克拿到了美国最后一张大模型船票

本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究

文章摘要
马斯克推出Grok 3模型,参与大模型竞争。

• 🚀 马斯克发布Grok 3系列,具备高级推理和搜索能力

• 💪 xAI快速扩展,算力提升一个数量级

• 💰 xAI与OpenAI竞争激烈,寻找更多变现途径

xAI似乎是OpenAI的全套“蒸馏”版本。昨天,马斯克发布了Grok 3系列模型,但完整体验还要再等等;模型包括基础版与推理版,两者都有mini款,还推出了DeepSearch工具;实测性能比DeepSeek强,比OpenAI弱;有开源的计划,但还要再等等;就连发布会配置也差不多,镜头前坐着的一半都是华人面孔。


但不管怎么说,马斯克拿到了参与下一轮大模型竞争的船票。他拥有人才、算力与应用,以及特朗普的支持,并且交付的大模型达到了前沿水平。


Grok 3系列模型还不是满血版。基础模型Grok-3仍处于Beta阶段,官方宣称数学(AIME基准)、科学问答(GPQA基准)、编码(LCB基准)能力超越了GPT-4o、Gemini-2 Pro与DeepSeek-V3;它的精简版Grok-3 mini能更快地回答问题,但准确性会有所降低。


推理模型Grok-3 Reasoning也处于Beta阶段,官方宣称水平超过了o3-mini(high)、o1、DeepSeek-R1,还有Gemi-2 Flash Thinking;精简版的训练时间更长,有时表现略好于beta版的推理模型。相比普通的“Think”模式,如果用更多算力在“Big Brain”模式下推理,它们会更聪明一点。


(Grok 3及同类产品的推理能力对比)


DeepSearch则是基于Grok 3推理模型的智能体,允许用户对互联网及马斯克持有的社交媒体X进行全面搜索、分析与回答。它是谷歌、OpenAI与Perplexity等的Deep Research功能的竞品。


(Grok 3的交互界面,及其各项能力)


不过,大多数人还无法真正体验这些功能。X的高级订阅用户将可以率先尝试Grok 3,但不包括推理或深度查询;这些服务会藏在即将推出的SuperGrok订阅服务中,收费30美元/月或300美元/年(暂不清楚是否会在X的Premium Plus之上额外收费,后者目前每月为40美元);最快一周,Grok 3将上线“语音模式”;几周后,Grok 3将向机构客户开放API,DeepSearch也会在几周后上线;几个月后,Grok 3才能最终成熟稳定。


这有点类似马斯克在特斯拉FSD上的玩法,先让付费用户测试,最终迭代成熟。


同时在OpenAI与特斯拉担任过AI开发重任的大神卡帕西(Karpathy),这次拿到了先行体验资格。在他看来,Grok 3的推理能力,大概处于o1-pro的水平,领先于DeepSeek-R1;而DeepSearch功能大致相当于Perplexity的,但要低于OpenAI的。他还发现Grok 3并不能很好地搜索X上的信息。


此外,Grok-3是唯一一个在Chatbot Arena上拿到了1400分以上的大模型,这也相当于它的“实战”水平。它的竞争对手包括Gemini-2、ChatGPT-4o、DeepSeek-r1与o3-mini等。



当前大模型技术路线的怀疑者马库斯(Marcus),在卡帕西的评价下回帖说,Grok 3是一个有力的竞争者,但它并非通用人工智能,也并非比o3 mini领先很多。他还写了一篇文章称,没有在这场发布会上看到一丝创新,只不过是一堆其他发布会的公式化的复制品:更大的算力,稍好一点的基准测试成绩。


Grok 3的发布,证明了扩展定律仍在勉强地起效。Grok 3还没有对应的技术报告,在直播中,xAI花了很多时间介绍搭建智算集群的历程。先是花了122天,建成十万卡集群,92天后,扩展到二十万卡规模。Grok 3就是在这个规模不断扩展的集群上训练的,算力消耗比上一代的Grok-2提升了一个数量级。


xAI的进步速度堪比DeepSeek。xAI成立于2023年7月,几乎与DeepSeek同时。前者于23年11月发布Grok 1,24年8月发布Grok 2,25年2月发布Grok 3,迭代节奏也与DeepSeek相近。两者都迅速追平或一定程度上超越了现有的前沿模型。


马斯克是美国少有的重视制造的企业家,包括迅速“制造”自己的数据中心,但仍然崇尚美国那套算力“暴力美学”,下一代模型将由百万卡集群承担。这也意味着xAI是拿到最后一张大模型竞争船票的美国企业。已经没有竞争对手能以更低的成本、更快的速度,去复制这套模式,参与竞争。


但xAI的竞争压力仍然很大。OpenAI已经公开了下一代基础模型的存在,即相当于o3+GPT-4.5的GPT-5,其中,o3已经于去年12月公布,GPT-4.5将于几周内发布,而GPT-5会在几个月内发布。如果卡帕西的评价合理,那么,在几个月后才能完全成熟的Grok 3,大概率很难打赢GPT-5。OpenAI也在建造星际之门,为下一代模型GPT-5.5增加100倍的算力。


而DeepSeek恰好也在今天介绍了更高效的NSA机制,它可以优化现代硬件设计,在加速推理同时降低预训练成本,并且不牺牲性能。或许更高性价比的V4已经在路上了。


尽管马斯克猛烈抨击OpenAI与奥特曼,但它的透明(封闭)程度与商业模式,仍然是OpenAI那条路子。Grok 3在推理时的“想法”被模糊处理了;OpenAI的o3-mini也被质疑思维链不够原生。Grok 2要等到Grok 3完全成熟后开源,暂不明确开源到什么程度;OpenAI则让用户在有限的选项中投票决定哪个开源。


Grok的商业模式,目前是订阅+API的方式,与OpenAI相似。只不过,SuperGrok每月30美元,低于OpenAI最高档的每月200美元;Grok 3尚未公布API服务价格。


也许这也能说明为什么马斯克急着推出期货版的Grok 3。上周,奥特曼公开了GPT-5的路线图,马斯克立刻在迪拜预告了Grok 3。今天,抢在马斯克“地球上最聪明的人工智能”发布前,奥特曼公开宣称GPT-4.5进入测试阶段,并称其体验“接近通用人工智能(AGI)”。


马斯克一边通过千亿美元收购OpenAI非营利公司,阻击奥特曼对OpenAI的改组,一边寻求新一轮约100亿美元的融资。OpenAI刚融了400亿美元,投资者正是马斯克认为没那么多钱的软银集团。


无论是xAI,OpenAI还是DeepSeek,它们竞争的焦点将是下一代模型,仍然需要大量资金。当前的订阅模式,与API模式,在这种扩展定律仍在起效、算力仍然紧缺的竞争环境下,难以单独支持从研发到变现的整个创新循环。


订阅服务是目前大多数人触及大型语言模型服务的交互方式。它的商业逻辑相当简单,用户每月支付固定的费用,可以与大模型互动固定的次数(部分互动可能是无上限的)。但这一模式天然制造了用户与大模型厂商的紧张关系:从利润率的角度,后者希望前者购买,但少用;从用户粘性的角度,后者不希望前者离开自己的平台。后起的“零订阅费”的DeepSeek成为最快获得1亿用户的应用;而马斯克xAI与X的绑定是一把双刃剑,近期,X的全球日活用户减少了15%。


API模式粘性要稍高一点。客户每次切换大模型厂商,就意味着前期定制或优化成为了沉没成本。对大模型厂商而言,客户用得越多,自己收入也就越高。但是,这种模式下,大模型直接商品化,目前处于“价格战”之中,而且非常考验客户支持能力。OpenAI的API服务收入占比也并不高;苹果则顾虑DeepSeek缺乏服务大型企业的经验而选择了阿里巴巴。没人敢保证xAI就有规模化的API服务能力。


大模型厂商正在往价值链的上下游扩展,寻求降低成本,或增加收入。显然,美国巨头的大模型拥有更丰富的变现渠道。谷歌闭源的Gemini,Meta开源的Llama,都能赋能自己的互联网服务——这是一种主要由广告商替用户买单的产品。大模型厂商也可以通过基于大模型的专业服务额外收费,包括微软的生产力工具,也包括更垂直的政府、国防、金融、法律、科研等领域。


马斯克的特斯拉,可以向人类司机提供专业的“代驾”服务;人形机器人擎天柱也是可选项。马斯克的SpaceX拥有发射与卫星互联网业务,已经拥有了政府与军方的订单;马斯克还称再过两年把Grok装到火箭上。马斯克的Neuralink或许也能从中受益。在直播中,马斯克还半开玩笑地宣称,将在xAI内部成立一个自动化的游戏工作室。这些是马斯克继续参与大模型竞争的最大底牌。


本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
文集:
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: