扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
马斯克旗下xAI的55万块英伟达GPU利用率仅11%,暴露AI行业普遍存在的算力浪费和超大规模集群调度难题,硬件规模已超出当前软件架构的优化能力。 ## 1. 超低利用率暴露软件栈缺陷 xAI运营55万块英伟达H100/H200 GPU,但模型算力利用率(MFU)仅11%,相当于仅6万块GPU实际生效。主因是超大规模集群中,高带宽内存读写和跨服务器通信延迟导致GPU频繁等待数据。 ## 2. 行业潜规则:算力浪费普遍存在 报道揭示部分大厂为保住GPU配额,会故意运行无意义任务刷高利用率数据。Meta和谷歌通过深度优化实现43%-46%的利用率,但11%仍显著低于行业平均水平。 ## 3. 规模与效率的结构性矛盾 万级GPU协调已属挑战,十万级集群的空闲时间会指数级累积。间歇性训练模式(参数调整/数据分析期间GPU闲置)进一步加剧效率问题,这是AI基础设施的共性难题。 ## 4. xAI的双轨解决方案 计划通过软件栈优化将利用率提升至50%,同时推进自研芯片"TeraFab"项目,拟采用英特尔14A制程技术构建专用硬件平台,未来可能开放GPU租赁服务。 ## 5. AI竞赛进入效率决胜阶段 案例证明硬件采购仅是起点,下半场竞争核心在于算力调度能力。现有软件架构已无法匹配GPU规模扩张,全局优化需覆盖数据/算法/网络等全链路。
2026-05-05 12:05

大型挂机现场:马斯克的55万英伟达GPU,利用率才11%

本文来自微信公众号: 机器之心 ,编辑:泽南,作者:关注AI基础设施的


马斯克旗下的xAI目前GPU资源利用率只有大概11%。相关报告指出,其AI软件栈的优化效果不尽如人意。近日,《The Information》的报道引发了人们的关注。



目前,xAI在其Memphis和Colossus数据中心集群中运营着约55万块英伟达GPU,包括H100和H200两种型号,其中部分设备采用了液冷散热配置。尽管这些GPU属于上一代产品(早于最新的Blackwell系列),但其规模已经令人叹为观止。


拥有如此庞大的GPU存量,xAI的模型算力利用率(MFU,Model FLOPs Utilization)却只有11%。打个不恰当的比喻,在xAI服务器中已安装的这50万块GPU中,实际可用的算力仅相当于约6万块GPU的水平。究竟是什么原因导致了如此低的效率?


首先,对于较小规模的部署环境(例如1000-10000块GPU)而言,多节点之间的协调计算通常不成问题。但随着服务器规模的不断扩大,当需要集成数十万颗GPU时,设备的空闲时间便会迅速累积,导致整体利用率急剧下滑。由此引发的软件栈内部的一系列不一致性问题,目前正在xAI的实际运行中暴露无遗。


在超级集群中,GPU芯片本身的计算速度相对很快,瓶颈在于高带宽内存(HBM)的数据读写速度和成千上万台服务器之间网络传输的通信开销。只要数据传输出现微小的延迟或网络拥堵,整个集群的GPU就会被迫“原地挂机”等待数据加载。


另一方面,AI模型的训练通常是间歇性的。GPU在实际计算时满载运转,但在研究人员分析训练结果、调整参数或处理数据管道时,大量设备就会处于闲置(Idle)状态。


虽然11%是一个显然偏低的数字,但The Information的报道也揭示了AI领域的一些行业潜规则:算力浪费是普遍的现象,有些大厂的研究人员为了避免被管理层批评,或者害怕闲置的GPU配额被其他团队抢走,甚至会故意重复运行一些无意义的训练任务来“刷高”利用率数据。


该说不说,这么做也是为了保住团队自己的GPU配额。


当然,这并非xAI独有的难题,它实际上是整个AI行业普遍存在的一种结构性问题——AI基础设施要在如此庞大的规模下实现高效运行,是一项极其艰巨的挑战。


运行AI云基础设施所需的优化技能涵盖数据、算法、模型、计算、内核、交互(人类-AI-世界、智能体之间),以及全局优化,在工程上难度极高。


一些科技巨头着重优化了大规模基础设施堆栈,已经能够实现超过40%的利用率。Meta和谷歌便是此类典范,其GPU的利用率分别高达43%和46%。


xAI遇到的困境证明了在当前的AI军备竞赛中,“买到GPU”只是第一步,用好才是关键。硬件规模已经超出了现有软件架构的调度能力。


不过,xAI已在着手解决这一问题,并设定了利用率达到50%的目标。尽管目前尚无确切的时间表,但其核心改进将聚焦于基础设施与软件堆栈的优化。随着未来工作负载逐步迁移至那些专为驱动“智能体AI”(Agentic AI)需求而设计的硬件平台之上,xAI极有可能将其庞大的GPU集群对外提供租赁服务。


马斯克也在寻求转变,押注于自研算力的“TeraFab”项目:一方面,他正在推动多款自研芯片,将其纳入xAI的“AI芯片家族”之中;另一方面,马斯克也希望借助英特尔的14A制程技术,为未来的xAI、SpaceX及其它相关业务打造尖端解决方案。


xAI的困境提醒了所有追赶者:AI竞赛的下半场,拼的可能不再是谁能买到更多显卡。


参考内容:


https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: