华为抛出“算力王炸”

主理人：

丸都山

算力进入“ZFLOPS时代”

在上周的华为全链接大会上，华为轮值董事长徐直军首次系统披露了华为的昇腾芯片路线图，还有升级后的超节点架构，并发布了迄今全球规模最大的AI计算集群。

华为的这一串“连珠炮”，可能还要从DeepSeek的出现时讲起。

徐直军坦言，这家中国公司的横空出世“让全国人民过了一个快乐的AI年”，但也迫使整个行业重新审视算力基础设施的架构与路径，当压力最终传导至华为，客户提出大量建议甚至批评后，这才有了8月5日那场被业内视为“华为AI生态反击战”的昇腾产业峰会。

在这场昇腾峰会后，华为内部确定了四项关键决策：坚持硬件变现、CANN部分开放并全面开源、Mind系列工具链彻底开源，以及openPangu大模型开源。

基于这四项关键决策，华为的AI算力战役，被再次按下加速键。

在全链接大会上，徐直军首次曝光了华为昇腾芯片的完整演进路线。未来三年，华为将推出三大系列芯片，包括Ascend 950（含PR和DT两型号）、Ascend 960和Ascend 970。

其中最接近商用的Ascend 950系列展现出多项突破：支持FP8/MXFP8/MXFP4等低精度格式、创新性地采用SIMD/SIMT双编程模型、精细化内存访问控制，并将互联带宽推至2TB/s。华为还自研了HiBL 1.0和HiZQ 2.0内存方案，分别针对推理Prefill/推荐场景和Decode/训练场景优化。

值得注意的是，徐直军明确提出“以几乎一年一代、算力翻倍的速度持续演进”。实际上，Ascend 960和970也的确在几乎所有指标上都将实现代际翻倍，显示出较为激进的技术节奏。

有了芯片这个底层算力单元的突破，华为对“超节点”架构也做出了升级。

从今年3月发布的384卡Atlas 900超节点起步，华为此次正式推出基于Ascend 950DT的Atlas 950超节点，支持8192卡、160个机柜，总算力高达8E FLOPS（FP8）和16E FLOPS（FP4），其互联带宽甚至超过全球互联网峰值带宽的十倍。

在全链接大会现场，徐直军毫不避讳地与英伟达直接对标：相比其明年下半年将推出的NVL144，Atlas 950规模为其56.8倍、算力为其6.7倍、互联带宽为其62倍。

但还是要说，万卡级规模背后的互联挑战几乎逼近物理极限。电互联距离不够、光互联可靠性不足，带宽和时延难以兼得。

为了解决上述问题，华为还同期发布了自研互联协议“灵衢”（UnifiedBus），支持超过200米的光互联距离、2.1微秒超低时延，并通过多层级高可靠机制实现“光互联距离+电互联可靠性”。

基于此，华为进一步推出集群级产品Atlas 950 SuperCluster，由64个Atlas 950超节点组成、52万张加速卡互联而成，规模相当于当前全球最大AI集群xAI Colossus的2.5倍，2027年还将推出百万卡级别的Atlas 960 SuperCluster，彻底将竞争带入“ZFLOPS时代”。

此外，华为还发布了全球首个“通算超节点”——基于鲲鹏950的TaiShan 950超节点。它支持16节点、48TB内存池化，并通过与GaussDB结合，实现无需分布式改造即可替代传统大型机，徐直称之为“大型机与小型机的终结者”。

而“混合超节点”的构想更值得关注：通过将TaiShan通算节点与Atlas智算节点互联，构建共享内存池与统一算力资源，直接支持下一代生成式推荐系统。这或许是未来互联网架构演进的一个重要方向。

从芯片到超节点，从灵衢协议到全面开源，华为正试图在生态开放与技术引领之间找到平衡。徐直军的演讲清晰地传递出一个信号：华为不再满足于被动应对算力需求，而是希望定义下一代AI基础设施范式。

不过，能否真正实现“万卡如一台计算机”的体验？能否让开发者像使用单个GPU一样简单调度万级规模算力？这不仅取决于华为的技术实现，也取决于生态是否愿意接纳另一套互联标准。在英伟达仍在加速迭代的当下，华为的这场超节点之战，才刚刚开始。

AI燎原

一群来自虎嗅科技组的同学，制作了这个源流。我们想以观察者、亲历者视角，对 AI，尤其是 GenAI 进行祛魅——发布、提炼我们看到的 AI 进展，助你一手掌握 AI 的技术与行业动态，并一同迎接 AGI 的到来。