2025-09-22
在上周的华为全链接大会上,华为轮值董事长徐直军首次系统披露了华为的昇腾芯片路线图,还有升级后的超节点架构,并发布了迄今全球规模最大的AI计算集群。
华为的这一串“连珠炮”,可能还要从DeepSeek的出现时讲起。
徐直军坦言,这家中国公司的横空出世“让全国人民过了一个快乐的AI年”,但也迫使整个行业重新审视算力基础设施的架构与路径,当压力最终传导至华为,客户提出大量建议甚至批评后,这才有了8月5日那场被业内视为“华为AI生态反击战”的昇腾产业峰会。
在这场昇腾峰会后,华为内部确定了四项关键决策:坚持硬件变现、CANN部分开放并全面开源、Mind系列工具链彻底开源,以及openPangu大模型开源。
基于这四项关键决策,华为的AI算力战役,被再次按下加速键。
在全链接大会上,徐直军首次曝光了华为昇腾芯片的完整演进路线。未来三年,华为将推出三大系列芯片,包括Ascend 950(含PR和DT两型号)、Ascend 960和Ascend 970。

其中最接近商用的Ascend 950系列展现出多项突破:支持FP8/MXFP8/MXFP4等低精度格式、创新性地采用SIMD/SIMT双编程模型、精细化内存访问控制,并将互联带宽推至2TB/s。华为还自研了HiBL 1.0和HiZQ 2.0内存方案,分别针对推理Prefill/推荐场景和Decode/训练场景优化。
值得注意的是,徐直军明确提出“以几乎一年一代、算力翻倍的速度持续演进”。实际上,Ascend 960和970也的确在几乎所有指标上都将实现代际翻倍,显示出较为激进的技术节奏。
有了芯片这个底层算力单元的突破,华为对“超节点”架构也做出了升级。
从今年3月发布的384卡Atlas 900超节点起步,华为此次正式推出基于Ascend 950DT的Atlas 950超节点,支持8192卡、160个机柜,总算力高达8E FLOPS(FP8)和16E FLOPS(FP4),其互联带宽甚至超过全球互联网峰值带宽的十倍。

在全链接大会现场,徐直军毫不避讳地与英伟达直接对标:相比其明年下半年将推出的NVL144,Atlas 950规模为其56.8倍、算力为其6.7倍、互联带宽为其62倍。
但还是要说,万卡级规模背后的互联挑战几乎逼近物理极限。电互联距离不够、光互联可靠性不足,带宽和时延难以兼得。
为了解决上述问题,华为还同期发布了自研互联协议“灵衢”(UnifiedBus),支持超过200米的光互联距离、2.1微秒超低时延,并通过多层级高可靠机制实现“光互联距离+电互联可靠性”。
基于此,华为进一步推出集群级产品Atlas 950 SuperCluster,由64个Atlas 950超节点组成、52万张加速卡互联而成,规模相当于当前全球最大AI集群xAI Colossus的2.5倍,2027年还将推出百万卡级别的Atlas 960 SuperCluster,彻底将竞争带入“ZFLOPS时代”。

此外,华为还发布了全球首个“通算超节点”——基于鲲鹏950的TaiShan 950超节点。它支持16节点、48TB内存池化,并通过与GaussDB结合,实现无需分布式改造即可替代传统大型机,徐直称之为“大型机与小型机的终结者”。
而“混合超节点”的构想更值得关注:通过将TaiShan通算节点与Atlas智算节点互联,构建共享内存池与统一算力资源,直接支持下一代生成式推荐系统。这或许是未来互联网架构演进的一个重要方向。
从芯片到超节点,从灵衢协议到全面开源,华为正试图在生态开放与技术引领之间找到平衡。徐直军的演讲清晰地传递出一个信号:华为不再满足于被动应对算力需求,而是希望定义下一代AI基础设施范式。
不过,能否真正实现“万卡如一台计算机”的体验?能否让开发者像使用单个GPU一样简单调度万级规模算力?这不仅取决于华为的技术实现,也取决于生态是否愿意接纳另一套互联标准。在英伟达仍在加速迭代的当下,华为的这场超节点之战,才刚刚开始。
AI燎原