黄仁勋甩出三代核弹AI芯片，DeepSeek成最大赢家-虎嗅网

本文来自微信公众号：APPSO （ID：appsolution），作者：appso，原文标题：《刚刚，黄仁勋甩出三代核弹AI芯片！个人超算每秒运算1000万亿次，DeepSeek成最大赢家》，题图来自：NVIDIA

文章摘要

英伟达在GTC大会发布三代AI芯片Blackwell Ultra、Rubin和Feynman，强调推理效率与成本优势。新一代芯片性能较前代提升显著，DeepSeek-R1模型在8块GPU上实现全球最快推理速度。同时推出AI工厂操作系统Dynamo、人形机器人Isaac GR00T N1，并布局量子计算领域，展示软硬件生态整合能力。

• 🚀三代核弹级芯片：Blackwell Ultra、Rubin、Feynman三代AI芯片接连发布，性能较前代最高提升900倍。

• 💡推理效率革命：Blackwell Ultra支持FP4精度推理达1.1 ExaFLOPS，DGX Spark实现每秒1000万亿次AI运算。

• 🏆DeepSeek破纪录：8块Blackwell GPU运行DeepSeek-R1模型，推理速度达每秒超3万token创全球之最。

• 🌐AI工厂操作系统：Dynamo系统动态调度GPU资源，通过智能路由和内存管理提升AI工厂运营效率。

• 🤖人形机器人突破：Isaac GR00T N1采用双系统认知架构，结合Google/迪士尼技术实现类人决策能力。

• ⚛️量子计算新布局：英伟达设量子日活动，回应微软/Google量子计算突破，推出硅光网络交换机提升连接效率。

英伟达GTC大会已经成了AI界超级碗，没有剧本也没有提词器，中途黄仁勋被线缆卡住，反而是这场高浓度AI发布会里最有人味的片段，在当今基本提前彩排或录播的科技发布会里已经很稀缺了。

刚刚，黄仁勋再次发布了全新一代核弹级AI芯片，不过这场发布会的还有个隐藏主角——DeepSeek。

由于智能体AI（Agentic AI）和推理能力的提升，现在所需的计算量至少是去年此时预估的100倍。

推理成本效率给AI行业带来影响，而不是简单地堆积计算能力，成为贯穿这场发布会的主线。英伟达要变成AI工厂，让AI以超越人类的速度学习和推理。

推理本质上是一座工厂在生产token，而工厂的价值取决于能否创造收入和利润。因此，这座工厂必须以极致的效率打造。

黄仁勋掏出的英伟达新“核弹”也在告诉我们，未来的人工智能竞争不在于谁的模型更大，而在于谁的模型具有最低的推理成本和更高的推理效率。

除了全新Blackwell芯片，还有两款“真·AI PC”

全新的Blackwell芯片代号为“Ultra”，也就是GB300 AI芯片，接棒去年的“全球最强AI芯片”B200，再一次实现性能上的突破。

Blackwell Ultra将包括英伟达GB300 NVL72机架级解决方案，以及英伟达HGX B300 NVL16系统。

Blackwell Ultra GB300 NVL72将于今年下半年发布，参数细节如下：

1.1 EF FP4 Inference：在进行FP4精度的推理任务时，能够达到1.1 ExaFLOPS（每秒百亿亿次浮点运算）。

0.36 EF FP8 Training：在进行FP8精度的训练任务时，性能为1.2 ExaFLOPS。

1.5X GB300 NVL72：与GB200 NVL72相比，性能为1.5倍。

20 TB HBM3：配备了20TB HBM内存，是前代的1.5倍。

40 TB Fast Memory：拥有40TB的快速内存，是前代的1.5倍。

14.4 TB/s CX8：支持CX8，带宽为14.4 TB/s，是前代的2倍。

单个Blackwell Ultra芯片将和前代一样提供相同的20 petaflops（每秒千万亿次浮点运算）AI性能，但配备更多的288GB的HBM3e内存。

如果说H100更适合大规模模型训练，B200在推理任务中表现出色，那么B300则是一个多功能平台，预训练、后训练和AI推理都不在话下。

英伟达还特别指出，Blackwell Ultra也适用于AI智能体，以及用于训练机器人和汽车自动驾驶的“物理AI”。

为了进一步增强系统性能，Blackwell Ultra还将与英伟达的Spectrum-X以太网和英伟达Quantum-X800 InfiniBand平台集成，为系统中的每个GPU提供800Gb/s的吞吐量，帮助AI工厂和云数据中心能够更快处理AI推理模型。

除了NVL72机架，英伟达还推出了包含单个GB300 Blackwell Ultra芯片的台式电脑DGX Station。Blackwell Ultra之外，这个主机还将配备784GB的同一系统内存，内置800Gbps英伟达ConnectX-8 SuperNIC网络，能够支持20 petaflops的AI性能。

而之前在CES 2025展示的“迷你主机”Project DIGITS也正式被命名为DGX Spark，搭载专为桌面优化的GB10 Grace Blackwell超级芯片，每秒可提供高达1000万亿次AI计算操作，用于最新AI推理模型的微调和推理，包括NVIDIA Cosmos Reason世界基础模型和NVIDIA GR00T N1机器人基础模型。

黄仁勋表示，借助DGX Station和DGX Spark，用户可以在本地运行大模型，或者将其部署在NVIDIA DGX Cloud等其他加速云或者数据中心基础设施上。

这是AI时代的计算机。

DGX Spark系统现已开放预订，而DGX Station预计将由华硕、戴尔、惠普等合作伙伴于今年晚些时候推出。

下一代AI芯片Rubin官宣，2026年下半年推出

英伟达一直以科学家的名字为其架构命名，这种命名方式已成为英伟达文化的一部分。这一次，英伟达延续了这一惯例，将下一代AI芯片平台命名为“Vera Rubin”，以纪念美国著名天文学家薇拉·鲁宾（Vera Rubin）。

黄仁勋表示，Rubin的性能将达到Hopper的900倍，而Blackwell相较Hopper已实现了68倍的提升。

其中，Vera Rubin NVL144预计将在2026年下半年发布。参数信息省流不看版：

3.6 EF FP4 Inference：在进行FP4精度的推理任务时，能够达到3.6 ExaFLOPS（每秒百亿亿次浮点运算）。

1.2 EF FP8 Training：在进行FP8精度的训练任务时，性能为1.2 ExaFLOPS。

3.3X GB300 NVL72：与GB300 NVL72相比，性能提升了3.3倍。

13 TB/s HBM4：配备了HBM4，带宽为13TB/s。

75 TB Fast Memory：拥有75 TB的快速内存，是前代的1.6倍。

260 TB/s NVLink6：支持NVLink 6，带宽为260 TB/s，是前代的2倍。

28.8 TB/s CX9：支持CX9，带宽为28.8 TB/s，是前代的2倍。

标准版Rubin将配备HBM4，性能比当前的Hopper H100芯片大幅提升。

Rubin引入名为Grace CPU的继任者——Veru，包含88个定制的Arm核心，每个核心支持176个线程，并通过NVLink-C2C实现1.8 TB/s的高带宽连接。

英伟达表示，定制的Vera设计将比去年Grace Blackwell芯片中使用的CPU速度提升一倍。

与Vera CPU搭配时，Rubin在推理任务中的算力可达50 petaflops，是Blackwell 20 petaflops的两倍以上。此外，Rubin还支持高达288GB的HBM4内存，这也是AI开发者关注的核心规格之一。

实际上，Rubin由两个GPU组成，而这一设计理念与当前市场上的Blackwell GPU类似——后者也是通过将两个独立芯片组装为一个整体运行。

从Rubin开始，英伟达将不再像对待Blackwell那样把多GPU组件称为单一GPU，而是更准确地按照实际的GPU芯片裸片数量来计数。

互联技术也升级了，Rubin配备第六代NVLink，以及支持1600 Gb/s的CX9网卡，能够加速数据传输并提升连接性。

除了标准版Rubin，英伟达还计划推出Rubin Ultra版本。

Rubin Ultra NVL576则将于2027年下半年推出。参数细节如下：

15 EF FP4 Inference：在FP4精度下进行推理任务时，性能达到15 ExaFLOPS。

5 EF FP8 Training：在FP8精度下进行训练任务时，性能为5 ExaFLOPS。

14X GB300 NVL72：相比GB300 NVL72，性能提升14倍。

4.6 PB/s HBM4e：配备HBM4e内存，带宽为4.6 PB/s。

365 TB Fast Memory：系统拥有365 TB的快速内存，是前代的8倍。

1.5 PB/s NVLink7：支持NVLink 7，带宽为1.5 PB/s，是前代的12倍。

115.2 TB/s CX9：支持CX9，带宽为115.2 TB/s，是前代的8倍。

在硬件配置上，Rubin Ultra的Veras系统延续了88个定制Arm核心的设计，每个核心支持176个线程，并通过NVLink-C2C提供1.8 TB/s的带宽。

而GPU方面，Rubin Ultra集成了4个Reticle-Sized GPU，每颗GPU提供100 petaflops的FP4计算能力，并配备1TB的HBM4e内存，在性能和内存容量上都达到了新的高度。

为了在瞬息万变的市场竞争中站稳脚跟，英伟达的产品发布节奏已经缩短至一年一更。发布会上，老黄也正式揭晓下一代AI芯片的命名——物理学家费曼（Feynman）。

随着AI工厂的规模不断扩大，网络基础设施的重要性愈发凸显。

为此，英伟达推出了Spectrum-X™和Quantum-X硅光网络交换机，旨在帮助AI工厂实现跨站点连接数百万GPU，同时显著降低能耗和运营成本。

Spectrum-X Photonics交换机具有多种配置，包括：

128端口800Gb/s或512端口200Gb/s配置，总带宽达100Tb/s。

512端口800Gb/s或2048端口200Gb/s配置，总吞吐量达400Tb/s。

与之配套的Quantum-X Photonics交换机则基于200Gb/s SerDes技术，提供144端口800Gb/s的InfiniBand连接，并采用液冷设计高效冷却板载硅光子组件

与上一代产品相比，Quantum-X Photonics交换机为AI计算架构提供2倍速度和5倍可扩展性。

Quantum-X Photonics InfiniBand交换机预计于今年晚些时候上市，而Spectrum-X Photonics以太网交换机预计将于2026年推出。

随着AI的快速发展，对数据中心的带宽、低延迟和高能效需求也急剧增加。

英伟达Spectrum-X Photonics交换机采用了一种名为CPO的光电子集成技术。其核心是将光引擎（就是能处理光信号的芯片）和普通的电子芯片（比如交换芯片或ASIC芯片）放在同一个封装里。

这种技术的好处很多：

传输效率更高：因为距离缩短，信号传输更快。

功耗更低：距离短了，传输信号需要的能量也少了。

体积更小：把光和电的部件集成在一起，整体体积也变小了，空间利用率更高。

AI工厂的“操作系统”Dynamo

未来将没有数据中心，只有AI工厂。

黄仁勋表示，未来，每个行业、每家公司拥有工厂时，都将有两个工厂：一个是他们实际生产的工厂，另一个是AI工厂，而Dynamo则是专门为“AI工厂”打造的操作系统。

Dynamo是一款分布式推理服务库，为需要token但又无法获得足够token的问题提供开源解决方案。

简单来说，Dynamo有四个方面的优势：

GPU规划引擎，动态调度GPU资源以适应用户需求；

智能路由器，减少GPU对重复和重叠请求的重新计算，释放更多算力应对新的传入请求；

低延迟通信库，加速数据传输；

内存管理器，智能在低成本内存和存储设备中的推理数据。

人形机器人的露脸环节，永远不会缺席

人形机器人再一次成为了GTC大会的压轴节目，这次英伟达带来了Isaac GR00T N1，全球首款开源人形机器人功能模型。

黄仁勋表示，通用机器人技术的时代已经到来，借助Isaac GR00T N1核心的数据生成以及机器人学习框架，全球各地的机器人开发人员将进入AI时代的下一个前沿领域。

这个模型采用“双系统”架构，模仿人类的认知原理：

系统1：快速思考的动作模型，模仿人类的反应或直觉；

系统2：慢思考的模型，用于深思熟虑的决策。

在视觉语言模型的支持下，系统2对环境和指令进行推理，然后规划动作，系统1将这些规划转化为机器人的动作。

GR00T N1的基础模型采用广义类人推理和技能进行了预训练，而开发人员可以通过真实或合成数据进行后训练，满足特定的需求：既可以完成工厂的特定任务，也可以在家里自主完成家务。

黄仁勋还宣布了与Google DeepMind和Disney Research合作开发的开源物理引擎Newton。

一台搭载Newton平台的机器人也登上了舞台，黄仁勋称之为“Blue”，外观神似《星球大战》中的BDX机器人，能够用声音和动作和黄仁勋互动。

8块GPU，DeepSeek-R1推理速度创全球之最

英伟达实现了全球最快的DeepSeek-R1推理。

官网显示，一台搭载8个Blackwell GPU的DGX系统，在运行6710亿参数的DeepSeek-R1模型时，可实现每用户每秒超过250个token的速度，或达到最高吞吐量每秒超过30000个token。

通过硬件和软件的结合，自今年1月以来，英伟达在DeepSeek-R1 671B模型上的吞吐量提升了约36倍，每token的成本效率提高了约32倍。

为了实现这一成就，英伟达完整的推理生态系统已针对Blackwell架构进行了深度优化，不仅整合TensorRT-LLM、TensorRT Model Optimizer等先进工具，还无缝支持PyTorch、JAX和TensorFlow等主流框架。

在DeepSeek-R1、Llama 3.1 405B和Llama 3.3 70B等模型上，采用FP4精度的DGX B200平台相较于DGX H200平台，推理吞吐量提升超过3倍。

值得注意的是，此次发布会的主题演讲并未提及量子计算，但英伟达特意在这届GTC大会设置了量子日，邀请了多家当红量子计算公司的CEO出席。

要知道黄仁勋年初一句“量子计算还需20年才实用”的论断犹在耳畔。

一改口风的背后，离不开微软耗时17年研发的拓扑量子芯片Majorana 1实现8个拓扑量子比特集成，离不开Google Willow芯片宣称用5分钟完成经典计算机需10^25年处理的任务，推动了量子计算的热潮。

芯片无疑是重头戏，但一些软件的亮相同样值得关注。

硅谷著名投资人马克·安德森曾提出软件正在吞噬世界（Software is eating the world）的论断，其核心逻辑在于软件通过虚拟化、抽象化和标准化，正在成为控制物理世界的基础设施。

不满足于做“卖铲人”，英伟达的野心是打造AI时代的“生产力操作系统”。从汽车智能驾驶，到制造业的数字孪生工厂，这些贯穿整场发布会的案例都是将GPU算力转化为行业生产力的具象化表达。

实际上，无论是发布会上亮相的最新核弹芯片，还是押注战未来的量子计算，黄仁勋在这场发布会上对AI未来发展的洞察和布局，都比当下的技术参数与性能指标更具看点。

在介绍Blackwell与Hopper架构的对比时，黄仁勋还不忘幽默一把。

他以一个100MW工厂的对比数据为例，指出采用Hopper架构需要45，000颗芯片和400个机架，而Blackwell架构凭借更高的效率显著减少了硬件需求。

于是，黄仁勋那句经典的总结再次抛出，“the more you buy，the more you save”（买得越多，省得越多）。随后话锋一转，他又补充说，“the more you buy，the more you make”（买得越多，赚得越多）。

随着AI领域的重心从训练转向推理，英伟达更需要证明其软硬件生态在推理场景的不可替代性。

一方面，Meta、Google等巨头自研AI芯片，可能分流GPU市场需求。

另一方面，英伟达最新AI芯片的适时亮相，回应如DeepSeek的开源模型对GPU需求的冲击，并展示推理领域技术优势，也是为了对冲市场对训练需求见顶的担忧。

最近估值跌至10年低位的英伟达，比以往任何时候都需要一场酣畅淋漓的胜利。

本文来自微信公众号：APPSO （ID：appsolution），作者：appso

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

黄仁勋甩出三代核弹AI芯片，DeepSeek成最大赢家

大 家 都 在 搜

大家都在搜