扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2025-03-19 07:34

黄仁勋甩出三代核弹AI芯片,DeepSeek成最大赢家

本文来自微信公众号:APPSO (ID:appsolution),作者:appso,原文标题:《刚刚,黄仁勋甩出三代核弹AI芯片!个人超算每秒运算1000万亿次,DeepSeek成最大赢家》,题图来自:NVIDIA

文章摘要
英伟达在GTC大会发布三代AI芯片Blackwell Ultra、Rubin和Feynman,强调推理效率与成本优势。新一代芯片性能较前代提升显著,DeepSeek-R1模型在8块GPU上实现全球最快推理速度。同时推出AI工厂操作系统Dynamo、人形机器人Isaac GR00T N1,并布局量子计算领域,展示软硬件生态整合能力。

• 🚀三代核弹级芯片:Blackwell Ultra、Rubin、Feynman三代AI芯片接连发布,性能较前代最高提升900倍。

• 💡推理效率革命:Blackwell Ultra支持FP4精度推理达1.1 ExaFLOPS,DGX Spark实现每秒1000万亿次AI运算。

• 🏆DeepSeek破纪录:8块Blackwell GPU运行DeepSeek-R1模型,推理速度达每秒超3万token创全球之最。

• 🌐AI工厂操作系统:Dynamo系统动态调度GPU资源,通过智能路由和内存管理提升AI工厂运营效率。

• 🤖人形机器人突破:Isaac GR00T N1采用双系统认知架构,结合Google/迪士尼技术实现类人决策能力。

• ⚛️量子计算新布局:英伟达设量子日活动,回应微软/Google量子计算突破,推出硅光网络交换机提升连接效率。

英伟达GTC大会已经成了AI界超级碗,没有剧本也没有提词器,中途黄仁勋被线缆卡住,反而是这场高浓度AI发布会里最有人味的片段,在当今基本提前彩排或录播的科技发布会里已经很稀缺了。



刚刚,黄仁勋再次发布了全新一代核弹级AI芯片,不过这场发布会的还有个隐藏主角——DeepSeek。


由于智能体AI(Agentic AI)和推理能力的提升,现在所需的计算量至少是去年此时预估的100倍。


推理成本效率给AI行业带来影响,而不是简单地堆积计算能力,成为贯穿这场发布会的主线。英伟达要变成AI工厂,让AI以超越人类的速度学习和推理。


推理本质上是一座工厂在生产token,而工厂的价值取决于能否创造收入和利润。因此,这座工厂必须以极致的效率打造。


黄仁勋掏出的英伟达新“核弹”也在告诉我们,未来的人工智能竞争不在于谁的模型更大,而在于谁的模型具有最低的推理成本和更高的推理效率。


除了全新Blackwell芯片,还有两款“真·AI PC”


全新的Blackwell芯片代号为“Ultra”,也就是GB300 AI芯片,接棒去年的“全球最强AI芯片”B200,再一次实现性能上的突破。


Blackwell Ultra将包括英伟达GB300 NVL72机架级解决方案,以及英伟达HGX B300 NVL16系统。



Blackwell Ultra GB300 NVL72将于今年下半年发布,参数细节如下:


  • 1.1 EF FP4 Inference:在进行FP4精度的推理任务时,能够达到1.1 ExaFLOPS(每秒百亿亿次浮点运算)


  • 0.36 EF FP8 Training:在进行FP8精度的训练任务时,性能为1.2 ExaFLOPS。


  • 1.5X GB300 NVL72:与GB200 NVL72相比,性能为1.5倍。


  • 20 TB HBM3:配备了20TB HBM内存,是前代的1.5倍。


  • 40 TB Fast Memory:拥有40TB的快速内存,是前代的1.5倍。


  • 14.4 TB/s CX8:支持CX8,带宽为14.4 TB/s,是前代的2倍。


单个Blackwell Ultra芯片将和前代一样提供相同的20 petaflops(每秒千万亿次浮点运算)AI性能,但配备更多的288GB的HBM3e内存。


如果说H100更适合大规模模型训练,B200在推理任务中表现出色,那么B300则是一个多功能平台,预训练、后训练和AI推理都不在话下。



英伟达还特别指出,Blackwell Ultra也适用于AI智能体,以及用于训练机器人和汽车自动驾驶的“物理AI”。


为了进一步增强系统性能,Blackwell Ultra还将与英伟达的Spectrum-X以太网和英伟达Quantum-X800 InfiniBand平台集成,为系统中的每个GPU提供800Gb/s的吞吐量,帮助AI工厂和云数据中心能够更快处理AI推理模型。


除了NVL72机架,英伟达还推出了包含单个GB300 Blackwell Ultra芯片的台式电脑DGX Station。Blackwell Ultra之外,这个主机还将配备784GB的同一系统内存,内置800Gbps英伟达ConnectX-8 SuperNIC网络,能够支持20 petaflops的AI性能。



而之前在CES 2025展示的“迷你主机”Project DIGITS也正式被命名为DGX Spark,搭载专为桌面优化的GB10 Grace Blackwell超级芯片,每秒可提供高达1000万亿次AI计算操作,用于最新AI推理模型的微调和推理,包括NVIDIA Cosmos Reason世界基础模型和NVIDIA GR00T N1机器人基础模型。



黄仁勋表示,借助DGX Station和DGX Spark,用户可以在本地运行大模型,或者将其部署在NVIDIA DGX Cloud等其他加速云或者数据中心基础设施上。


这是AI时代的计算机。


DGX Spark系统现已开放预订,而DGX Station预计将由华硕、戴尔、惠普等合作伙伴于今年晚些时候推出。


下一代AI芯片Rubin官宣,2026年下半年推出


英伟达一直以科学家的名字为其架构命名,这种命名方式已成为英伟达文化的一部分。这一次,英伟达延续了这一惯例,将下一代AI芯片平台命名为“Vera Rubin”,以纪念美国著名天文学家薇拉·鲁宾(Vera Rubin)


黄仁勋表示,Rubin的性能将达到Hopper的900倍,而Blackwell相较Hopper已实现了68倍的提升。


其中,Vera Rubin NVL144预计将在2026年下半年发布。参数信息省流不看版:


  • 3.6 EF FP4 Inference:在进行FP4精度的推理任务时,能够达到3.6 ExaFLOPS(每秒百亿亿次浮点运算)


  • 1.2 EF FP8 Training:在进行FP8精度的训练任务时,性能为1.2 ExaFLOPS。


  • 3.3X GB300 NVL72:与GB300 NVL72相比,性能提升了3.3倍。


  • 13 TB/s HBM4:配备了HBM4,带宽为13TB/s。


  • 75 TB Fast Memory:拥有75 TB的快速内存,是前代的1.6倍。


  • 260 TB/s NVLink6:支持NVLink 6,带宽为260 TB/s,是前代的2倍。


  • 28.8 TB/s CX9:支持CX9,带宽为28.8 TB/s,是前代的2倍。



标准版Rubin将配备HBM4,性能比当前的Hopper H100芯片大幅提升。


Rubin引入名为Grace CPU的继任者——Veru,包含88个定制的Arm核心,每个核心支持176个线程,并通过NVLink-C2C实现1.8 TB/s的高带宽连接。


英伟达表示,定制的Vera设计将比去年Grace Blackwell芯片中使用的CPU速度提升一倍。


与Vera CPU搭配时,Rubin在推理任务中的算力可达50 petaflops,是Blackwell 20 petaflops的两倍以上。此外,Rubin还支持高达288GB的HBM4内存,这也是AI开发者关注的核心规格之一。



实际上,Rubin由两个GPU组成,而这一设计理念与当前市场上的Blackwell GPU类似——后者也是通过将两个独立芯片组装为一个整体运行。


从Rubin开始,英伟达将不再像对待Blackwell那样把多GPU组件称为单一GPU,而是更准确地按照实际的GPU芯片裸片数量来计数。


互联技术也升级了,Rubin配备第六代NVLink,以及支持1600 Gb/s的CX9网卡,能够加速数据传输并提升连接性。


除了标准版Rubin,英伟达还计划推出Rubin Ultra版本。



Rubin Ultra NVL576则将于2027年下半年推出。参数细节如下:


  • 15 EF FP4 Inference:在FP4精度下进行推理任务时,性能达到15 ExaFLOPS。


  • 5 EF FP8 Training:在FP8精度下进行训练任务时,性能为5 ExaFLOPS。


  • 14X GB300 NVL72:相比GB300 NVL72,性能提升14倍。


  • 4.6 PB/s HBM4e:配备HBM4e内存,带宽为4.6 PB/s。


  • 365 TB Fast Memory:系统拥有365 TB的快速内存,是前代的8倍。


  • 1.5 PB/s NVLink7:支持NVLink 7,带宽为1.5 PB/s,是前代的12倍。


  • 115.2 TB/s CX9:支持CX9,带宽为115.2 TB/s,是前代的8倍。


在硬件配置上,Rubin Ultra的Veras系统延续了88个定制Arm核心的设计,每个核心支持176个线程,并通过NVLink-C2C提供1.8 TB/s的带宽。


而GPU方面,Rubin Ultra集成了4个Reticle-Sized GPU,每颗GPU提供100 petaflops的FP4计算能力,并配备1TB的HBM4e内存,在性能和内存容量上都达到了新的高度。


为了在瞬息万变的市场竞争中站稳脚跟,英伟达的产品发布节奏已经缩短至一年一更。发布会上,老黄也正式揭晓下一代AI芯片的命名——物理学家费曼(Feynman)


随着AI工厂的规模不断扩大,网络基础设施的重要性愈发凸显。


为此,英伟达推出了Spectrum-X™和Quantum-X硅光网络交换机,旨在帮助AI工厂实现跨站点连接数百万GPU,同时显著降低能耗和运营成本。



Spectrum-X Photonics交换机具有多种配置,包括:


  • 128端口800Gb/s或512端口200Gb/s配置,总带宽达100Tb/s。


  • 512端口800Gb/s或2048端口200Gb/s配置,总吞吐量达400Tb/s。


与之配套的Quantum-X Photonics交换机则基于200Gb/s SerDes技术,提供144端口800Gb/s的InfiniBand连接,并采用液冷设计高效冷却板载硅光子组件


与上一代产品相比,Quantum-X Photonics交换机为AI计算架构提供2倍速度和5倍可扩展性。


Quantum-X Photonics InfiniBand交换机预计于今年晚些时候上市,而Spectrum-X Photonics以太网交换机预计将于2026年推出。


随着AI的快速发展,对数据中心的带宽、低延迟和高能效需求也急剧增加。


英伟达Spectrum-X Photonics交换机采用了一种名为CPO的光电子集成技术。其核心是将光引擎(就是能处理光信号的芯片)和普通的电子芯片(比如交换芯片或ASIC芯片)放在同一个封装里。


这种技术的好处很多:


  • 传输效率更高:因为距离缩短,信号传输更快。


  • 功耗更低:距离短了,传输信号需要的能量也少了。


  • 体积更小:把光和电的部件集成在一起,整体体积也变小了,空间利用率更高。


AI工厂的“操作系统”Dynamo


未来将没有数据中心,只有AI工厂。


黄仁勋表示,未来,每个行业、每家公司拥有工厂时,都将有两个工厂:一个是他们实际生产的工厂,另一个是AI工厂,而Dynamo则是专门为“AI工厂”打造的操作系统。



Dynamo是一款分布式推理服务库,为需要token但又无法获得足够token的问题提供开源解决方案。


简单来说,Dynamo有四个方面的优势:


  • GPU规划引擎,动态调度GPU资源以适应用户需求;


  • 智能路由器,减少GPU对重复和重叠请求的重新计算,释放更多算力应对新的传入请求;


  • 低延迟通信库,加速数据传输;


  • 内存管理器,智能在低成本内存和存储设备中的推理数据。


人形机器人的露脸环节,永远不会缺席


人形机器人再一次成为了GTC大会的压轴节目,这次英伟达带来了Isaac GR00T N1,全球首款开源人形机器人功能模型。



黄仁勋表示,通用机器人技术的时代已经到来,借助Isaac GR00T N1核心的数据生成以及机器人学习框架,全球各地的机器人开发人员将进入AI时代的下一个前沿领域。


这个模型采用“双系统”架构,模仿人类的认知原理:


  • 系统1:快速思考的动作模型,模仿人类的反应或直觉;


  • 系统2:慢思考的模型,用于深思熟虑的决策。


在视觉语言模型的支持下,系统2对环境和指令进行推理,然后规划动作,系统1将这些规划转化为机器人的动作。


GR00T N1的基础模型采用广义类人推理和技能进行了预训练,而开发人员可以通过真实或合成数据进行后训练,满足特定的需求:既可以完成工厂的特定任务,也可以在家里自主完成家务。


黄仁勋还宣布了与Google DeepMind和Disney Research合作开发的开源物理引擎Newton。



一台搭载Newton平台的机器人也登上了舞台,黄仁勋称之为“Blue”,外观神似《星球大战》中的BDX机器人,能够用声音和动作和黄仁勋互动。


8块GPU,DeepSeek-R1推理速度创全球之最


英伟达实现了全球最快的DeepSeek-R1推理。


官网显示,一台搭载8个Blackwell GPU的DGX系统,在运行6710亿参数的DeepSeek-R1模型时,可实现每用户每秒超过250个token的速度,或达到最高吞吐量每秒超过30000个token。


通过硬件和软件的结合,自今年1月以来,英伟达在DeepSeek-R1 671B模型上的吞吐量提升了约36倍,每token的成本效率提高了约32倍。



为了实现这一成就,英伟达完整的推理生态系统已针对Blackwell架构进行了深度优化,不仅整合TensorRT-LLM、TensorRT Model Optimizer等先进工具,还无缝支持PyTorch、JAX和TensorFlow等主流框架。


在DeepSeek-R1、Llama 3.1 405B和Llama 3.3 70B等模型上,采用FP4精度的DGX B200平台相较于DGX H200平台,推理吞吐量提升超过3倍。


值得注意的是,此次发布会的主题演讲并未提及量子计算,但英伟达特意在这届GTC大会设置了量子日,邀请了多家当红量子计算公司的CEO出席。


要知道黄仁勋年初一句“量子计算还需20年才实用”的论断犹在耳畔。


一改口风的背后,离不开微软耗时17年研发的拓扑量子芯片Majorana 1实现8个拓扑量子比特集成,离不开Google Willow芯片宣称用5分钟完成经典计算机需10^25年处理的任务,推动了量子计算的热潮。


芯片无疑是重头戏,但一些软件的亮相同样值得关注。


硅谷著名投资人马克·安德森曾提出软件正在吞噬世界(Software is eating the world)的论断,其核心逻辑在于软件通过虚拟化、抽象化和标准化,正在成为控制物理世界的基础设施。


不满足于做“卖铲人”,英伟达的野心是打造AI时代的“生产力操作系统”。从汽车智能驾驶,到制造业的数字孪生工厂,这些贯穿整场发布会的案例都是将GPU算力转化为行业生产力的具象化表达。


实际上,无论是发布会上亮相的最新核弹芯片,还是押注战未来的量子计算,黄仁勋在这场发布会上对AI未来发展的洞察和布局,都比当下的技术参数与性能指标更具看点。



在介绍Blackwell与Hopper架构的对比时,黄仁勋还不忘幽默一把。


他以一个100MW工厂的对比数据为例,指出采用Hopper架构需要45,000颗芯片和400个机架,而Blackwell架构凭借更高的效率显著减少了硬件需求。


于是,黄仁勋那句经典的总结再次抛出,“the more you buy,the more you save”(买得越多,省得越多)。随后话锋一转,他又补充说,“the more you buy,the more you make”(买得越多,赚得越多)。


随着AI领域的重心从训练转向推理,英伟达更需要证明其软硬件生态在推理场景的不可替代性。


一方面,Meta、Google等巨头自研AI芯片,可能分流GPU市场需求。


另一方面,英伟达最新AI芯片的适时亮相,回应如DeepSeek的开源模型对GPU需求的冲击,并展示推理领域技术优势,也是为了对冲市场对训练需求见顶的担忧。


最近估值跌至10年低位的英伟达,比以往任何时候都需要一场酣畅淋漓的胜利。


本文来自微信公众号:APPSO (ID:appsolution),作者:appso

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: