扫码打开虎嗅APP
本文来自微信公众号: 甲子光年 ,作者:苏霍伊 周悦,编辑:王博,原文标题:《逐项解读黄仁勋GTC演讲:Vera Rubin、token王、英伟达“龙虾”、太空计算和雪宝|甲子光年》
AI工厂启动,人类历史上最大基础设施建设正在发生。
美国当地时间3月16日上午11点15分,英伟达创始人、CEO黄仁勋出现在了圣何塞SAP中心的舞台上,开始GTC 2026的主题演讲。
面对全场的欢呼声,黄仁勋说:“我想提醒大家,这是一场科技大会。”
这里距离英伟达总部办公室只有10分钟车程,是每年英伟达GTC主题演讲的举办地。虽然黄仁勋经常出现在各种场合发表演讲,但是在这里,他明显更自然、放松。
圣何塞才是黄仁勋的主场。
虽然圣何塞的酒店价格飞涨,会场周边的酒店甚至超过了2000美元一晚,但仍有大量的参会者来到这里,希望听到AI行业最前沿的分享,寻找更多合作机会。
“GTC已经不只是一个技术大会,而是观察全球AI产业趋势的重要窗口。”北大学生人工智能创新会创始理事长谢小璇Valeri告诉「甲子光年」,“这次主要是看黄仁勋会怎么定义未来一年AI行业的重点方向,尤其是算力平台、Agent、机器人和企业级应用这些领域。”
Eigen AI联合创始人、麻省理工学院计算机科学博士金帝则告诉「甲子光年」,他最关注的是LPU会给AI推理带来多大的重塑。
这次,黄仁勋的主题演讲主要有五项重要技术发布。
第一,下一代AI计算平台Vera Rubin。该平台将7款芯片整合在一起协同运行,通过5种机架组成一台强大的AI超级计算机,能够支持从大规模预训练、后训练和测试阶段扩展,到实时的Agent式推理等阶段的AI计算需求。
第二,下一代AI工厂参考设计Vera Rubin DSX。英伟达为企业和数据中心运营商提供一套完整指南,用于设计、建设和运营下一代AI工厂。
第三,“企业版OpenClaw”——NemoClaw。NemoClaw是英伟达为OpenClaw Agent平台提供的企业级运行与管理软件栈,可理解为OpenClaw的企业版运行环境。
第四,太空计算计划。英伟达计划将AI计算能力从地面数据中心延伸到轨道空间。通过将数据中心级计算能力部署到体积、重量和功耗受限的航天环境中,英伟达希望支持轨道数据中心、地理空间情报处理以及自主航天任务等新型应用。
第五,全新物理AI数据蓝图——NVIDIA Physical AI Data Factory Blueprint。这是一种开放参考架构,可统一并自动化训练数据的生成、增强与评估,从而降低大规模训练物理AI系统的成本、时间和复杂性。
「甲子光年」注意到,在今天演讲中,除了“AI”一词之外,黄仁勋说得最多的词就是“token”:“token是新的商品”“英伟达的token成本是世界级的,无人能及”……甚至他举起双拳说:“古有美猴王,今有Token王。”
从前段时间黄仁勋发布“AI是一块五层蛋糕(AI is a five-layer cake)”理论到今天GTC上的发布,可以看出,黄仁勋想要摆脱芯片公司的标签,把英伟达打造成一家AI基础设施公司。在他眼中,AI就是“人类历史上规模最大的基础设施建设”。

演讲现场,图片来源:「甲子光年」拍摄
去年GTC,黄仁勋就提到了Vera Rubin平台;今年GTC,黄仁勋揭秘了Vera Rubin平台的详细构成。
“Vera Rubin是一次跨时代的飞跃,它是由7款突破性芯片、5种机架组成的一台巨型超级计算机,旨在为AI的每一个阶段提供动力,”黄仁勋说,“随着Vera Rubin的推出,Agentic AI的拐点已经到来,也将引发史上规模最大的基础设施建设浪潮。”
其中,7款芯片指的是:
NVIDIA Vera CPU
NVIDIA Rubin GPU
NVIDIA NVLink 6交换机
NVIDIA ConnectX-9 SuperNIC
NVIDIA BlueField-4 DPU
NVIDIA Spectrum-6以太网交换机
NVIDIA Groq 3 LPU
5种机架指的是:
Vera Rubin NVL72 GPU机架
Vera CPU机架
NVIDIA Groq 3 LPX推理加速器机架
NVIDIA BlueField-4 STX存储机架
NVIDIA Spectrum-6 SPX以太网机架

黄仁勋发布NVIDIA Vera Rubin,图片来源:「甲子光年」拍摄
在这7款芯片中,最受关注的是此次新发布的Vera CPU和Groq 3 LPU。
Vera CPU是全球首款为agentic AI和强化学习专门打造的处理器,在效率上达到传统机架级CPU的两倍,并且速度提高了50%。目前Vera CPU已进入全面量产,并将于今年下半年向合作伙伴提供。
Vera CPU的发布意味着传统CPU的设计路径正在被AI重新定义。
过去,游戏CPU追求单核性能,云CPU强调多核并发,移动设备的CPU则优先能效,而三者往往难以兼得。但AI工作负载同时要求高并发、低延迟和高能效,使得CPU必须在“多核、单核性能与能效”三者之间实现平衡。
这也就是说,AI需要一款全新的CPU,它不再沿用传统CPU的单一优化逻辑,而是面向AI工厂,成为一个融合多核扩展性、单线程性能和能效的系统级调度中枢。
Vera CPU的创新之处在于与GPU和网络架构的深度协同。在Vera Rubin平台中,CPU、GPU、DPU和高速网络被设计为一个整体系统。通过高速互联和统一的数据流管理,Vera CPU可以更高效地协调AI推理请求、模型加载以及大规模Agent任务的执行,从而提升整个AI工厂的吞吐效率和资源利用率。
从已披露的规格来看,Vera CPU采用88核设计,支持高达1.5TB内存与1.2TB/s带宽,并通过NVLink实现与GPU之间高达1.8GB/s的互联。这种带宽和互联能力,使CPU首次成为AI系统中的核心数据调度节点,而不再只是外围控制单元。
“Vera CPU专为极高的单线程性能、极高的数据输出能力、卓越的数据处理能力和极致的能效而设计。它是全球唯一一款数据中心专用中央处理器。”黄仁勋说。
而在本次GTC开幕前夕,就有媒体爆料英伟达将带来一款“世界从未见过的芯片”。
答案也很快揭晓——Groq 3 LPU,这是一款专门用于大语言模型推理的处理器。
在大模型推理过程中,通常可以拆分为两个阶段:一是Prefill(预填充)阶段,即在输入prompt后进行大规模矩阵计算;二是Decode(解码)阶段,模型按token逐步生成输出内容。GPU在前一个阶段中具备显著优势,但在后一个阶段中,由于生成过程具有强顺序性、对延迟高度敏感,且难以形成高效并行,往往导致算力利用率下降。
Groq 3 LPU就是专门为解码阶段优化。在Vera Rubin平台中,Groq 3 LPU会与GPU协同工作。
从硬件指标来看,Groq 3 LPU采用约500MB片上SRAM,并提供高达150TB/s的片上带宽,远高于传统依赖外部HBM内存的GPU架构,从而显著降低数据访问延迟。同时,其FP8算力达到约1.2 PFLOPs,晶体管规模达980亿,体现出较强的计算能力与集成度。

Rubin GPU与Groq 3 LPU,图片来源:「甲子光年」拍摄
相比单纯追求算力规模,Groq 3 LPU更强调通过大容量片上存储与超高带宽的数据流架构,将数据“留在芯片内”高速流动,从根本上优化大模型推理过程中最关键的延迟瓶颈。
Groq此前是一家独立的公司,成立于2016年,长期专注于AI推理基础设施,除了LPU之外,也自建了GroqCloud推理平台。2025年12月,英伟达与Groq达成一项非独家推理技术授权协议,吸纳部分核心成员加入英伟达,以推进相关技术规模化。
英伟达引入Groq并推出Groq 3 LPU,本质上是为了补齐其在“推理时代”的关键短板。随着AI从训练转向推理,尤其是Agent AI的兴起,低延迟token生成成为核心瓶颈。英伟达构建GPU+LPU的异构推理体系,本质上是在从“训练芯片公司”升级为“推理基础设施公司”。
而在5种机架中,Vera Rubin NVL72机架的发布吸引了广泛关注。
黄仁勋将Vera Rubin NVL72明确定位为新一代“AI工厂核心单元”。这一系统以机架为单位,集成72个Rubin GPU与36个Vera CPU,并通过NVLink 6、高速网络与DPU构建统一计算架构,实现计算、存储与数据流的深度耦合。
本质上,NVL72已不再是传统服务器,而是一台面向AI全流程的“整机级超级计算机”。

Vera Rubin NVL72,图片来源:「甲子光年」拍摄
Vera Rubin NVL72单机可提供高达3600 PFLOPS推理性能,并通过NVLink 6实现260TB/s的机架级互联带宽,显著降低跨GPU通信瓶颈。同时,HBM4内存容量与带宽大幅提升,使其能够支持更大上下文和更复杂的Agent推理任务。相比上一代架构,整体推理性能提升数倍,token成本也显著下降。

黄仁勋介绍NVIDIA Vera Rubin NVL72,图片来源:GTC 2026
而Vera CPU机架则是一个为AgenticAI和强化学习任务设计的CPU机架系统,单机架包含256个Vera CPU、400TB内存、300TB/s LPDDR5x带宽,以及64个BlueField-4 DPU。
通过与Spectrum-X以太网网络深度集成,Vera CPU机架可以在AI工厂内部实现多节点环境的高效同步,使强化学习与Agent系统能够在大规模分布式环境中稳定运行。
官方数据显示,相比传统数据中心CPU,该系统在性能与能效上实现约2倍效率提升和50%性能提升。这一架构不仅为大规模Agentic AI提供了基础支撑,也标志着CPU在AI数据中心中的角色,从通用计算单元转向“环境生成与调度引擎”。
英伟达还同步推出Groq 3 LPX推理加速器机架,专门面向大模型推理阶段的低延迟需求。该机架集成了256个LPU处理器,提供高达128GB片上SRAM和640TB/s机架级带宽。在这一架构中,大量LPU被组织为一个统一的“逻辑处理器”,以确定性数据流方式执行推理任务,使token生成过程具备更高吞吐与更低延迟。

NVIDIA Groq 3 LPX,图片来源:「甲子光年」拍摄
这释放出一个更加清晰的信号:在英伟达的设想里,未来的计算单元,将不只是GPU机架,而会出现GPU机架、CPU机架、LPU机架、存储机架、网络机架等分工更细的模块化组合。
黄仁勋表示,Vera Rubin的发布代表着计算能力在10年内提升了4000万倍。至于交付情况,他提到Grace Blackwell当初因为NVLink 72的整合,早期送样很复杂,“但Vera Rubin的送样进展非常顺利”。“
事实上,微软的CEO萨提亚·纳德拉(Satya Nadella)应该已经对外公布了,第一台Vera Rubin已在微软Azure上点亮运行了。”黄仁勋说。

NVIDIA Vera Rubin,图片来源:GTC 2026
「甲子光年」认为,Vera Rubin标志着AI计算从单一芯片竞争,迈向以整机系统为核心的“AI工厂级基础设施”时代。
AI工厂是英伟达近两年一直在强调的概念。
AI工厂本质上就是把数据中心重新定义成“智能产线”:输入是电力、数据、模型和调度系统,输出则是token、智能体执行能力和行业场景中的实际生产率。
围绕这一概念,英伟达发布了下一代AI工厂参考设计Vera Rubin DSX,这一参考设计覆盖计算、网络、存储、电力和冷却等整个基础设施栈,并通过软硬件协同设计,实现更高的token产出效率和能源利用率。
同时,英伟达还推出Omniverse DSX Blueprint,利用数字孪生技术对AI工厂进行高精度建模与仿真,使开发者能够在实际建设前模拟数据中心运行、优化性能并降低部署风险。通过这一架构,英伟达希望将AI数据中心从传统IT设施升级为“生产智能token的工厂”。

Vera Rubin DSX,图片来源:「甲子光年」拍摄
黄仁勋在演讲中称:“英伟达正在从一家芯片公司,转向一家AI工厂公司、AI基础设施公司。”

黄仁勋谈AI工厂,图片来源:「甲子光年」拍摄
在黄仁勋看来,AI时代真正重要的是谁能把整套系统做得更好,让AI工厂以更低成本持续运行。这样看,Rubin的意义也就不只是Blackwell的下一代,英伟达想借此定义AI工厂这套新基础设施。
黄仁勋提出了一套更鲜明的观点AI工厂是AI时代的工业基础设施,推理是核心负载,Token是新的商品,算力就是收入。这意味着,未来的数据中心不再只是堆放服务器的机房,而是生产智能的工厂。衡量这座工厂效率的关键,不只是算力有多强,而是能以多高效率、多少成本持续产出Token。
在今天的演讲中,黄仁勋反复强调token成本,并援引SemiAnalysis的测算称,英伟达目前在这一指标上处于世界领先位置。他还半开玩笑地说,过去大家讲“美猴王(Monkey King)”,现在更值得争夺的是“Token王(Token King)”。他称:“我们的token成本是全球最低的。”暗示英伟达是当之无愧的“Token王”。

黄仁勋表示英伟达Token成本全球最低,挥手示意为“Token King”,图片来源:GTC 2026
黄仁勋强调,相较上一代GPU Blackwell,Rubin将带来更大的商业空间,并有望释放高达1500亿美元的收入。

黄仁勋展示Rubin与Blackwell收入对比,图片来源:「甲子光年」拍摄
黄仁勋以一座1吉瓦级AI数据中心为例,将算力按免费、中端、高端和旗舰服务分层,各占25%,强调不同token服务对应不同商业价值,并以此说明AI工厂的收入结构正在发生变化。
他指出,随着架构升级,单位功耗可产生的token数量持续提升,而token成本不断下降,从而显著放大整体收入空间。
在这一框架下,Blackwell相比Hopper在吞吐与效率上的提升,已带来显著的收入能力增长,而Vera Rubin平台在此基础上进一步提升系统级性能,使AI工厂的商业模型继续向高密度、高效率演进。与此同时,通过引入GPU与LPU的异构架构,对推理流程进行分工优化,还可以进一步提升低延迟场景下的token产出效率,从而释放更高价值的应用收入。
他建议用户“尽快迁移到Vera Rubin”,因为token成本持续下降的同时吞吐量还在上升。如果进一步将25%的数据中心配备Groq用于高速编程类token生成,收入还能进一步提升。

NVIDIA Rubin NVL72与Blackwell NVL72推理速度及效率对比,图片来源:「甲子光年」拍摄
“但要真正爆发,吞吐量和单token成本还需要持续优化。”Eigen AI联合创始人金帝在GTC现场告诉「甲子光年」。
在主题演讲中,黄仁勋展示了各推理服务商在Kimi K2.5 Reasoning模型上的输出速度排名中,其中Eigen AI以439 tokens/s位列第一。“我们是一家专注于高性能、低成本的大模型训练与推理的全栈基础设施公司,感到很幸运黄仁勋Cue到了。”金帝说。

截至2026年3月14日全球领先的推理服务商,左一为EigenAI。图片来源:「甲子光年」拍摄
从商业视角看,这意味着英伟达的天花板正在被重新打开。一旦机架成为产品单位,英伟达可售卖的就不只是芯片本身,还包括整机、网络、存储、软件栈、调度框架,乃至AI工厂的设计蓝图。对于黄仁勋来说,这比卖一代又一代GPU的故事,要大得多。
在GTC现场,GMI Cloud创始人&CEO Alex Yeh告诉「甲子光年」:“我们会开始买Vera Rubin平台的硬件来在各国开展sovereign AI(主权AI)的AI数据中心建设。”
黄仁勋在介绍Vera Rubin、AI工厂时,经常提到的一个词是Agentic AI。
OpenClaw(龙虾)在硅谷热度不减,GTC现场经常能看到头戴龙虾装饰的观众,甚至黄仁勋的Keynote页面上还引用了国内社交媒体上流传很广的一张“龙虾主题”线下聚会图。
就在黄仁勋演讲开始前,OpenClaw创始人彼得·斯坦伯格(Peter Steinberger)出现在了GTC的场外直播中。他表示,Agent已经彻底改变了他的日常工作方式:那些无聊的重复性任务现在全由Agent搞定,他自己已经不怎么写代码了,更多时间花在思考架构和方向上。

彼得·斯坦伯格做客GTC现场直播节目,图片来源:「甲子光年」拍摄
“现在最大的挑战反而是‘不’,因为东西太容易实现了,一句prompt就能做出来,但你还是得想清楚到底要往哪走。”斯坦伯格分享,他的Agent甚至能自动把邮件、issue tracker和各种讨论线索关联起来,让他一眼看到该做什么,然后只专注在真正有意思的事情上。
而在演讲中,黄仁勋花了很长时间分享OpenClaw的作用及价值,他对OpenClaw评价极高:“OpenClaw是人类历史上排名第一,也是最受欢迎的开源项目。”他认为,OpenClaw的意义“就像当年的Linux、HTML和Kubernetes”,甚至称它在短短几周内做到的事,“超过了Linux 30年做到的事”。
黄仁勋认为,OpenClaw不只是一个agent,而更像是“Agentic Computer的操作系统”:它能连接大模型、调用工具、访问文件系统、执行任务调度、拆解复杂问题,还能调用子代理,通过多模态方式与人交互。
由此,黄仁勋抛出一个判断:“现在,每一家软件公司、每一家技术公司,都必须有自己的OpenClaw策略和Agent策略。”

“推理的拐点到来”,图片来源:「甲子光年」拍摄
但他随即强调,Agentic AI一旦进入企业网络,也会带来全新的安全问题——它可以接触敏感信息、执行代码、并对外通信。
为了解决这方面的问题,英伟达推出了NemoClaw。这并不是英伟达版的OpenClaw,而是英伟达为OpenClaw提供的企业级运行与管理软件栈。
通过NemoClaw,开发者可以安装NVIDIA Nemotron开源模型和OpenShell运行环境,为AI Agent提供安全隔离的执行环境,并加入数据隐私、网络访问和策略控制等安全机制,使长期运行的AI Agent更加可靠和可扩展。
NemoClaw可以在任何专用平台上运行,包括配备NVIDIA GeForce RTX的台式机和笔记本电脑或配备NVIDIA RTX PRO的工作站,以及NVIDIA DGX Station和NVIDIA DGX Spark人工智能超级计算机。它可为自主化Agent提供本地计算,使其能够全天候运行。

NemoClaw,图片来源:「甲子光年」拍摄
“知识型工作的苦活正在被彻底转移,有些公司已经完全理解了这一点,但有些还没有意识到我们能做到的和实际做到的之间,差距是惊人的。”斯坦伯格描述了他作为开发者的切身体会。
围绕这一点,黄仁勋进一步判断:“未来每一家SaaS公司都会成为AaaS(Agentic as a Service)公司。”在他看来,软件公司未来卖的不再只是工具,而是能执行任务的“数字员工”或“专业Agent”;工程师除了工资,甚至还会拥有自己的token预算,而这些token,则将由各家的AI工厂持续生产。
果壳CEO、未来光锥前沿科技基金创始合伙人姬十三听完黄仁勋演讲后也对此感触很深:“我这几天在硅谷聊下来,发现OpenClaw生态已经繁荣,有人做专属硬件,有人做更好的OpenClaw,有人做垂直行业版。2026年应该妥妥是Agent元年了。”
而英伟达的合作伙伴也做好了准备,作为首批与英伟达Dynamo合作并支持OpenShell运行时的云提供商之一,GMI Cloud的创始人&CEO Alex Yeh告诉「甲子光年」,GMI Cloud正在为NemoClaw提供基础设施服务。
这次黄仁勋的主题演讲中还有两个值得关注的发布。
太空计算计划。英伟达计划将AI计算能力从地面数据中心延伸到轨道空间。通过将数据中心级计算能力部署到体积、重量和功耗受限的航天环境中,英伟达希望支持轨道数据中心、地理空间情报处理以及自主航天任务等新型应用。
例如,新的Space-1 Vera Rubin Module可在太空环境中提供高性能AI推理能力,这一专为太空环境设计的AI计算模块,搭载新一代Rubin GPU,其AI推理性能比H100高出25倍,支持在轨道上运行大型语言模型和实时数据处理。而IGX Thor和Jetson Orin平台则为卫星和航天器提供实时AI处理与边缘计算能力。
通过这些技术,AI可以在数据产生的地方——包括卫星、轨道设施和航天器上,直接进行分析和决策,从而减少数据回传延迟,并推动太空基础设施向“智能化、自主化”演进。

NVIDIA Space-1 Vera Rubin Module发布,图片来源:GTC 2026
另外就是全新物理AI数据蓝图——NVIDIA Physical AI Data Factory Blueprint。这是一种开放参考架构,可统一并自动化训练数据的生成、增强与评估,从而降低大规模训练物理AI系统的成本、时间和复杂性。
通过该架构,开发者可以利用NVIDIA Cosmos开放世界基础模型和编码Agent,将有限的真实数据扩展为大规模、多样化的数据集,并生成现实中难以采集的极端或长尾场景,从而大幅降低训练物理AI系统的成本与复杂度。该蓝图还将与云平台结合,把大规模计算资源转化为高效的数据生产引擎,帮助机器人、自动驾驶和视觉AI应用更快迭代与部署。
围绕机器人,英伟达形成了完整的三层计算体系:用于训练的计算机、用于合成数据和仿真的计算机,以及部署在机器人本体内部的计算机;同时配套Isaac Lab、Newton、Cosmos、GR00T等软件和模型栈。黄仁勋反复强调,真实世界过于复杂,“我们需要从AI和仿真中获得新的数据”,单靠真机数据永远不够。

黄仁勋与机器人同台,图片来源:「甲子光年」拍摄
在自动驾驶和机器人部分,黄仁勋表示:“自动驾驶迎来了ChatGPT时刻。”英伟达宣布新增比亚迪、现代、日产、吉利等车企加入RoboTaxi Ready平台,并与ABB、Universal-Robots、Kuka、Caterpillar、Foxconn、Disney Research等公司合作,把物理AI推向制造、物流、自动驾驶和娱乐等更具体的现实场景。

黄仁勋宣布新增比亚迪等车企加入RoboTaxi Ready Platform,图片来源:GTC 2026
在演讲的压轴环节,黄仁勋请出了一位特别嘉宾——由英伟达、迪士尼、谷歌DeepMind联合打造的《冰雪奇缘》雪宝(Olaf)机器人。
这个可爱的角色机器人能够自主行走,还能与黄仁勋俏皮互动。雪宝通过NVIDIA Newton物理引擎在Omniverse中以深度强化学习训练而成,黄仁勋开玩笑说:“你的电脑是我给的——Jetson,就在你肚子里。”他还畅想未来迪士尼乐园里各种角色机器人自由漫步的场景。
最后,黄仁勋放了一部机器人唱歌、演奏的短片,如释重负地坐在舞台上,和雪宝一起享受这场机器人的表演。

黄仁勋和雪宝一起看机器人演出视频,图片来源:「甲子光年」拍摄
谢幕时他感慨道:“I still love Disney(我还是最喜欢迪士尼)。”
每年GTC,整个AI产业都在等待黄仁勋再一次定义这场技术革命的叙事。
过去两年,围绕生成式AI的讨论大多集中在模型能力和算力规模,但最近黄仁勋发文,给出了一个更系统的框架——AI是一块“五层蛋糕”(AI is a five-layer cake):从底部的能源,到芯片、AI基础设施,再到模型与应用,层层叠加,构成一整套新的工业体系。

五层蛋糕框架,图片来源:英伟达
这个比喻背后的含义很清晰:AI是一场基础设施革命。如果说过去的互联网时代主要改变的是信息流,那么AI时代改变的则是算力、能源、数据中心和软件系统共同构成的“生产系统”。在这个体系中,GPU只是其中一层,而真正决定产业规模的,是整块蛋糕的协同生长。
黄仁勋认为,在过去的一年里,AI跨越了一个重要的门槛。模型性能显著提升,可以大规模投入使用。推理能力增强,幻觉现象减少,落地应用能力大幅提升。基于AI构建的应用首次开始创造真实的经济价值。
黄仁勋透露,去年GTCDC时他看到的高确信需求和订单是5000亿美元(覆盖Blackwell和Rubin到2026年),而仅仅一年后,“站在今天这个位置,到2027年我看到的至少是1万亿美元”,而且他确信实际需求会远高于此。
推动这一增长的核心是推理拐点的到来:AI从能感知、能生成,进化到能推理、能执行任务,每一次思考都要消耗推理算力,过去两年所需的计算量增长了大约一万倍。
与此同时,英伟达的客户基础也在快速扩大,他特别提到Anthropic和MSL(Meta)在过去一年选择了英伟达平台,加上多家开源模型厂商的加入,合计占据全球约三分之一的AI算力。从业务构成看,60%来自前五大超大规模云厂商,其中既包括内部AI消费(推荐系统、搜索等工作负载正在向大模型迁移),也包括通过英伟达生态落地的AI原生公司;另外40%则遍布区域云、主权AI、企业、工业、机器人和边缘计算。黄仁勋强调,“AI的多样性就是它的韧性,这不是一个单一应用的技术,这是一次根本性的计算平台迁移。”

黄仁勋展示推理拐点驱动的增长,图片来源:「甲子光年」拍摄
今年是CUDA的二十周年,黄仁勋认为,CUDA真正的壁垒在于二十年间积累的数以亿计的GPU装机量,覆盖了全球每一家云厂商和几乎每一个行业。
庞大的装机量吸引开发者,开发者带来算法突破,如深度学习等。而突破催生新市场,新市场又进一步扩大装机量,形成持续加速的飞轮。
他以六年前发货的AmpereGPU为例,称其云端定价不降反升,原因是CUDA生态下可运行的应用极其丰富,基础设施的有效使用寿命远超预期。英伟达也因此愿意持续为所有在役GPU更新软件,每一次优化都能惠及数百万用户,不断压低计算成本,而更低的成本又反过来刺激新的增长。

CUDA20周年,图片来源:「甲子光年」拍摄
一直以来,凭借GPU架构和CUDA生态的壁垒,英伟达缔造了AI时代的算力帝国,占据全球90%的算力市场份额。
但未来呢?
「甲子光年」认为,观察今年GTC的一个重要视角,是看英伟达如何在这五层结构中守住并继续扩展自己的位置。从下一代GPU架构、机架级AI系统,到推理时代的数据中心设计,再到Agent与物理AI应用,英伟达正在坚定把自己从一家芯片公司,重新定义为AI基础设施的核心平台提供者。
这是一次必须要做的转型,也是一次充满意味的新叙事。