扫码打开虎嗅APP
出品|虎嗅科技组
作者|陈伊凡
编辑|苗正卿
头图|视觉中国
刚结束的GTC上,英伟达传递出的一个关键信号是,其在不断深化芯片提供商向AI基础设施系统提供商的角色转变。
“英伟达正在封装AI算力层面的基础设施。”韦豪创芯创始合伙人王智表示,程序编写的方式从与硬件高度耦合的机器语言到汇编语言、到接近自然语言的高级程序语言、再到Windows的GUI、进一步出现面向对象的编程......直到用Python这样主要引用“库”的“胶水语言”,软件世界经历了一个不断将逻辑和功能高度抽象化和封装的过程,而英伟达正在AI算力基础设施世界展示同样的故事。
王智解释,这种高度封装的好处是,客户规避了对复杂系统中基础组件的“手搓”式采购和测试,而是可以搭积木,以乐高的方式搭建。英伟达在将这种封装不断扩散。
二十年前,英伟达的杀手锏是CUDA。它不只是一套编程框架,而是一个让开发者只管写算法、不用操心底层硬件的抽象层。CUDA的护城河不是代码,是二十年来积累的数亿装机量、数十万开源项目、以及所有在这套生态里长大的工程师。
但CUDA只是封装的第一层,这篇文章要回答的三个问题:
英伟达的token分层定价,意味着什么?
收购Groq、发布专用CPU。英伟达在建立一个比CUDA更大的帝国,这个帝国长什么样?
当这个帝国的边界不断扩张,创业公司还有没有活路?窗口在哪里?
token正在变成大宗商品。
这是黄仁勋在演讲中抛出的核心观点。
封装的终点,是让复杂的东西消失在视野之外。当芯片、系统、调度软件被一层层封装起来,用户感知不到GPU,感知不到算力,感知到的只剩一个单位:token。token是封装完成之后,唯一暴露在外的接口。它变成大宗商品,是封装的必然结果,不是偶然。
黄仁勋在演讲中明确说了这句话:“Tokens are the new commodity”(Token是新的大宗商品)。大宗商品成熟之后会自然分层。他不是在描述现状,他是在预判一个市场结构,然后把英伟达的硬件产品线,精确地铺在这个结构的每一层上。
GTC 2026上,英伟达推出了五层Token定价体系:免费层、中级层、高级层、高速层和超高速层,对应不同的token量。
这正如当年电信行业基本没干成的理想,也就是对数据流量进行差异化定价。背后是一个更深层的趋势:算力需求的精细化。越是严肃的场景,对幻觉的容忍度越低;量化交易这种场景,需要的是微秒级的反应;自动驾驶和某些具身智能场景需要毫秒级以内的反馈速度,还得更快。不同场景的指标要求完全不同。
早期的AI应用是无差异的,一台GPU、一套推理框架,所有请求排队处理。但当AI真正进入工商业场景,这种大水漫灌式的供给就开始失效。一家医院的影像辅助诊断要的是准确率,一笔高频交易要的是微秒级延迟,一个工厂流水线上的实时质检要的是稳定吞吐。
算力精细化的本质,是让不同质量的算力服务找到真正需要它的场景。
但这只是表面的逻辑。更深层的,是需求侧的一场根本性变化。从原来的人机交互,变为Agent-to-Agent交互,Agent把token需求从线性变成了指数,人用token是对话,使用量很有限;机器用token是工作流,单位时间消耗量是人的倍数。
这种变化已经可以在数据里看到。今年春节前后,国内大模型的流量出现了异常暴涨。那是国外很多公司在在降本——它们的Agent大量调用AI接口,而国内模型更便宜(因为中国的电便宜),于是悄悄切换了,变相助力了中国模型和token的出海。
封装意味着绑定。从GPU到系统,从系统到token经济规则,英伟达每封装一层,外部的替代成本就高一个量级,这也是英伟达为何要把封装不断加深的原因——你会越来越讨厌他,但你会越来越离不开他。
过去几年,这套封装在训练侧的护城河是CUDA。但在推理侧,CUDA的优势从来没有那么明显。
原因在于训练和推理的计算逻辑根本不同。GPU是并行计算的机器,擅长同时处理成千上万个相同的操作,这正是训练神经网络所需要的。CUDA是驾驭GPU的语言,二十年的生态积累让它无可替代。但推理不是这样工作的:推理要的不是并行的暴力计算,而是低延时、快响应、灵活的任务调度。GPU做推理,就像用一辆大卡车去跑快递,力气有余,灵活不足。
过去两年,很多人盯着这个裂缝,觉得推理侧是绕开CUDA、挑战英伟达的窗口。
CPU同理,GPU负责算,CPU负责管。GPU是工厂的流水线,负责大规模并行运算;CPU是工厂的调度室,负责决定任务的顺序、工具的调用、数据的流向。在AI推理场景里,一个Agent接到任务后,要决定先调用哪个工具、再调用哪个模型、结果怎么传递——这些控制流的工作,恰恰是CPU的主场。
英伟达之前也并非没有CPU,只是没有那么强。
但这一次,黄仁勋明确提出,今年是英伟达的推理年。过去几年,随着模型深入现实世界,推理的需求开始爆发。推理硬件已被提升到核心地位。
英伟达的首席科学家Bill Dally在一次对话中提到,训练更吃内存容量,而推理则考验计算、内存带宽、容量和通信之间的资源配比。他表示,推理内部也存在差异。比如预填充(Prefill)阶段更像训练:一次性处理大量数据,属于密集计算型,受通信能耗主导。而到了解码(Decode)阶段,为了优化延迟,你通常在做极瘦矩阵运算,这会变成极端的带宽受限和延迟受限。
Bill Dally提出了一个预判,未来至少会分化出三类硬件:一类针对训练和预填充,一类针对解码,而解码类硬件内部甚至还会进一步细分。
英伟达宣布了和芯片厂商Groq的整合。训练是计算密集型,HBM(高带宽内存)是最优解;推理是存储密集型,需要的是低延时、大容量的快速存储。Groq的LPU正是为此而生:基于SRAM,片上集成,速度远快于DRAM,极低延时。
同时英伟达发布了新的CPU,这款CPU专门为算力中心优化设计,放到其他场景反而不合适,跟英特尔打的不是同一场仗。但显然,英伟达,正在构筑一个比CUDA更大的帝国。
王智说,英伟达正在成为算力时代的苹果,芯片自己做,操作系统自己做,硬件自己做,应用自己控制。只不过耦合比苹果更复杂。
所有人都在问同一个问题:英伟达的帝国在扩大,推理市场也被它纳入版图,创业公司还有活路吗?
关键在于,英伟达不会做所有的事,它的强项是系统级、规模化的交付,是面向数据中心的整体解决方案。而边缘场景和中等定制化场景的特点恰恰相反:和特定场景高度绑定,需要定制化能力。一个工厂的质检摄像头、一辆自动驾驶汽车的车载芯片、一个手术机器人的感知模块——这些边缘侧场景对计算的需求是高度定制化和异构的。
这里就是可重构计算的机会所在。可重构计算解决的是一个根本矛盾:通用芯片效率低,专用芯片太死板。如果我们拿流水线的工人做类比,普通芯片就像流水线工人,招进来只会拧螺丝,让他去焊接?不会,得重新招人。CPU像万能工人,什么都能干,但什么都干得不够快。可重构芯片呢,它像一个可以反复“回炉培训”的工人,今天把他训练成焊接工,明天把他重新训练成喷漆工,后天再训练成质检员。人没换,但技能跟着任务走,每次都能以"专业工人"的效率干活。AI时代的问题是,任务今天是这个模型、明天是那个模型,总不能每换一个任务就重新招一批专业工人。
可重构计算也是中国半导体领域少数几个与国际差距相对较小的方向之一。
王智最近在看一些可重构计算的公司,成本更低,部署更快,适合中等程度的定制场景。
那么推理是否还有机会?王智认为,推理领域属于目前国内刚上市(岸)的头部算力芯片公司的机会。推理侧的需求刚刚开始爆发,场景绑定的特性也给了差异化的可能。但他同时说,这也是很大的挑战,抓不住,就很难走到下一个阶段。
判断一个公司是否抓住了机会,他给了一个具体标准:是不是足够快地认清推理才是重点,而不是继续把资源押在为了上市而做的、跟随英伟达的训练芯片路线上。
这个标准比看起来更苛刻。许多已经上市或临近上市的国内芯片公司,此前的商业逻辑是:做一款"够用"的训练芯片,讲一个替代英伟达的故事,完成上市。而新的逻辑需要他们放弃路径依赖,基于中国丰富的应用场景重新建立产品定义和客户关系。
总之,领先者的优势越来越明显,钱、技术团队、客户绑定……剩下的机会不多了。
