扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
黄仁勋警告DeepSeek选择华为昇腾将威胁英伟达CUDA生态的垄断地位,揭示其真正恐惧在于中国建立独立技术路径动摇"事实标准"的叙事优势。 ## 1. CUDA生态垄断面临挑战 - 黄仁勋称DeepSeek若首发华为昇腾是"灾难",因其打破"所有顶级模型默认优化CUDA"的二十年惯例 - 英伟达真正护城河是CUDA软件生态,模型迁移需重写算子/调参,工程代价达数月级 - 华为昇腾950PR首发将证明非CUDA路径可行性,积累工程师经验和用户信心 ## 2. 华为的"系统级替代"战略 - 昇腾910C单卡算力仅为英伟达Blackwell的1/3,但CloudMatrix384超节点集群算力达300PFLOPS,超GB200NVL72旗舰1.7倍 - 2025年路线图显示华为采用"规模换效率"策略:Atlas950/960超节点达8192-15488卡规模 - 中国可再生能源优势可消化560千瓦高功耗代价 ## 3. 模型优化的战略意义 - DeepSeek V3证明中国模型能力,V4若昇腾首发则象征"中国硬件+模型"完整闭环 - 黄仁勋承认中国占全球50%AI研究人员,算法进步可弥补硬件差距 - 顶级开源模型选择将决定开发者生态流向,动摇"CUDA是唯一起点"的产业叙事 ## 4. 英伟达的双重话语策略 - 对美方强调"制裁无效":中国算力/算法/人才俱备,封锁只会加速独立生态形成 - 对中方暗示"去CUDA成本高",同时通过H20芯片160亿美元订单维持市场存在 - 实际诉求是保持CUDA标准地位,拖延中国技术路径的成熟时间 ## 5. 产业叙事权的争夺 - 华为全栈方案(芯片/光模块/框架/软件)首次构成平行生态,无法被CUDA体系吸纳 - 黄仁勋4月发声时机精准,卡在DeepSeek V4传闻与发布之间,针对技术政策圈 - 技术优劣并非关键,首发作效应将改变资本和人才流向,决定未来标准制定权
2026-04-18 09:55

如果DeepSeek选择华为,黄仁勋说的“灾难”到底是什么?

本文来自微信公众号: 心智观察所 ,作者:心智观察所


4月15日黄仁勋接受Dwarkesh Patel的播客专访时,说了一句分量很重的话:“如果DeepSeek先在华为平台上发布,那对我们国家来说将是灾难性的。”


在整场一个半小时的访谈里,这句话显得格外突兀。它既不是关于供应链的技术阐述,也不是关于TPU竞争的商业分析,而是一个高度情绪化的判断。要读懂它,必须把时间倒回去看。


就在这场访谈的前一周,多家媒体已经爆料DeepSeek下一代旗舰模型V4全面迁移至华为昇腾950PR,底层代码从CUDA重写为华为自研的CANN框架,按计划4月下旬发布。也就是说,黄仁勋嘴里那个被设定为“假设”的坏消息,其实已经在发生的路上。


Patel在访谈中追问得很直接:为什么?DeepSeek是开源的,理论上可以跑在任何加速器上,即便它在华为昇腾上首发,在英伟达GPU上同样能跑,区别到底在哪里?黄仁勋的回答泄露了真正让他介意的东西——“假设它是针对华为优化的,针对他们的架构化了,那就会让我们处于劣势”。


他把Dwarkesh描述的“全球最强模型运行在美国技术栈上”定义为“好消息”,反过来,如果一个来自中国的优秀开源模型以非美国硬件为首要优化目标、在非美国硬件上跑得最好,那才是真正的坏消息。这非常精确的暴露出:英伟达真正害怕的从来不是中国做出好模型,而是好模型不再以CUDA生态作为默认的优化起点。


这一层面纱被Dwarkesh的追问轻轻挑开以后,整场访谈很多看似“关心国家利益”的表述,才能还原出它商业本能的那一面。


英伟达真正的护城河从来不是GPU本身的算力,而是CUDA作为“事实标准”的软件生态位。过去近二十年里,几乎所有主流AI框架、算子库、开源模型的首发优化,都把CUDA作为默认起点。


这条生态护城河的运转逻辑非常简单:只要新模型先在CUDA上调通跑顺,那么哪怕华为、谷歌TPU、AMD MI300在纸面上单卡性能不差,它们在客户那里也只能是“备选方案”。因为迁移意味着重写算子、重做精度校准、重新调参,工程代价可能以月计。而“事实标准”的地位一旦建立,就会自我强化:越多人优化CUDA,CUDA上跑得越好;越多人在CUDA上做研究,新工作自然继续落在CUDA上。


DeepSeek若先在昇腾上发布,戳破的恰恰是这条链条的起点:这意味着至少存在一条真实、可运行、被顶级模型验证过的非CUDA路径,并且这条路径上会沉淀下一批熟练的工程师、一套可复制的优化经验、以及第一批用户信心。这才是黄仁勋那句“灾难性”的真实分量:不怕某一款芯片被替换,但怕“开源模型必须以CUDA为首要优化目标”这条默认规则出现第一个公开的反例。


把这一点放回中国算力基础设施的真实图谱上看,黄仁勋的焦虑就不再显得夸张。


华为昇腾910C的单卡FP16算力大约是800TFLOPS,坦率说仍不及英伟达Blackwell旗舰,SemiAnalysis的估算显示单卡性能差距大致在三倍左右;但华为选择的不是单卡硬拼,而是系统工程层面的群体战术。2025年4月推出的CloudMatrix384超节点,把384颗910C通过6912个400G光模块全互联堆叠在一起,BF16集群算力达到300PFLOPS,约为英伟达GB200NVL72旗舰集群的1.7倍,HBM总容量更是达到后者的3.6倍。功耗代价确实惊人,整体功率近560千瓦,相当于英伟达同级方案的近四倍,但在中国可再生能源装机全球第一的背景下,这个代价可以部分被“便宜的瓦特”吸收。


2025年9月的华为全联接大会,徐直军公布了更激进的路线图:Atlas950超节点规模8192卡、四季度上市,Atlas960超节点规模15488卡、2027年四季度上市,昇腾950PR/DT、960、970三年路线依次展开。这是一条“以规模换效率,以系统换单点”的清晰叙事,而黄仁勋在访谈中提出的“五层蛋糕”,即最底层是能源、能源充足时芯片就够用、中国能源充足所以7nm也够,恰恰是对这条叙事的另一种表达方式,只不过他是从对手视角在说。


黄仁勋并不是没有意识到华为这套打法在商业上意味着什么,他只是没法在镜头前用太直白的语言说。访谈里他反复强调一件事,中国是全球第二大计算市场,中国拥有世界上大约一半的AI研究人员,中国算力总量非常庞大:“如果他们想整合计算资源,完全可以满足需求”。


这些话通常被解读为黄仁勋在为重返中国市场做舆论铺垫,其实它们构成了一个完整的推理链:算力够、能源够、研究人员够,唯一缺的是让这些要素沿着非英伟达路径组织起来的粘合剂;而这个粘合剂,就是一款可以让全球开发者看见“在非CUDA栈上也能跑出世界级结果”的旗舰模型。


DeepSeekV3和R1在2025年初曾引发过一次全球震动,它们用极低成本训出接近OpenAI水平的表现,第一次让市场开始怀疑“算力决定一切”的范式。现在,V4如果真的以昇腾首发,其象征意义将远超V3。V3证明的是中国能做好模型,V4要证明的是中国能在自己的硬件上做好模型。这两件事的差别,就是“客户”和“对手”的差别。


理解了这一层,访谈里黄仁勋那些看似不连贯的逻辑闪烁就能连成线。Patel在对话中其实递出过好几记尖锐的反问,都被黄仁勋用策略性模糊处理掉。


主持人Patel问,既然你说所有美国AI实验室都受限于算力,那让中国算力比美国少、让美国更早达到某个“Mythos级别”的能力上限,不是更符合美国利益吗?黄仁勋回答说,要让那种结果成立,得把情况推到极端,必须让中国完全没有算力,而这是做不到的。


这个回答其实绕过了Patel真正的问题:出口管制的目的从来不是让对手归零,而是维持12到18个月的能力窗口。黄仁勋把一个关于时间差的问题,偷换成了一个关于绝对值的问题。


这种辩论技巧在访谈里出现了不止一次,它解释了一个矛盾现象:黄仁勋一方面用DeepSeek的成功证明“出口管制没用、中国反正会创新”,另一方面又用“再不卖中国就彻底脱离我们生态”来论证应该继续卖芯片给中国。


如果前者为真,后者的逻辑就站不住脚,因为既然脱离不脱离都会创新,那么卖芯片买到的“忠诚”就是虚构的。这个内在的不自洽,恰恰提示我们:黄仁勋的真实目标不是国家战略推理,而是保住中国市场这个收入盘子的同时、保住CUDA作为事实标准的生态位——这两件事现在正在同步滑落,他必须同时往两头拉。


访谈里还有一段经常被忽略的对话,但它其实把黄仁勋的策略图景交代得非常完整。Patel问,为什么英伟达不同时开几条架构路线,比如晶圆级芯片、大封装芯片、不用CUDA的芯片?黄仁勋的回答是“我们模拟过了,效果更差”。


这个回答实际上还是前面说的战略,英伟达不会自己去稀释CUDA的标准地位,哪怕是内部。但他紧接着又承认,英伟达最近把Groq整合进了自己的CUDA生态,原因是token的平均售价上涨,高价值用户愿意为更低延迟付费,这开辟了一个全新的推理细分市场。


换句话说,英伟达的策略是“向外吸纳、向内收敛”:所有能够跑CUDA的加速器都可以被纳入生态版图,但CUDA本身必须是不可替代的那个中心。这种打法过去十年非常成功,因为它让英伟达在各类专用芯片面前始终保持“平台”身份而非“玩家”身份。但这套打法在面对华为时,第一次失灵了。


华为不仅做芯片,还做网络、做光模块、做超节点互联、做CANN框架、做MindSpore、做故障容错训练软件,它是在英伟达的全栈覆盖面上做另一个全栈。你无法把一个平行宇宙的全栈“纳入”你的生态,你只能让它成为你的对手。而一旦DeepSeek这样的顶级开源模型开始为这个平行全栈背书,英伟达“平台vs玩家”的身份优势就会松动。


再把视野拉回到中国大陆相关的部分,访谈中还有几处值得单独拎出来看。其一是黄仁勋罕见地使用了“研究性对话”这样相当软性的表达,说“把中国变成敌人,可能并非最佳方案”,并警告建立“美国封闭栈vs外国开源栈”两个割裂生态对美国是“极其愚蠢”的结果。这段话读起来像战略分析,但它背后的商业现实是:英伟达在中国的业务正在被一刀一刀削。


从A100/H100被禁、到A800/H800出炉又被禁、到H20专供中国版在2025年4月一度被要求申请许可、再到7月恢复销售但交付能力有限。据报道,字节、阿里、腾讯在被禁前三个月仍向英伟达下了超过160亿美元的H20订单,这说明中国市场的真实需求仍在。


黄仁勋每呼吁一次“不要脱钩”,背后对应的都是一次他能清楚看到的市场份额被实质性转移。其二是他对中国算法能力的承认:“人工智能的大部分进步都源于算法的进步,而不仅仅是硬件的改进”,再加上中国拥有全球最庞大的AI研究人员队伍,“难道不是他们最根本的优势吗?”


以这种表达方式,他在向美国政策圈传递“制裁无法阻止中国在AI上赶超”的信号,为解除出口限制铺路;但同一套逻辑,若被中国方面接受,得到的结论却是“既然算法优势在手、算力通过系统工程可以补齐,那么全面去CUDA化是有机会成功的”,这是一把双刃剑,黄仁勋想要的是前半段效果,但后半段效果是他自己的论点附带制造的。


把所有这些线索汇拢起来看,这场访谈的真正看点不在黄仁勋说了什么,而在他选择在什么时间、以什么方式去说。


4月15日这个时间点,卡在DeepSeekV4传出昇腾首发消息与V4正式发布之间;选择Patel这个以硬核提问著称的播客,而非传统财经媒体,本身就说明英伟达希望把信息直接打进技术社群和政策圈那个交集;访谈中所有关于中国的段落:五层蛋糕、能源优势、算法优势、50%的研究人员、庞大的计算市场等都在指向同一个结论:你无法通过阻断来赢,你只能通过保持在场来赢。这是一套典型的“让我继续卖”的论证,只不过包装成了国家利益框架。


因此逻辑就清晰了:第一,黄仁勋的决策优先级中,CUDA生态的标准地位排在单款产品之上、甚至排在单一市场份额之上,所以他宁可被看作在为中国说话,也不愿看到非CUDA栈出现一个成功的全栈范本;


第二,他对竞争的判断是“时间维度而非终点维度”,华为最终能不能追上不重要,重要的是在追上之前英伟达必须保持在场;


第三,他对“开源”这件事的态度带有明显的工具理性,开源好不好,取决于开源模型首发时是优化哪一家的硬件,这和他在2025年7月北京之行公开盛赞DeepSeek是“革命性开源推理模型”之间,已经有了明显的情绪落差。


他在访谈里其实是在同时向华盛顿和北京喊话。向华盛顿说“请让我继续卖,否则我们会输掉生态”,向北京说“请继续用我的芯片,否则你们会被迫走一条更贵的路”。



所以,黄仁勋对“DeepSeek与华为合作”的那句“灾难性”评论,是一次精心选择时机的战略喊话,对象是即将被一款中国顶级开源模型和一家中国全栈厂商共同背书的“另一条技术路径”的现实可能。如果DeepSeekV4迁移到昇腾,代表着顶级模型、顶级硬件、开源传播这三个变量第一次在中国大陆完整合体;而这个合体一旦在全球开源社群中形成首发效应,过去二十年英伟达赖以统治AI产业的“模型-框架-硬件”默认栈就会出现第一个被主流证实可用的备份栈。


技术上它未必立刻动摇CUDA,但叙事上它动摇了“CUDA是唯一起点”这件事。而叙事,在快速演化的产业里,往往比技术本身先一步决定钱流向哪里。这就是黄仁勋为什么要在这个特定的四月,用“灾难性”这三个字,把整场关于供应链、TPU、蛋糕和架构的访谈,引向那个他其实最不想谈、但又必须表态的主题。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

大 家 都 在 搜