扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2026年硅谷AI算力荒已蔓延至全行业,从大厂内部到普通开发者都受影响,暴露了结构性问题,冲击AI民主化进程。 ## 1. 全行业面临算力短缺,从大厂内部蔓延到普通开发者 - 英伟达功臣Bryan Catanzaro向黄仁勋申请训练GPU被拒,自家员工也拿不到货;谷歌内部TPU优先供给付费客户和旗舰模型,两位研究员因拿不到算力选择离职创业,谷歌挽留Anna Goldie的筹码就是更多TPU算力。 - AI大神Andrej Karpathy吐槽,教学实验要求启动8×H100服务器,会让大部分学习者卡首步,普通用户大多连8×H100的预审批权限都拿不到,多家云平台出现H100无货、容量不足的情况,有开发者仅剩两个H100实例称“拼命死守”。 ## 2. 旧卡反常涨价,价格甚至倒挂新一代芯片 - 按常规迭代逻辑新一代B200供货后,旧款H100理应降价,但实际H100一年期合约租金半年涨近40%,从2025年10月的1.7美元/小时涨到2026年3月的2.35美元/小时,现货报价已达4美元+/小时,是两年前的两倍。 - H200现货价格一夜涨价约30%,从4.96美元/小时涨到6.40美元/小时,价格比新一代B200(5.68美元/GPU小时)更高,且往往需要写脚本盯API才有机会抢到。 ## 3. 囤积闲置加剧短缺,旧卡因确定性成刚需 - 不少大企业GPU集群平均利用率仅5%左右,马斯克的Colossus算力中心模型算力利用率仅11%,但厂商缺货恐慌让企业哪怕闲置也签下长约囤积算力,算力卡在长约和容量池中,形成流动性短缺,进一步推高价格。 - 当前推理、Agent、后训练等多元场景都需要算力,H100/H200生态成熟、调参经验完备,性能足够且使用确定性高,比新一代B200更适配多数需求,需求叠加下反而成为刚需。 ## 4. 算力短缺抬高门槛,阻碍AI民主化 - 本轮缺芯和以往巨头军备竞赛式缺芯不同,焦虑已经下沉,开源降低了模型、代码的门槛,但算力门槛把普通研究者、开发者挡在门外,开源带来的平等被算力不平等抵消。 - 算力已经从基础设施变成筛选机制,筛掉的往往是没有预算、配额的群体,模型越来越开放,但能实际跑通实验做研究的人并没有明显增加。 - 国内开发者面临更大压力,国内部分云平台H100排期已到2027年第一季度,国产替代加速但CUDA体系切换的工程成本对小团队负担较重,当前AI圈最稀缺的是普通人可稳定获取、开箱即用的有效算力。
2026-05-19 22:09

硅谷深陷算力荒:H200一夜涨价30%,H100抢到缺货,Karpathy也未能幸免

本文来自微信公众号: AI前线 ,作者:四月


2026年5月的硅谷,对于AI算力的“饥荒”和焦虑,正达到一个前所未有的高度。


哪怕那些站在算力中心的人,也不得不开始为算力排队。


在英伟达,负责应用深度学习研究团队的Bryan Catanzaro找黄仁勋申请训练卡。最近大家一直抱怨卡不够用,受限太多。


“不好意思,那些卡已经卖掉了”,这是老黄给出的回复。


Catanzaro是英伟达的大功臣。十多年前,正是他留意到,GPU迎来了首批AI买家——研究员,且几乎疯狂扫货。基于这个洞察,老黄才下定决心把整间公司押注AI赛道。


当年帮英伟达赌对算力卡的人,现在却买不到自家的GPU了。


而比“卖铲子的没铲子了”更戏剧性的事,还发生在谷歌。


去年夏天,DeepMind的研究员Andrew Dai判断,视觉推理是个值得做的方向。于是向公司内部提了一批TPU的资源需求。


但申请迟迟未批。拒绝的理由,倒不是研究方向不够好,而是项目不能为下一代的Gemini服务。当时的内部原则是,资源应该优先流向付费客户和旗舰模型。


“在谷歌内部,每一块TPU的背后,都有三位竞争者”,华盛顿大学计算机系的荣誉教授Oren Etzioni聊到。现实很残酷,如果你的项目不能直接带来收入,你就是在和付费客户抢资源。


Dai最终选择离职创业。和他做出同样选择的,还有Anna Goldie。


有趣的是,谷歌用来挽留Goldie的筹码不是加薪,也不是期权,而是——更多的TPU算力卡。


但Goldie还是走了,还拿到了3.35亿美元的融资,“这笔钱能买到的算力,和当初DeepMind挽留我开出的条件,几乎相当。”


当大厂围墙内的算力变成一种“组织权限”,出走就成了唯一解。


而在围墙之外,独立开发者和研究员面对的,是比“GPU短缺”更难的处境:连卡都租不到。


这事已经迫切到什么程度了呢?



这两天,AI大神Andrej Karpathy都忍不住发帖吐槽。他表示,在录制nanochat教学视频时,才突然意识到,如果实验的第一步是,让学员“从云平台启动一台8×H100的服务器”,那么绝大部分人将倒在起跑线上。


有大神出来喊话,评论区迅速变成大型比惨现场。

H100抢不到,H200一夜涨价30%



看这话问得,显然是我方友军无疑了。



有人补刀,其实真正的第一步,还不是启动Server,而是求爷爷告奶奶等quota approval。现在大多数的普通用户,是连8×H100的预审批权限都没有的。





更有开发者直接晒后台截图:RunPod上多种GPU型号显示unavailable;Azure上H100虚拟机启动失败,提示capacity不足;Google Colab选择GPU后,被系统自动降档到G4。



Rohan Bansal看着账户里仅存的两个H100实例,发了条推文:“holding on for dear life”。


如果说资源紧缺必然导致价格上涨,尚可理解。但这涨价的姿势未免也有些诡异。


正常的逻辑是,新一代出来,旧款降价。B200已经稳定供货,四年前的H100也理应降价。



但SemiAnalysis数据显示,H100一年期的合约租金,半年涨了近40%(从2025年10月的$1.70/小时,涨到2026年3月的$2.35)。



现货市场更夸张,lambda的报价已上浮到4美元+/小时,是两年前的两倍。而H200的现货价格甚至比新一代B200还要贵。"这价格是两年前的两倍还多,而且通常很难抢到,要写脚本盯着API才有机会。"


图注:从4.96美元/小时涨到6.40美元/小时,涨幅29%;而更新一代的B200为5.68美元/GPU小时。


5%的利用率和B200的倒挂


一边是高端GPU紧缺,一边却是算力中心里的利用率低得令人发指。


Cast AI的报告显示,不少大企业GPU集群的平均利用率只有5%左右。此前,马斯克的兆瓦级算力中心Colossus的MFU(模型算力利用率)仅为11%左右。


其实并不是企业意识到不到算力资源的浪费,而是不敢放手。


排队几个月,云厂商销售突然打电话:“你要的卡现在只剩36张了,只能签一年的长约。不要的话,后面还有五家排队等着呢。”


这时候,问题已经不是“公司是否需要租用这么长时间的芯片”,而是“我敢不敢错过这笔订单”。


先签下来,哪怕闲置也不释放,因为交出去的算力卡可能就再也拿不回来了。


芯片不只是产能短缺,更是流动性短缺:它卡在企业的算力长约里,困在云厂商的容量池里,但就是不在普通开发者今晚能点开购买的页面上。


短缺制造恐慌,恐慌制造囤积,囤积制造更深的短缺。


而这种流动性的枯竭,也放大了另一个结构性问题:为什么偏偏是H100/H200被推上了天价,甚至比新一代B200还贵?


因为算力市场从来不是按“谁更新”来定价,而是按“谁更好用、更好接入”来定价的。


过去大家抢GPU,想象中的场景是巨头训练下一代大模型,当然要追求极致先进。但现在,消耗GPU的地方变多了:推理服务、代码Agent、RL后训练、自动评测、小模型复现、教学实验,都在持续吃算力。


对于这些海量需求来说,B200代表的下一代性能上限并不是首选。


做工程的人最懂:最先进不等于最好用,真正值钱的是确定性。


H100/H200足够强,且生态足够成熟。你用H100跑,别人的benchmark也是H100;你用H200做推理,调参经验已经有人踩过坑。


相比之下,新一代芯片再强,也需要时间消化到框架、集群、调度和成本模型里。


训练市场还没完全切到Blackwell,推理和后训练市场又把需求重重叠加上来。旧卡本该退场,却因为“确定性”成了刚需。


AI民主化,卡在了算力门槛上


这一轮的芯片荒,和过去还不太一样。


过去聊缺芯,是顶级AI Lab的军备竞赛,巨头谁抢到更多GPU,谁就能训练更大模型。但这一次,焦虑正在往下沉。


Karpathy录教程要先考虑开发者能不能拿到8×H100;LocalLLaMA社区讨论能不能用本地Mac硬跑;高校研究员担心拿不到算力,小团队担心扩容被大客户挤掉。


这背后已经不是“我要训练GPT-5”的野心,而是一个更朴素的问题:我只是想复现一个实验,为什么第一步就变成抢算力了?


AI开源这几年确实降低了许多门槛。模型权重可以下载,代码可以fork。但算力把另一扇门关上了。


代码可以开源,但H100不能fork。


真正的AI研究从来不只是看懂代码,还得你能跑通实验、复现结果,调参、失败,以及很多次的再重来。


如果每次实验的前提,都是拿到一组昂贵且不稳定的GPU,那么开源的平等,就会被算力的不平等重新抵消。


从Google研究员离职创业,到英伟达内部争GPU,然后是Karpathy的教学视频卡在8张H100,它们指向同一件事:算力正在从基础设施,变成一种筛选机制。


它筛掉的未必是没有想法的人,而是没有预算、没有配额资源、没有长期合同的群体。


这才是AI民主化最尴尬的现实:模型越来越开放,但能跑起来的人,可能并没有变多。


国内开发者的痛:过渡期的压力


把视线拉回国内,如果说海外开发者是在成熟生态里抢H100/H200现货;那么国内开发者面对的,则是过渡期的多重压力考验,要在新的算力结构里找"能用且好用"的解法。


某云H100排期已到2027年第一季度,更多的云平台同样面临高端卡供应瓶颈,"有钱也租不到"是真实的用户反馈。


与此同时,高端卡的获取仍然受政策影响,当然国产算力替代正在加速。但从CUDA体系切换的工程成本是真实存在的,适配层、代码改动、调试周期,对小团队而言不是轻松的迁移。


其实,大家底层的处境不尽相同。算力底座从来不是一个宏大词,而是非常具体的体验——实例能不能启动,价格扛不扛得住,实验结果能不能复现。


今天AI圈真正稀缺的,也许不是最新的芯片,而是普通人能稳定拿到、马上用起来、跑出结果的有效算力。


参考链接:


  1. Even Nvidia’s own research teams can’t get enough GPUs amid the race for AI computing power(https://fortune.com/2026/04/09/nvidia-gpu-shortage-impacts-even-nvidias-own-research-teams-bryan-catanzaro-eye-on-ai/)


  2. The Great GPU Shortage–Rental Capacity–Launching our H100 1 Year Rental Price Index(https://newsletter.semianalysis.com/p/the-great-gpu-shortage-rental-capacity)


  3. FOMO is why enterprises pay for GPUs they don't use—and why prices keep climbing(https://venturebeat.com/infrastructure/fomo-is-why-enterprises-pay-for-gpus-they-dont-use-and-why-prices-keep-climbing)


  4. https://semianalysis.com/gpu-pricing-index/


  5. Nvidia A100 vs H100 vs B200 GPU Rental Price and Performance(https://ornn.com/insights/nvidia-a100-vs-h100-vs-b200-gpu-rental-price-and-performance)

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: