扫码打开虎嗅APP
本文来自微信公众号: AI前线 ,作者:四月
2026年5月的硅谷,对于AI算力的“饥荒”和焦虑,正达到一个前所未有的高度。
哪怕那些站在算力中心的人,也不得不开始为算力排队。
在英伟达,负责应用深度学习研究团队的Bryan Catanzaro找黄仁勋申请训练卡。最近大家一直抱怨卡不够用,受限太多。
“不好意思,那些卡已经卖掉了”,这是老黄给出的回复。
Catanzaro是英伟达的大功臣。十多年前,正是他留意到,GPU迎来了首批AI买家——研究员,且几乎疯狂扫货。基于这个洞察,老黄才下定决心把整间公司押注AI赛道。
当年帮英伟达赌对算力卡的人,现在却买不到自家的GPU了。
而比“卖铲子的没铲子了”更戏剧性的事,还发生在谷歌。
去年夏天,DeepMind的研究员Andrew Dai判断,视觉推理是个值得做的方向。于是向公司内部提了一批TPU的资源需求。
但申请迟迟未批。拒绝的理由,倒不是研究方向不够好,而是项目不能为下一代的Gemini服务。当时的内部原则是,资源应该优先流向付费客户和旗舰模型。
“在谷歌内部,每一块TPU的背后,都有三位竞争者”,华盛顿大学计算机系的荣誉教授Oren Etzioni聊到。现实很残酷,如果你的项目不能直接带来收入,你就是在和付费客户抢资源。
Dai最终选择离职创业。和他做出同样选择的,还有Anna Goldie。
有趣的是,谷歌用来挽留Goldie的筹码不是加薪,也不是期权,而是——更多的TPU算力卡。
但Goldie还是走了,还拿到了3.35亿美元的融资,“这笔钱能买到的算力,和当初DeepMind挽留我开出的条件,几乎相当。”
当大厂围墙内的算力变成一种“组织权限”,出走就成了唯一解。
而在围墙之外,独立开发者和研究员面对的,是比“GPU短缺”更难的处境:连卡都租不到。
这事已经迫切到什么程度了呢?

这两天,AI大神Andrej Karpathy都忍不住发帖吐槽。他表示,在录制nanochat教学视频时,才突然意识到,如果实验的第一步是,让学员“从云平台启动一台8×H100的服务器”,那么绝大部分人将倒在起跑线上。
有大神出来喊话,评论区迅速变成大型比惨现场。
H100抢不到,H200一夜涨价30%

看这话问得,显然是我方友军无疑了。

有人补刀,其实真正的第一步,还不是启动Server,而是求爷爷告奶奶等quota approval。现在大多数的普通用户,是连8×H100的预审批权限都没有的。



更有开发者直接晒后台截图:RunPod上多种GPU型号显示unavailable;Azure上H100虚拟机启动失败,提示capacity不足;Google Colab选择GPU后,被系统自动降档到G4。

Rohan Bansal看着账户里仅存的两个H100实例,发了条推文:“holding on for dear life”。
如果说资源紧缺必然导致价格上涨,尚可理解。但这涨价的姿势未免也有些诡异。
正常的逻辑是,新一代出来,旧款降价。B200已经稳定供货,四年前的H100也理应降价。

但SemiAnalysis数据显示,H100一年期的合约租金,半年涨了近40%(从2025年10月的$1.70/小时,涨到2026年3月的$2.35)。

现货市场更夸张,lambda的报价已上浮到4美元+/小时,是两年前的两倍。而H200的现货价格甚至比新一代B200还要贵。"这价格是两年前的两倍还多,而且通常很难抢到,要写脚本盯着API才有机会。"

图注:从4.96美元/小时涨到6.40美元/小时,涨幅29%;而更新一代的B200为5.68美元/GPU小时。
一边是高端GPU紧缺,一边却是算力中心里的利用率低得令人发指。
Cast AI的报告显示,不少大企业GPU集群的平均利用率只有5%左右。此前,马斯克的兆瓦级算力中心Colossus的MFU(模型算力利用率)仅为11%左右。
其实并不是企业意识到不到算力资源的浪费,而是不敢放手。
排队几个月,云厂商销售突然打电话:“你要的卡现在只剩36张了,只能签一年的长约。不要的话,后面还有五家排队等着呢。”
这时候,问题已经不是“公司是否需要租用这么长时间的芯片”,而是“我敢不敢错过这笔订单”。
先签下来,哪怕闲置也不释放,因为交出去的算力卡可能就再也拿不回来了。
芯片不只是产能短缺,更是流动性短缺:它卡在企业的算力长约里,困在云厂商的容量池里,但就是不在普通开发者今晚能点开购买的页面上。
短缺制造恐慌,恐慌制造囤积,囤积制造更深的短缺。
而这种流动性的枯竭,也放大了另一个结构性问题:为什么偏偏是H100/H200被推上了天价,甚至比新一代B200还贵?
因为算力市场从来不是按“谁更新”来定价,而是按“谁更好用、更好接入”来定价的。
过去大家抢GPU,想象中的场景是巨头训练下一代大模型,当然要追求极致先进。但现在,消耗GPU的地方变多了:推理服务、代码Agent、RL后训练、自动评测、小模型复现、教学实验,都在持续吃算力。
对于这些海量需求来说,B200代表的下一代性能上限并不是首选。
做工程的人最懂:最先进不等于最好用,真正值钱的是确定性。
H100/H200足够强,且生态足够成熟。你用H100跑,别人的benchmark也是H100;你用H200做推理,调参经验已经有人踩过坑。
相比之下,新一代芯片再强,也需要时间消化到框架、集群、调度和成本模型里。
训练市场还没完全切到Blackwell,推理和后训练市场又把需求重重叠加上来。旧卡本该退场,却因为“确定性”成了刚需。
这一轮的芯片荒,和过去还不太一样。
过去聊缺芯,是顶级AI Lab的军备竞赛,巨头谁抢到更多GPU,谁就能训练更大模型。但这一次,焦虑正在往下沉。
Karpathy录教程要先考虑开发者能不能拿到8×H100;LocalLLaMA社区讨论能不能用本地Mac硬跑;高校研究员担心拿不到算力,小团队担心扩容被大客户挤掉。
这背后已经不是“我要训练GPT-5”的野心,而是一个更朴素的问题:我只是想复现一个实验,为什么第一步就变成抢算力了?
AI开源这几年确实降低了许多门槛。模型权重可以下载,代码可以fork。但算力把另一扇门关上了。
代码可以开源,但H100不能fork。
真正的AI研究从来不只是看懂代码,还得你能跑通实验、复现结果,调参、失败,以及很多次的再重来。
如果每次实验的前提,都是拿到一组昂贵且不稳定的GPU,那么开源的平等,就会被算力的不平等重新抵消。
从Google研究员离职创业,到英伟达内部争GPU,然后是Karpathy的教学视频卡在8张H100,它们指向同一件事:算力正在从基础设施,变成一种筛选机制。
它筛掉的未必是没有想法的人,而是没有预算、没有配额资源、没有长期合同的群体。
这才是AI民主化最尴尬的现实:模型越来越开放,但能跑起来的人,可能并没有变多。
把视线拉回国内,如果说海外开发者是在成熟生态里抢H100/H200现货;那么国内开发者面对的,则是过渡期的多重压力考验,要在新的算力结构里找"能用且好用"的解法。
某云H100排期已到2027年第一季度,更多的云平台同样面临高端卡供应瓶颈,"有钱也租不到"是真实的用户反馈。
与此同时,高端卡的获取仍然受政策影响,当然国产算力替代正在加速。但从CUDA体系切换的工程成本是真实存在的,适配层、代码改动、调试周期,对小团队而言不是轻松的迁移。
其实,大家底层的处境不尽相同。算力底座从来不是一个宏大词,而是非常具体的体验——实例能不能启动,价格扛不扛得住,实验结果能不能复现。
今天AI圈真正稀缺的,也许不是最新的芯片,而是普通人能稳定拿到、马上用起来、跑出结果的有效算力。
参考链接:
Even Nvidia’s own research teams can’t get enough GPUs amid the race for AI computing power(https://fortune.com/2026/04/09/nvidia-gpu-shortage-impacts-even-nvidias-own-research-teams-bryan-catanzaro-eye-on-ai/)
The Great GPU Shortage–Rental Capacity–Launching our H100 1 Year Rental Price Index(https://newsletter.semianalysis.com/p/the-great-gpu-shortage-rental-capacity)
FOMO is why enterprises pay for GPUs they don't use—and why prices keep climbing(https://venturebeat.com/infrastructure/fomo-is-why-enterprises-pay-for-gpus-they-dont-use-and-why-prices-keep-climbing)
https://semianalysis.com/gpu-pricing-index/
Nvidia A100 vs H100 vs B200 GPU Rental Price and Performance(https://ornn.com/insights/nvidia-a100-vs-h100-vs-b200-gpu-rental-price-and-performance)