硅谷深陷算力荒：H200一夜涨价30%，H100抢到缺货，Karpathy也未能幸免-虎嗅网

本文来自微信公众号： AI前线，作者：四月

2026年5月的硅谷，对于AI算力的“饥荒”和焦虑，正达到一个前所未有的高度。

哪怕那些站在算力中心的人，也不得不开始为算力排队。

在英伟达，负责应用深度学习研究团队的Bryan Catanzaro找黄仁勋申请训练卡。最近大家一直抱怨卡不够用，受限太多。

“不好意思，那些卡已经卖掉了”，这是老黄给出的回复。

Catanzaro是英伟达的大功臣。十多年前，正是他留意到，GPU迎来了首批AI买家——研究员，且几乎疯狂扫货。基于这个洞察，老黄才下定决心把整间公司押注AI赛道。

当年帮英伟达赌对算力卡的人，现在却买不到自家的GPU了。

而比“卖铲子的没铲子了”更戏剧性的事，还发生在谷歌。

去年夏天，DeepMind的研究员Andrew Dai判断，视觉推理是个值得做的方向。于是向公司内部提了一批TPU的资源需求。

但申请迟迟未批。拒绝的理由，倒不是研究方向不够好，而是项目不能为下一代的Gemini服务。当时的内部原则是，资源应该优先流向付费客户和旗舰模型。

“在谷歌内部，每一块TPU的背后，都有三位竞争者”，华盛顿大学计算机系的荣誉教授Oren Etzioni聊到。现实很残酷，如果你的项目不能直接带来收入，你就是在和付费客户抢资源。

Dai最终选择离职创业。和他做出同样选择的，还有Anna Goldie。

有趣的是，谷歌用来挽留Goldie的筹码不是加薪，也不是期权，而是——更多的TPU算力卡。

但Goldie还是走了，还拿到了3.35亿美元的融资，“这笔钱能买到的算力，和当初DeepMind挽留我开出的条件，几乎相当。”

当大厂围墙内的算力变成一种“组织权限”，出走就成了唯一解。

而在围墙之外，独立开发者和研究员面对的，是比“GPU短缺”更难的处境：连卡都租不到。

这事已经迫切到什么程度了呢？

这两天，AI大神Andrej Karpathy都忍不住发帖吐槽。他表示，在录制nanochat教学视频时，才突然意识到，如果实验的第一步是，让学员“从云平台启动一台8×H100的服务器”，那么绝大部分人将倒在起跑线上。

有大神出来喊话，评论区迅速变成大型比惨现场。

H100抢不到，H200一夜涨价30%

看这话问得，显然是我方友军无疑了。

有人补刀，其实真正的第一步，还不是启动Server，而是求爷爷告奶奶等quota approval。现在大多数的普通用户，是连8×H100的预审批权限都没有的。

更有开发者直接晒后台截图：RunPod上多种GPU型号显示unavailable；Azure上H100虚拟机启动失败，提示capacity不足；Google Colab选择GPU后，被系统自动降档到G4。

Rohan Bansal看着账户里仅存的两个H100实例，发了条推文：“holding on for dear life”。

如果说资源紧缺必然导致价格上涨，尚可理解。但这涨价的姿势未免也有些诡异。

正常的逻辑是，新一代出来，旧款降价。B200已经稳定供货，四年前的H100也理应降价。

但SemiAnalysis数据显示，H100一年期的合约租金，半年涨了近40%（从2025年10月的$1.70/小时，涨到2026年3月的$2.35）。

现货市场更夸张，lambda的报价已上浮到4美元+/小时，是两年前的两倍。而H200的现货价格甚至比新一代B200还要贵。"这价格是两年前的两倍还多，而且通常很难抢到，要写脚本盯着API才有机会。"

图注：从4.96美元/小时涨到6.40美元/小时，涨幅29%；而更新一代的B200为5.68美元/GPU小时。

5%的利用率和B200的倒挂

一边是高端GPU紧缺，一边却是算力中心里的利用率低得令人发指。

Cast AI的报告显示，不少大企业GPU集群的平均利用率只有5%左右。此前，马斯克的兆瓦级算力中心Colossus的MFU（模型算力利用率）仅为11%左右。

其实并不是企业意识到不到算力资源的浪费，而是不敢放手。

排队几个月，云厂商销售突然打电话：“你要的卡现在只剩36张了，只能签一年的长约。不要的话，后面还有五家排队等着呢。”

这时候，问题已经不是“公司是否需要租用这么长时间的芯片”，而是“我敢不敢错过这笔订单”。

先签下来，哪怕闲置也不释放，因为交出去的算力卡可能就再也拿不回来了。

芯片不只是产能短缺，更是流动性短缺：它卡在企业的算力长约里，困在云厂商的容量池里，但就是不在普通开发者今晚能点开购买的页面上。

短缺制造恐慌，恐慌制造囤积，囤积制造更深的短缺。

而这种流动性的枯竭，也放大了另一个结构性问题：为什么偏偏是H100/H200被推上了天价，甚至比新一代B200还贵？

因为算力市场从来不是按“谁更新”来定价，而是按“谁更好用、更好接入”来定价的。

过去大家抢GPU，想象中的场景是巨头训练下一代大模型，当然要追求极致先进。但现在，消耗GPU的地方变多了：推理服务、代码Agent、RL后训练、自动评测、小模型复现、教学实验，都在持续吃算力。

对于这些海量需求来说，B200代表的下一代性能上限并不是首选。

做工程的人最懂：最先进不等于最好用，真正值钱的是确定性。

H100/H200足够强，且生态足够成熟。你用H100跑，别人的benchmark也是H100；你用H200做推理，调参经验已经有人踩过坑。

相比之下，新一代芯片再强，也需要时间消化到框架、集群、调度和成本模型里。

训练市场还没完全切到Blackwell，推理和后训练市场又把需求重重叠加上来。旧卡本该退场，却因为“确定性”成了刚需。

AI民主化，卡在了算力门槛上

这一轮的芯片荒，和过去还不太一样。

过去聊缺芯，是顶级AI Lab的军备竞赛，巨头谁抢到更多GPU，谁就能训练更大模型。但这一次，焦虑正在往下沉。

Karpathy录教程要先考虑开发者能不能拿到8×H100；LocalLLaMA社区讨论能不能用本地Mac硬跑；高校研究员担心拿不到算力，小团队担心扩容被大客户挤掉。

这背后已经不是“我要训练GPT-5”的野心，而是一个更朴素的问题：我只是想复现一个实验，为什么第一步就变成抢算力了？

AI开源这几年确实降低了许多门槛。模型权重可以下载，代码可以fork。但算力把另一扇门关上了。

代码可以开源，但H100不能fork。

真正的AI研究从来不只是看懂代码，还得你能跑通实验、复现结果，调参、失败，以及很多次的再重来。

如果每次实验的前提，都是拿到一组昂贵且不稳定的GPU，那么开源的平等，就会被算力的不平等重新抵消。

从Google研究员离职创业，到英伟达内部争GPU，然后是Karpathy的教学视频卡在8张H100，它们指向同一件事：算力正在从基础设施，变成一种筛选机制。

它筛掉的未必是没有想法的人，而是没有预算、没有配额资源、没有长期合同的群体。

这才是AI民主化最尴尬的现实：模型越来越开放，但能跑起来的人，可能并没有变多。

国内开发者的痛：过渡期的压力

把视线拉回国内，如果说海外开发者是在成熟生态里抢H100/H200现货；那么国内开发者面对的，则是过渡期的多重压力考验，要在新的算力结构里找"能用且好用"的解法。

某云H100排期已到2027年第一季度，更多的云平台同样面临高端卡供应瓶颈，"有钱也租不到"是真实的用户反馈。

与此同时，高端卡的获取仍然受政策影响，当然国产算力替代正在加速。但从CUDA体系切换的工程成本是真实存在的，适配层、代码改动、调试周期，对小团队而言不是轻松的迁移。

其实，大家底层的处境不尽相同。算力底座从来不是一个宏大词，而是非常具体的体验——实例能不能启动，价格扛不扛得住，实验结果能不能复现。

今天AI圈真正稀缺的，也许不是最新的芯片，而是普通人能稳定拿到、马上用起来、跑出结果的有效算力。

参考链接：

Even Nvidia’s own research teams can’t get enough GPUs amid the race for AI computing power（https://fortune.com/2026/04/09/nvidia-gpu-shortage-impacts-even-nvidias-own-research-teams-bryan-catanzaro-eye-on-ai/）
The Great GPU Shortage–Rental Capacity–Launching our H100 1 Year Rental Price Index（https://newsletter.semianalysis.com/p/the-great-gpu-shortage-rental-capacity）
FOMO is why enterprises pay for GPUs they don't use—and why prices keep climbing（https://venturebeat.com/infrastructure/fomo-is-why-enterprises-pay-for-gpus-they-dont-use-and-why-prices-keep-climbing）
https://semianalysis.com/gpu-pricing-index/
Nvidia A100 vs H100 vs B200 GPU Rental Price and Performance（https://ornn.com/insights/nvidia-a100-vs-h100-vs-b200-gpu-rental-price-and-performance）

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

硅谷深陷算力荒：H200一夜涨价30%，H100抢到缺货，Karpathy也未能幸免

5%的利用率和B200的倒挂

AI民主化，卡在了算力门槛上

国内开发者的痛：过渡期的压力

大 家 都 在 搜

大家都在搜