扫码打开虎嗅APP
本文来自微信公众号: 芯世相 ,作者:汤之上隆
AI数据中心的投资,如今已明显达到异常水平。Microsoft、Google、Amazon、Meta等超大规模云服务商(Hyperscaler)正竞相投入每年数千亿美元的资本支出。据TrendForce的报道,2026年上述四大超大规模云服务商的数据中心投资总额,最高将达7550亿美元(图1)。若以1美元兑160日元换算,约合120.8万亿日元,超过2025年度日本国家预算(一般会计总额约115万亿日元规模,来源:财务省)的水平。

图1:四大超大规模云服务商对数据中心的疯狂资本支出;来源:根据TrendForce数据等由笔者制作
之所以需要如此巨额的投资,是因为搭载在AI服务器上的AI半导体价格正在飙升。以AI半导体的代表产品——英伟达(NVIDIA)的GPU为例,在其当前的主力架构“Blackwell”中(按1美元=160日元计算),单块GPU“B200”的价格在500万至800万日元之间,搭载8个B200的服务器“DGX B200”售价为4000万至7000万日元,基于该服务器的AI机架“GB200 NVL72”则达到数亿至10亿日元级别(图2)。正因为需要将大量此类AI机架并排部署以构建AI数据中心,各超大规模云服务提供商的投资额才会超过1000亿至2000亿美元。

图2:NVIDIA GPU的AI服务器及数据中心价格结构(Hopper、Blackwell、Rubin);来源:根据NVIDIA技术发布及产品资料、TSMC相关报道、Micron Technology与SK hynix的HBM发布、各类行业分析(Reuters、SemiAnalysis、TrendForce等)由作者制作(价格及部分配置为推算)
然而,这已超出了“增长投资”这一术语所能涵盖的范畴,反而呈现出一种更接近于“为竞争而进行的军备竞赛”的态势。
在这种情况下,有一个至关重要却几乎未被正面讨论的问题。那就是“这项投资真的能够收回成本吗”这一极其基本且本质的问题。在AI热潮中,人们往往只强调需求强度和技术创新,但在资本密集型产业中,最终被问及的始终是投资回报的成败。
本文将AI数据中心的成本结构分解为GPU、高带宽内存(HBM)、电力三个要素,并进一步利用Microsoft和Google的实际披露数据,对当前AI投资的收益结构进行定量分析。在此基础上,尝试推算在哪个时间节点将陷入无法回收的境地,即所谓"崩溃临界线"。
此外,本文的分析以GPU基础设施按时计费的直接收益为对象,不包含AI所带来的间接收益效果(如搜索广告质量提升、SaaS附加价值增加等)。请读者在理解这一前提的基础上阅读本文。
若先行揭示结论:美国各超大规模云服务商对AI数据中心近乎疯狂的投资,极有可能已经破产。用动画《北斗神拳》中拳四郎的名言来说,就是“你已经死了”。
图3以定量方式呈现了从Microsoft与Google案例中所见的投资规模实态。基于该数据,我们可以看出Microsoft以及Alphabet旗下Google的数据中心投资已达到何等异常的水平。

图3:从Microsoft与Google看投资规模的实态;来源:根据Microsoft FY2025年度报告、Alphabet Earnings Call FY2025数据由笔者制作
1-1)Microsoft的情况
根据Microsoft 2025财年年度报告,资本支出(固定资产的增加)已达645亿美元(来源:Microsoft Form 10-K,FY2025)。此外,公司说明以AI基础设施为中心的投资有望超过800亿美元(来源:Microsoft官方发布,2025年)。
将这一规模与Microsoft云业务的销售额1680亿美元(来源同上)相比较,资本支出约占销售额的38%,按公司披露数据计算则约为48%。通常情况下,在稳定的基础设施业务中,资本支出超过销售额30%的情况极为罕见,这一水平极为异常。
更为重要的是,折旧费用已达220亿美元(来源同上)。这意味着过去投资的负担已开始影响损益,未来数年间这一负担持续增加的可能性极高。
此外,如前图1所示,2026年Microsoft的资本支出预计将比上年增长约2.4倍,达到1900亿美元。因此,可以预测Microsoft的损益将大幅向负方向移动。
1-2)Google的情况
另一方面,拥有Google的Alphabet进行了更为激进的投资。2025年的资本支出达914亿美元,其中大部分投向了服务器和数据中心等技术基础设施(来源:Alphabet Earnings Call,FY2025)。相比之下,Google Cloud的年度销售额约为588亿美元,营业利润约为139亿美元(来源同上)。
当然,914亿美元的资本支出不仅面向Cloud业务,也支撑着搜索引擎、AI研究基础设施等全公司层面的基础设施。但即便假设其中一半用于Cloud,也约达457亿美元,相当于Cloud销售额的约80%、营业利润的约3.3倍。即便考虑到这一点,当前投资规模已大幅偏离传统投资回收模型。
此外,与Microsoft同样,预计2026年Google整体的设备投资将达到1800亿至1900亿美元,较上年增长约2.4至2.5倍。鉴于如此高水平的设备投资,不难想象云业务的投资回收将变得更加困难。
投资规模之所以能膨胀至此,原因在于AI数据中心特有的成本结构。首先,我们来推测AI数据中心的成本结构及市场范围(图4)。

图4:AI数据中心的成本结构、市场区间(文中所载代表值);来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作
首先是GPU。当前的AI基础设施在很大程度上依赖于NVIDIA生产的GPU。例如,H100的系统价格虽因配置而异,但据称每块约为2.5万至4万美元(来源:各类市场调研、供应商报价范围),在8块GPU的配置下,每机架成本可达约300万美元。此外,在GB200世代,每机架价格将升至数百万美元后半段(约350万至550万美元规模)(来源:行业分析师估算)。
更重要的是,投资并非针对单个GPU,而是以“集群为单位”。在当前的AI数据中心中,每个集群投入数千至数万个GPU的情况正逐渐成为常态,单个集群的投资额可达数亿美元至约7亿美元。
其次是HBM。在H100和GB200中,每块GPU通常搭载6至8栈HBM的配置。HBM的单价虽因代际和合同条款而异,但据TrendForce等各类内存市场报告显示,HBM3/3E的每栈价格约为1000至1500美元。因此,每块GPU的HBM成本约为1万美元左右,在GPU总成本中占据极高比例。
更重要的是供应限制。HBM市场几乎仅由SK海力士、三星电子和美光这三家公司垄断,尤其在尖端HBM领域,SK海力士的市场份额据称超过50%(来源:TrendForce,2025)。这种供应集中形成了抑制价格下降的结构。
第三是电力问题。AI数据中心的功耗与传统云服务相比高出数个数量级(图5)。例如,H100的TDP(注:Thermal Design Power的缩写,指为冷却芯片所需的预估最大发热量)约为700W,而GB200则达到1kW级别(来源:NVIDIA规格)。假设构建一个由1万个GPU组成的集群,仅GPU部分就需10MW的电力,若包含网络和冷却系统,总功耗将达到20~30MW。

图5:AI数据中心年度电力消耗及其总费用;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作
回到图5的说明,换算为年度电力量,20MW的情况下,20MW×24小时×365天≒1.75亿kWh/年。若电力单价为0.14美元/kWh(约等于20日元/kWh),则年度电力成本可达约2500万美元。实际上,考虑到冗余配置和冷却损耗,达到3500万美元规模/年的情况也被认为并不罕见。
如上所述,GPU(资本支出)、HBM(供应制约)、电力(运营支出)三要素均随规模的扩大而加速增长。其结果是,AI基础设施的成本在结构上持续高位,与传统模式相比,几乎不存在通过规模扩张实现成本削减的余地。
传统的云基础设施,得益于服务器单价的持续下降和利用率的提升,发挥了规模经济效应。随着摩尔定律和虚拟化技术的进步,一台服务器随着时间的推移能够处理“更便宜、更多”的服务,这支撑了传统的投资回收模式。然而,在AI数据中心中,情况大不相同。图6展示了其成本结构的前提条件,图7则展示了基于该前提条件计算出的AI数据中心投资回收线。

图6:计算AI数据中心回收模型所用的前提条件;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作

图7:AI数据中心回收临界线的推算;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作
假设一个拥有1万个GPU的集群的初始投资为7亿美元(包括GPU、服务器、网络和冷却系统),并在会计上分5年摊销,则年摊销费用为1.4亿美元。加上3500万美元的电力成本和3500万美元的运营费用(维护、人工、数据中心租金等),年总成本约为2.1亿美元。
由此,每块GPU所需的回收计费单价可通过下列公式计算:
所需计费单价=年总成本÷(GPU数量×8760小时×稼动率)
假设稼动率为70%,则:
2.1亿美元÷(1万×8760小时×0.7)≒约3.43美元/GPU小时
也就是说,如果每块GPU无法在接近满负荷运行的状态下持续产生每小时3.43美元以上的收益,就无法收回投资。这是"下限"而非"平均值",稼动率一旦下降,所需单价将进一步跳升。
然而在现实市场中,生成式AI的推理价格正在急速下降。例如,据报道大型语言模型(LLM)的API(应用程序编程接口)价格在2023年至2025年间已出现下降至十分之一以下的案例(来源:OpenAI、Google、各类API价格比较)。此外,随着开源模型的普及,价格竞争愈发激烈。
此处值得关注的是,尽管API价格急剧下滑,GPU、HBM及电力成本却反而呈上升态势。至此,传统的成本回收模式已难以成立。AI基础设施正从"越扩规模越有利的模式"转变为"越扩规模固定成本风险越大的模式"。那么,在何种水平下将陷入无法回收的境地?下面将基于Microsoft和Google的实际数据,对回收条件加以探讨。
如第1章所述,Microsoft在持续保持年均600亿至800亿美元规模投资的同时,截至2025年已承担超过200亿美元的折旧费用。若试图以Microsoft Cloud的营业利润覆盖这220亿美元的折旧费用,则将大幅压低Cloud业务的营业利润率。另一方面,Google Cloud业务的营业利润为139亿美元,而仅资本支出的一半(推算为Cloud向部分)就已达457亿美元规模,以单一年度来看,投入到投资中的资金相当于营业利润的3倍以上。
这揭示了一个结构性问题。AI基础设施必须对所投资本持续维持极高的收益率,方能成立。然而现实中,AI服务价格持续下滑,GPU和HBM的成本高位不退,电力成本不断攀升。
在这三种因素同时作用的环境下,投资回收的条件正在急速恶化。可以说,当前的AI投资已陷入一种结构性困境:除非极高的稼动率与高单价同时成立,否则回收极为困难。
那么,这场近乎疯狂的资本支出会减速吗?结论是否定的。
Microsoft持有约3680亿美元的合同未履行余额(Remaining Performance Obligations:在手订单)(来源:Microsoft Earnings Call,FY2025 Q4),需求依然超过供给。Google也已明确表示将进一步扩大资本支出,以应对AI及云需求(来源:Alphabet Earnings Call,FY2025)。
此处值得关注的是,两家公司并非"因为能回收才投资"。恰恰相反,正是因为"一旦停止投资便会被淘汰出竞争",才不得不持续投资。
当前的AI投资,已从追求利润最大化的投资,异变为规避出局的投资。AI投资应被认为已不再处于"成长"阶段,而是进入了"消耗战"阶段。
只要这一结构持续,AI热潮将继续扩大,而其内部将不断积累着无法收回投资的风险这一“扭曲”。这一扭曲将在某一临界点骤然显现。这便是下一章所揭示的"崩溃临界线"。
如前所述,判断AI投资的可持续性,需要将GPU数量、HBM、电力乃至电源基础设施作为一个整体来审视,而非仅着眼于GPU台数。本章以1万颗GPU级集群为代表案例,定量呈现在何种水平下投资将陷入无法回收的境地——即"崩溃临界线"。
6-1)从GPU台数反推,HBM与电力需求将呈何种增长趋势?
首先以1万颗GPU集群为前提。图8示每个集群所需的年度电量及其核电换算基准。

图8:构成崩溃临界线前提的所需电力消耗物理规模;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作
假设每颗GPU搭载8栈HBM,则所需HBM合计达8万栈。以每栈24GB换算,总搭载量约为1.92PB。电力方面,若每颗GPU约为1kW级,包含冷却、变电、网络负荷在内整体设施负荷约为2倍,则1万颗GPU集群的设施负荷约为20MW。
年度电力量可达约175.2GWh,若以此除以1座1GW级核电站以90%设备利用率运行时的年发电量,相当于约0.022座核电站的发电量。反言之,这意味着1座核电站仅能支撑约45个站点,若大规模扩建AI集群,若不新建核电站级电源,根本无法满足需求。
6-2)崩溃临界线的定义
如前所述,以1万颗GPU集群、初期投资7亿美元、会计摊销5年、年度运营费3500万美元、年度电力费约3500万美元计算,年度总成本约为2.10亿美元。此时损益平衡条件如第3章所述,可由以下公式表示:
所需计费单价=年度总成本÷(GPU台数×24小时×365天×稼动率)
以稼动率70%为前提,所需计费单价约为3.43美元/GPU小时。这便是本文所称的"崩溃临界线"。即,一旦AI服务价格跌破这一水平,或稼动率跌破这一前提,投资即刻进入无法回收的领域。
此外,会计上5年的摊销期与NVIDIA GPU的技术迭代周期(大致每2年换代)相比,是较为乐观的前提。在后述的崩溃情景③中,将验证摊销期缩短对收益结构的影响。
6-3)崩溃会骤然发生
在通常的基础设施产业中,利润率是逐渐下降的。但在固定成本极为庞大的AI数据中心中,由于以下三个原因,一旦跌破某一临界线,损益将骤然恶化。
GPU与HBM的初期投资巨大且固定
电力与冷却负荷高企,难以轻易降低
而另一方面,所需计费单价(市场价格)却在竞争压力下单方面下降
因此,AI投资的恶化并非线性,而是非线性的结构。即并非"略有恶化则略感吃力",而是"一旦超过某一临界点,赤字便骤然扩大的结构"。这便是崩溃临界线的本质。
下面将AI数据中心走向崩溃的情景分为三类,进行定量推算。各情景的共同条件见图9。

图9:计算AI数据中心崩溃临界线时的共同条件;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作
6-4)三条崩溃情景
关于三个崩溃情景,基于图10示以下模拟结果。

图10:AI数据中心走向崩溃的三个情景模拟;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作
①软性崩溃
最易发生的是AI企业间价格竞争激化的情景。当计费单价降至2.90美元/GPU小时、稼动率下降至65%时,所需计费单价将上升至3.69美元,年度损益将出现约4490万美元的亏损。
不过,如图10所示,这一阶段尚未达到全面崩溃,但利润已完全消失,投资回收正悄然走向破产。表面上需求得以维持,但内部的资本效率已然瓦解。
②硬性崩溃
下一个危险情景是电力、冷却、部署等物理成本的上升。在计费单价3.00美元、稼动率55%的条件下,叠加电力单价上涨及设施负荷增大,所需计费单价将跳升至4.70美元,年度损益将出现约8170万美元的亏损。
从图10可以看出,在这一阶段亏损幅度急剧扩大。这并非需求问题,而是基础设施成本摧毁盈利能力的典型案例。
③金融崩溃
最为严峻的是金融层面率先爆发崩溃的情景。即便计费单价为3.20美元、稼动率为60%,一旦叠加摊销期缩短(5年→4年)与8%的资本成本负担,所需计费单价将达5.73美元,年度损益将出现约1.33亿美元的亏损。
其结果如图10最下行所示,这一阶段的损失已达到无法吸收的水平(1.33亿美元/年)。设备在物理上损坏之前,资本市场将率先判定"无法回收"——这便是本情景的本质。
6-5)崩溃以"非线性"方式发生
图11示AI数据中心稼动率与所需计费单价之间的关系。此处值得关注的是,这一关系并非线性。

图11:AI数据中心进入崩溃区域的临界条件;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作
稼动率70%时所需计费单价约为3.43美元,但稼动率降至60%时将上升至接近4美元。若进一步降至50%,所需单价将骤然跳升至接近5美元。
图11所示的"BREAKDOWN ZONE"直观呈现了这一非线性特征。市场价格区间(2.5~3.0美元:基于AWS、Azure、Lambda Labs等H100/H200小时单价区间)已深度进入这一区域,当前AI服务价格在结构上很可能已低于回收临界线。
6-6)电力制约:AI已成国家基础设施问题
更为重要的是,AI投资的规模化直接依赖于电力基础设施。如图12所示,1万颗GPU约需20MW,10万颗GPU则需200MW,100万颗GPU则达2000MW(即2GW)。这已不仅仅是数据中心的扩张,而意味着电力供应基础设施本身的扩张。

图12:从1万GPU→10万GPU→100万GPU,所需电力急剧增长;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作
若将这部分电力换算为核电站,则为:
1万个GPU集群:0.02座
10万个GPU集群:0.2座
100万个GPU集群:2.2座
由此可见,AI投资的扩大本身即是电力基础设施的扩张。AI数据中心已不再仅仅是IT产业的问题,而是转化为电力、土地、建设能力等"国家供给能力的问题"。
6-7)AI投资所面临的"崩溃"
当前对AI数据中心的投资,不仅"无法盈利",更具有"在物理上也无法持续"的结构。市场价格下跌、稼动率降低、电力成本上升、资本市场趋严——其中任何一个因素单独推进,崩溃临界线便会即刻显现。而这一崩溃并非逐渐发生,而是在超过某一临界点的瞬间骤然降临。这已不仅仅是半导体产业的问题,同时也是国家层面电力供给能力的问题。
据日本经济新闻等媒体报道,2026年4月3日,高市早苗首相与美国超大规模云服务商之一Microsoft的总裁布拉德·史密斯会谈,对该公司向日本投资规模达100亿美元(约1.6万亿日元)的数据中心表示欢迎。
然而如本文所示,这笔投资具有盈利崩溃、大量消耗电力、对国家基础设施造成负担的结构。对此类投资表示欢迎,难以称之为有利于国家利益的成长战略,恐将沦为把本国的电力与资本拱手相让给外资AI基础设施的结果。
在AI热潮的狂热背后,我们现在有必要冷静审视日本将为此付出的代价之沉重。