扫码打开虎嗅APP
本文来自微信公众号: IT时报 ,作者:郝俊慧
全球AI,涨声一片。
4月8日,智谱发布旗舰开源模型GLM-5.1,OpenRouter显示,伴随此次发布,GLM系列API价格再度上调10%,4月12日,智谱Coding Plan(海外版)涨价,月付价格几乎翻倍。这已经是智谱今年第三次提价。
4月9日,腾讯云正式发布价格调整公告,宣布将于5月9日起对AI算力、容器服务TKE-原生节点及弹性MapReduce(EMR)相关产品刊例价统一上调5%。
4月13日,阿里云宣布,旗下大模型平台百炼的Coding Plan Lite基础套餐停止续费和升级。也就是说,不再提供最低版套餐服务。

此前,阿里云已确认,4月18日起,AI算力、存储等产品将全线涨价,最高涨幅34%。
而在云服务商和AI服务商的上游,涨价的齿轮已提前开始。
3月底,华为昇腾服务器系列启动第二轮调价,“910C(A3)1TB内存版本单台预计上涨16万至32万元,2TB版本涨幅在32万至48万元之间。”一位经销商向《IT时报》记者透露。
“随着产品更新,叠加内存涨价,国产智算服务器年后报价普遍涨三成以上。”一位云服务商表示,现在供应商报价都“不含内存价”。
大洋彼岸,涨价的风同样越吹越猛。
4月2日,知名半导体分析机构SemiAnalysis发布的报告显示,美国市场上,英伟达H100一年期GPU租赁合同的价格已从2025年10月的低点1.70美元(人民币11.6元)/小时/GPU飙升至2026年3月的2.35美元(人民币16元)/小时/GPU,涨幅近40%,2026年8月至9月上线的新增产能已被预订一空,一些四年前采购的老卡H100甚至原价续约到2028年。
从存储到算力,再到Token(词元),AI正在从“会做题”走向“会办事”,需求的爆炸式增长,正在从前端重塑整个产业链的供需关系。
“GLM-5.1的缓存命中Token单价,已经和Anthropic旗下Claude Opus 4.5的价格差不多了。”4月12日,一位开发者告诉《IT时报》记者。
API第三方调用平台OpenRouter数据显示,在API调用计费中,GLM-5.1的缓存命中价格为0.475美元/百万Token,接近于Claude Opus 4.5的0.5美元/百万Token。
API调用有两种计费方式:普通输入输出(每次把全部上下文重新发给模型)和缓存命中(模型已经处理过这段内容,从缓存里读取,成本可以大幅下降)。
前者反映的是模型的实时计算成本,是大模型真正“思考和生成”的价格;但后者也是Agent场景下的核心成本指标,由于Agent每次调用都要把历史上下文全部传入,对一些Agent高频用户而言,缓存命中在总成本中占比同样很高。
《IT时报》记者对OpenRouter平台数据统计发现,GLM-5.1各平台价格加权计算之后,输入价格为0.517美元/百万Token,输出价格为4.40美元/百万Token;而Claude Opus 4.5的输入价格为2.58美元/百万Token,输出价格为25.00美元/百万Token,差距仍在5倍左右。如果与Claude Opus 4.6(fast)比较,两者价格差距更大,约为20倍~34倍。


严格意义上,智谱与Claude产品的价格差距依然十分明显,但在Agent场景的“系统提示词反复调用”这个高频使用场景中,GLM-5.1已经和Opus 4.5站在同一价格区间。
与此同时,GLM-5.1订阅版在海外的价格也全面上涨。
4月11日,智谱GLM Coding Plan海外版全线涨价80%~150%,Lite、Pro、Max版本的套餐价格从原先的每月10美元、30美元、80美元,分别涨至18美元、72美元、160美元(基于有邀请优惠10%折扣的价格),这个价格已经几乎等同于ChatGPT、Gemini、Claude等国外模型的订阅费。截至4月13日,Claude Pro的月付价为20美元,Max版为100美元。

“国内智谱Coding Plan订阅版每天10点要抢,海外版又全线涨价,顿时感觉不‘香’了。”上述开发者表示,原本智谱作为Claude平替,性价比很高,但最近这次涨价,让大家觉得被“背刺”了,“有点以高价将中小开发者挤出去的意思。”
这已经是智谱今年的第三次涨价。从2月12日发布新一代旗舰模型GLM-5起,智谱便同步对GLM Coding Plan套餐进行调价,整体涨幅30%起,海外版涨幅更高,API调用价格涨幅为67%~100%;3月16日,智谱发布全球首个专为“龙虾”场景深度优化的通用模型GLM-5 Turbo,同步上调GLM-5-Turbo的API价格,涨幅为20%;第三次便是4月8日,发布GLM-5.1,OpenRouter显示同步提价10%。
涨价显然影响了GLM受青睐的程度,2月16日至22日那周,GLM-5曾位列全球第三,是中国大模型中调用量最高的模型之一,随着价格逐步上涨,GLM系列排名逐步下降。截至4月13日发稿,排名最高的产品GLM-5在OpenRouter调用排行榜上名列第17位。

智谱不得不涨。
如果说2025年大火的DeepSeek让人们对算力有了直观感受,那么引爆2026年春节的OpenClaw(龙虾)彻底改变了Token(词元)的消耗逻辑。
以Claude Code为代表的AI编程Agent和以OpenClaw为代表的多智能体(Multi-Agent)协同系统的出现,使得处理单个任务的Token消耗量直接从Chatbot时代的几千个跃升至8万到15万个,Token正成为工业级消耗品。
Token和算力消耗开始呈抛物线式增长。字节跳动的数据显示,2025年12月,日消耗Token还只有63万亿,2026年3月便增至120万亿,三个月几乎翻倍。3月23日,国家数据局局长刘烈宏透露,中国日均Token调用量已突破140万亿。
IDC预测,到2030年,全球活跃AI智能体将达22.16亿,年度Token消耗量将从2025年的0.0005 Peta Tokens飙升至15.2万Peta Tokens,增长超3亿倍,年复合增长率达3418%。
需求的快速膨胀,让大模型厂商不得不重新审视定价。
进入2026年3月以来,作为全球大模型API调用的风向标,OpenRouter排行榜的前十中,中国大模型数次霸榜,甚至在3月29日至4月5日这周,排名前六均为中国模型;4月6日至4月12日这周,尽管中国大模型只剩下四席,但调用量占比超过55%,达6.62万亿token。
价格依然是遵循“真香定律”,排名第一和第二的均为中国开源模型Qwen3.6 Plus和DeepSeek 3.2,而MiniMax M2.7和MiniMax M2.5分列第四和第六位,MiniMax的M系列是当前性价比较高的中国模型,输入价格为0.30美元/百万token,输出价格为1.20美元/百万token,缓存命中价格只有0.06美元/百万token。

“极致性价比。”不久前,腾讯集团副总裁李强在谈及中国大模型在海外“受宠”原因时表示。
然而,Token陡峭的上升曲线,使Chatbot时代低价获客的商业逻辑跑不通了。一方面,算力、电力成本无法支撑如此快速的增长,另一方面,尽管Agent消耗的算力是以往的数十倍,但产出的价值也在同等量级上扩张。
Claude Code的官网显示,在企业级部署中,平均成本约为每位开发人员每天13美元、每月150~250美元,90%的用户每天成本低于30美元,年成本约为1.1万美元,而数据显示,一个硅谷软件工程师的平均年薪约为14万美元。
SemiAnalysis以自己公司为例,仅仅一周便消耗了数十亿token,平均成本约为5美元/百万token,但节省的时间以及工作流程和功能的扩展所带来的回报远远超过了这笔成本。
Anthropic公司2025年5月正式推出的终端AI编程助手Claude Code和2月份开始全球爆火的OpenClaw触发了这轮Token暴涨,他们证明了“让AI持续工作8小时而不是回答一个问题”是可行的商业模式。
根据2026年2月对15000名开发者的调查,71%经常使用AI Agent的开发者将Claude Code当作首选工具,不少互联网大厂技术主管发现,团队里有很多工程师已经很久没有亲手写代码了。
最新公布的数据显示,Anthropic的年化收入(ARR)已突破300亿美元,反超了OpenAI,在Claude Code上年花费超过100万美元的企业客户,2月还只有500多家,现在已经超过1000家,翻了一倍。而据SemiAnalysis预估,到2026年底,Claude Code将占全球日代码提交量的20%以上。

算力锁定、模型能力、收入增长,Anthropic的商业模式形成完整闭环,而作为与Anthropic路线最为相近的国产大模型公司,智谱显然想复刻这个模式。
在官方介绍中,GLM 5.1表示在编码能力方面实现了重大飞跃,可以独立且持续地处理单个任务超过8小时,在整个过程中自主进行规划、执行和自我改进,最终交付完整的工程级结果。而在开发者口碑中,GLM系列模型的编程能力被实测认可,因此价格弹性大大降低。
正如智谱CEO张鹏在2026中关村论坛年会上表示,调整价格是为了回归正常的商业价值,长期低价竞争不利于行业发展:瓶颈在算力,不在客户。
“中国厂商涨价的核心目的是筛选客户而非单纯转嫁成本。核心逻辑是Claude等Agent产品验证了用户愿意为Agent能力付费,所以云厂商和AI厂商借此淘汰低质量用户、锁定付费客户。”半导体行业博主“傅里叶的猫”分析道。
需求端的涨价潮,正推动算力价格的重构向上传导。
存储价格上涨周期远未结束。根据SemiAnalysis的内存模型,LPDDR5(低功耗双倍速率动态随机存储器)和DDR5(双倍速率动态随机存储器)合约价格在2026年第一季度分别实现了约4倍和5倍的同比涨幅。
智算芯片方面,“非英伟达联盟”的范围在逐步扩大。
不久前,Anthropic与博通、谷歌签署了一份长达六年的算力协议:谷歌设计TPU架构,博通负责芯片制造,Anthropic获得覆盖未来四代TPU芯片的长期算力访问权,2027年可获得约3.5吉瓦的算力规模,这是一个足以支撑一座中型城市的用电需求。坊间估计这份协议的总金额可能高达2000亿美元量级。
“从晶圆厂的产能、先进封装的产能,到数据中心的电力供应、散热系统,整个AI产业链都在闹‘产能荒’。各大AI公司都在提前锁定产能。谁能提前锁定产能,谁就能在AI竞赛中保持节奏。谁的供应链出问题,谁就可能掉队。”“傅里叶的猫”分析道。
国内也是如此。传说即将在4月下旬发布的DeepSeek V4,被指与华为昇腾深度绑定;阿里云在上海市金山建设一座基于平头哥“真武”芯片(型号810E)的超大规模算力中心,计划部署数十万台服务器,总投资400亿元;一家国产XPU厂商向《IT时报》记者确认,正与某个大模型公司在做深度测试……
“国产算力目前最大的瓶颈是产能。”一家国产算力芯片厂商人士告诉记者,“云服务商和供应链都在各显神通”。
与此同时,需求也在高速提升。
春节后的“全民龙虾潮”,成功在政企行业中进行了一次Agent科普。对于AI能否进入核心生产环节这件事,政府和企业的接受度越来越高。Seedance等AI生成视频工具能力的提升,也成为Token快速消耗的重要原因之一。
“国产算力的需求正从关键行业传导至大型央国企。”一位云服务商客户经理最近刚拜访了几家大型央国企,市场端传来的需求信号是,央国企都准备躬身入局“人工智能+”,而且规划中的建设规模都不小,“有些央企提出的需求几乎可以包下一座中等规模的智算中心”。
可以理解,为什么华为昇腾这次的调价幅度,比业内预期更猛。
上述接近华为渠道的人士告诉记者,2025年,910B集采价缓慢上涨,大概只涨了10%,但“今年计划采购的算力基本还没到位,涨价太快了。有一次,集团集采价跟不上市场价,就黄了。”
《IT时报》记者得到的消息是,一旦昇腾产品调价邮件发出,当天未闭环双章合同的项目全部作废,必须重新按新授权价进行商务测算报价,渠道商被要求中标后要尽快完成订单激活,并第一时间进行付款。
“AI和算力需求的上涨周期远未结束。”“傅里叶的猫”估算,全年算力需求至少还有30%~50%的增长,尽管随着推理效率持续优化,Token增加五倍,算力需求不会等比例增加五倍,但即便如此,在供应紧张的背景下,也足以推动价格持续上涨,“阿里云的悟空、腾讯云的企业虾、阿里国际的企业级Agent等产品已经Ready,企业在熟悉程度提升、解决了安全问题、降低了幻觉率、达到了比较好的完成率之后,应该会比较积极地采用这些国产龙虾。大概6~9个月之后会看到B端需求真正释放,届时算力市场将面临新一轮冲击。”
SemiAnalysis有着类似的结论:如果使用人工智能工具的投资回报率是5~10倍,那么GPU租赁价格显然还有很长的路要走,“租赁价格的上涨很可能会进一步推高服务器和组件成本,这一点我们并不感到意外。”