2026-04-20 09:55

“所有人都在谈石油，但我觉得世界真正短缺的是Token”

心智观察所©

速览

本文来自微信公众号：心智观察所，作者：心智观察所

一个令人不安的信号开始在AI世界蔓延。你花几十美元订阅的AI服务，背后那家公司可能正在为“算不动”而焦头烂额。

OpenAI悄悄放弃了一款视频生成应用Sora。这款产品上线仅五天，下载量就突破百万。公司CFO罕见地公开坦承：“我们在做一些非常艰难的交易，因为没有足够算力。”

几乎同一时间，以代码能力爆红的Claude开始频繁宕机。过去三个月，它的正常运行时间只有98.95%，而互联网服务通常承诺的是99.99%。大量企业用户被迫迁移，一位CEO直说：“Anthropic一直在宕机。”

价格也在疯涨。在云端租用英伟达最新款Blackwell芯片，一小时的价格从两个月前的2.75美元跳到4.08美元，涨幅接近一半。就连2022年发布的“老将”H100，半年内的租赁价也涨了将近40%。

云基础设施公司Vultr的CEO J.J.Kardwell说得很直白：“我经营这家公司五年多，从来没遇到过这么严重的容量短缺。”

这不是哪家公司的管理失误。这是一场产业级别的系统性危机。AI的算力泡沫被刺破了，而刺破它的不是需求下滑，恰恰相反，是需求大到供给根本追不上。

Token：一种比石油更紧缺的新资源

认识一下新单位：Token，中文叫词元。

你可以把它想象成AI的“呼吸”。每一次你向AI提问，让它写代码、画图、查资料，背后都在消耗Token。任务越复杂，呼吸越急促，消耗就越大。如果你只是问“今天天气怎么样”，AI可能喘几口就行。但如果你让它帮你整理一周的工作日志、写一份竞品分析报告，它得深呼吸几百上千次。

过去几个月，全球Token消耗量出现了一种让人眩晕的增长曲线。

OpenAI面向企业客户的API平台，Token调用量从2025年10月的每分钟60亿，飙到了2026年3月底的每分钟150亿。五个月，翻了两倍半。

摩根士丹利的统计更吓人。全球每周Token使用量，2026年1月还是6.4万亿，到3月已经冲到22.7万亿。三个月，三倍多。

这场海啸的推手是谁？答案是智能体AI。

以前的AI像个问答机器，你问它答，一锤子买卖。但2026年初，以OpenClaw为代表的智能体工具登场了。AI从“回答问题”升级到了“执行任务”：它可以自己打开文件夹，阅读文档，调用软件，填写表格，发送邮件。一个完整任务往往需要AI反复琢磨，调用七八种工具，在多个步骤之间来回切换。单次任务的算力消耗，比简单问答高出数倍甚至数十倍。

工程师兼投资人Ben Pouladian总结得很精准：“所有人都在谈石油，但我觉得世界真正短缺的是Token。AI早就不是站在冰箱前面问菜谱的那个聊天机器人了。它在编排任务，它在变聪明。”

需求端烈火烹油，供给端呢？

三道墙：制造，电力，水泥

如果你觉得“算力不够”只是芯片下单太少，那就把事情想简单了。

第一道墙，芯片制造。

英伟达的GPU是AI时代的发动机。但发动机不会从天上掉下来。它得在台积电的晶圆厂里，靠荷兰ASML的天价EUV光刻机，一层一层刻出纳米级的电路。

EUV光刻机一年只产几十台，交付排队时间超过十八个月。高端GPU离不开的HBM高带宽内存，产能同样有限，扩张节奏远远跟不上需求的脚步。摩根士丹利的预测很直接：当前AI算力需求的增速，是英伟达供给增速的三倍。

换句话说，就算英伟达把生产线拉到满，供需之间的口子还在继续撕大。

第二道墙，电力。

AI的尽头是电，这句话一点不夸张。

一台装满GPU的服务器机柜，跑起来的功耗抵得上十几台家用空调同时运转。一个大型数据中心，每天吞掉的电够一座小型城市用。美国电力研究院算过一笔账：2025到2028年间，美国数据中心面临的电力缺口大约是55吉瓦。55吉瓦什么概念？将近二十座大型核电站的发电量。

正因如此，Meta这样的科技巨头已经开始跨界投核电了。云服务商们也承认，“2026年的可用电力已经全部被预订光了”。

第三道墙，水泥和工期。

有芯片，有电力，还得有地方放它们。这个地方叫数据中心。一个标准数据中心的建设周期是两到三年。

巨头们正在疯狂砸钱。2026年，微软、谷歌、Meta、亚马逊四家公司的资本开支加起来有6600亿美元，比上一年猛增60%。但钱再多也缩短不了水泥的凝固时间。有一个投资180亿美元的数据中心项目，甚至因为配套基础设施跟不上，直接被取消了。

制造、电力、水泥，这三样东西构成了AI产业真正的物理边界。算法可以指数级优化，一行代码的事。但物理世界的扩张是线性的，快不起来。当指数级的增长曲线迎面撞上线性的供给曲线，危机就来了。

谁掌握Token，谁制定规则

稀缺会重新分配权力。

云服务商CoreWeave是这轮算力荒里的典型赢家。去年底，它把GPU租赁价格上调超过20%，还要求中小客户签下至少三年的长约，以前一年就够了。即便如此，美国银行的判断依然是：它的需求将超过供给，至少持续到2029年。

算力的定价权正在转移。光有GPU不够，谁能把芯片、电力、机柜、网络打包成“插电即用”的服务，谁就站到了产业链更有利的位置上。

这个逻辑也能解释阿里近期的激进动作。

2026年3月，阿里成立了一个新事业群，名字就叫Alibaba TokenHub，简称ATH。通义大模型、MaaS平台、C端应用千问、企业智能体悟空，全部塞进去，由集团CEO吴泳铭直接指挥。内部人士说，这次调整的核心逻辑就是一句话：“大家围绕Token去做。”

吴泳铭抛出了一个野心十足的目标：未来五年，“AI加云”的收入要做到1000亿美元。这意味着云业务的年复合增长率要维持在45%左右。全球范围内，还从来没有哪个同等体量的云厂商跑出过这种速度。

但账本的另一面同样刺眼。2025年四季度，阿里Non-GAAP净利润同比下滑67%，自由现金流从正变成负。核心电商业务的增速只剩1%，却要同时养活AI和即时零售两条烧钱战线。一位机构投资人评价得很克制：“阿里需要兼顾的战场太多了。远场电商对拼多多，近场电商对美团。主营业务没法提供无限的弹药。”

内部的算力调配也露出了问题。春节期间，阿里集团层面的算力利用率只有五成。原因很典型：各个团队为了“有备无患”拼命多申请，结果账面上看资源充裕，真正要用的时候却调度不开。此前大模型负责人周畅转投字节跳动，据内部人士透露，压垮他的其中一根稻草就是“协调不到足够算力”。

中美两国的算力焦虑是同步的，但底色不同。

美国的问题主要出在物理供给上。制造产能、电力、土地，三重约束叠在一起。中国除了这些，还多了一层GPU进口受限的结构性压力。据估算，中国AI GPU的自给率从2020年的不到10%爬到了2024年的34%左右，但想达到82%，大概要等到2027年。未来两年，国产替代仍然在追赶的窗口里。

各家出手的力度也不同。字节跳动2025年资本开支大约1600亿元，其中900亿砸向AI算力。阿里宣布未来三年投入3800亿元建设AI基础设施。腾讯相对克制，资本开支只增加了3%。市场在猜测，这是买不到卡，还是不愿意高价买。

龙虾来袭：当每个人都有一个数字分身

2026年初，“龙虾”突然火了。

这里说的龙虾不是海鲜，是英文Long-bot的谐音梗，指代一类能长时间自主工作的AI智能体。它的核心能力就一条：你告诉它要做什么，它自己琢磨步骤、调用工具、处理意外、交付结果。过程中不需要你盯着屏幕。

听起来像科幻电影里的桥段。但龙虾类产品已经真实地涌入了市场。阿里一口气推出了两款，面向个人的JVSClaw和面向企业的悟空。字节、腾讯、月之暗面的类似产品也在密集上线。Anthropic的Claude Code更是点燃了程序员群体的热情，用AI写代码从一个辅助功能变成了全自动流水线。

龙虾的走红，彻底改写了算力消耗的方程式。

以前你用AI聊天，问一句答一句，单次对话消耗几百到几千Token，完事。龙虾不一样。你给它一个任务，它可能连续工作十分钟、半小时甚至更久。每一步推理、每一次工具调用、每一轮自我纠错，都在烧Token。一个简单的“帮我整理这周的工作报告”，龙虾可能需要打开邮箱、下载附件、阅读文档、提取要点、生成大纲、撰写正文、检查错别字、发送预览——整套流程下来，Token消耗是普通对话的几十倍。

更关键的是，龙虾让AI从一个“你主动找它”的工具，变成了“它替你守在那里”的同事。你可以睡前丢给它一个任务，它通宵干活，第二天早上交结果。这种使用场景意味着AI的运行时间从“偶尔”变成了“持续”。一个人如果认真用龙虾，一天的Token消耗轻松抵得上过去一个月。

需求曲线被狠狠向上掰了一截。

云服务商的反应很诚实。CoreWeave涨价超过20%。阿里云的GPU实例价格也在上浮。国内外多家云厂商开始对智能体类应用单独设置调用上限，或者在高峰时段限流。Anthropic宣布工作日上午5点到11点限制Token消耗量，用户一片哀嚎。有人在社交平台上写：“我这周45分钟就打穿了额度，以前几周都用不完。”

这不是某家公司小气。是物理规律在收税。

普通人的算力账单：隐形分层已经开始

龙虾热把一个问题推到了台前：当算力变成稀缺资源，普通人怎么办？

表面上看，AI服务还在免费或低价。千问App、豆包、元宝、Claude免费版，都还能用。但“能用”和“够用”之间的距离正在拉大。

第一个变化是限流。你正在用龙虾处理一份重要文件，弹窗跳出来：“您已达到当前时段的使用上限，请稍后再试。”稍后是多久？可能是一个小时，可能是四个小时。你的工作节奏被打断了。这种打断不是技术故障，是算力配给的必然结果。云厂商把有限的资源优先分配给签了长约、付了高价的企业客户，个人用户免费或低价套餐的优先级自然靠后。

第二个变化是服务质量缩水。同样的提问，高峰期得到的回复可能更短、更浅、更敷衍。背后的原因很简单：模型在处理高并发请求时会自动“降级”，用更小的参数版本、更少的推理步数来节省算力。用户感知不到技术细节，但能感觉到“AI好像变笨了”。

第三个变化是付费门槛的实质性抬高。过去你觉得每月二十美元订阅费是“为效率买单”。以后这个价格买到的可能只是基础版，真正好用的龙虾功能需要加钱解锁。算力成本最终会沿着产业链向下传导，落在每个用户的账单上。

一种新的数字鸿沟正在成形。

它不像过去的“有没有网”“有没有智能机”那么显眼。它更隐蔽，但影响更深。一边是企业客户、高付费用户享受着接近无限的算力供给，龙虾可以通宵跑，任务可以并行开。另一边是普通用户面对着越来越频繁的“请稍后再试”，在算力配给的夹缝中精打细算。

有人会说，市场经济嘛，稀缺资源价高者得，天经地义。这个逻辑没错。但问题在于，AI正在从一个可有可无的新奇玩具，变成许多人的生产力工具、学习工具、创作工具。当一个工具开始影响人们的工作能力和收入潜力时，使用权的差异就不再只是消费选择的问题了。

想一想。未来某个岗位的招聘要求写着“熟练使用龙虾类工具”。应聘者A的公司配了企业版，算力管够，作品集精雕细琢。应聘者B自己掏钱用免费版，每天被限流三次，产出效率天然低一截。这种差距不是因为能力，而是因为算力配额。它会在不知不觉中重塑竞争起点。

未来的算力社会：三条可能的路

站在2026年往回看，算力荒大概只是一个开始。未来五到十年，算力供需的天平不太可能突然摆回平衡点。需求侧，龙虾之后还会有更复杂的智能体，视频生成之后还会有实时交互的虚拟世界。供给侧，晶圆厂的建设周期、电网的改造速度、土地和能源的硬约束，每一样都急不来。

在这种情况下，算力社会的走向大概有三种可能。

第一种，分层服务成为常态。

就像航空公司的头等舱、商务舱、经济舱，AI服务也会形成清晰的分级。企业级算力保证、专属模型版本、7x24小时不限流，这是一档。个人付费用户的优先通道、高峰期保障、龙虾时长配额，这是另一档。免费用户的“闲时可用、忙时排队”，这又是一档。分层的标准只有一个：谁付的钱多，谁用的Token多。

这没什么不公平，市场向来如此。但当一个社会的基础设施开始分层，那些站在“经济舱”里的人，会在不知不觉中被拉开距离。

第二种，算力效率革命加速。

稀缺倒逼创新，这是人类历史反复验证的规律。龙虾热已经让各大AI实验室把“单位算力产出”列为最高优先级指标。模型压缩技术、推理优化算法、专用AI芯片，都在加速推进。一个有趣的趋势是，小参数模型正在回暖。过去大家拼了命把模型做大，参数从千亿冲向万亿。现在风向变了，如何在更小的模型里装进更强的能力，成了新的技术竞赛主题。

如果算力效率的提升速度能跑赢需求增速，危机可能会被技术化解。历史上这种事情发生过很多次。石油危机催生了更省油的发动机，带宽危机催生了更高效的视频压缩算法。算力危机会不会催生一种全新的AI架构，让Token消耗降低一个数量级？可能性存在，但时间表未知。

第三种，算力成为一种公共品。

这个方向听起来有点理想主义，但并非毫无根据。电力在早期也是奢侈品，只有工厂和富人才用得起。后来电网普及，电价下降，电力变成了像空气一样的基础设施。算力会不会走同样的路？

一些信号已经出现。阿里在内部推广智能体应用时，员工调用Token的流程大幅简化，有人感叹“终于可以不用自己花钱用起来了”。这至少说明，在组织内部，算力正在被视为一种应当普惠的资源。如果这个逻辑从企业内部扩展到社会层面，算力可能会像图书馆、公园一样，成为一种公共基础设施。国家层面主导的算力网络、城市级的AI算力中心，已经在多个地方落地。

三条路不是互斥的。更可能的情况是，分层服务、效率革命、公共品属性，三者同时发生，在不同的市场、不同的场景中各自生长。

对于普通人来说，最重要的大概不是选哪条路，而是意识到算力正在变成一种需要主动管理的个人资源，变成像水、电、燃气一样的日常消耗品。就像管理时间、管理金钱一样，未来你可能需要管理自己的Token配额。哪些任务值得让龙虾通宵跑，哪些事情手动做反而更划算。

这将是一种新的生活智慧。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI原生产品日报

频道：前沿科技