2026-06-11 21:00

AI的token账单,终于藏不住了

author_path AIGC从0到1
头图

本文来自微信公众号:AIGC从0到1,作者:王零壹,原文标题:《AI 的token账单,终于藏不住了》


过去三年,很多人讨论 AI,还是习惯问一个问题:


  • 谁的模型最强?


  • 谁的 benchmark 更高?


  • 谁的上下文更长?


  • 谁的 coding 能力更接近“自动程序员”?


但最近几条新闻放在一起看,我觉得这个问题已经不够了。


6月9日,Claude Fable 5 发布之后,市场的反应很有意思。


它当然更强,支持更长上下文,面向更复杂的长时间 agent 任务。但与此同时,它也带来了更高价格、更严格限制、usage-based billing、数据保留、安全回退、企业合规顾虑,以及开发者对“限额、降级、回退不透明”的反弹。


这件事像一个现场样本,把 AI 行业下一阶段的矛盾一次性暴露出来:


模型越来越强,但调用最强模型的成本、风险和治理压力,也越来越无法被忽略。


所以这篇文章想讨论的是:AI 正在从能力竞赛,进入 Tokenomics 竞赛。


也就是,智能不再只是“能不能做到”的问题,而是“用多少 token、多少算力、多少时间、多少重试、多少人工兜底,才能把一个真实任务稳定完成”的问题。


一、Claude Fable 5 是一个很好的引子


Claude Fable 5 之所以适合做引子,因为它把前沿模型的经济问题直接摆到了台面上。


Fable 5 支持 1M token context、最高 128k 输出,价格为每百万 input tokens 10 美元、每百万 output tokens 50 美元。


这已经不是“便宜问答工具”的价格结构。


它更像一种高端生产资料。


更关键的是,Fable 5 还伴随着一整套限制:


-使用额度。


-安全分类器。


-fallback。


-billing credit。


-task budgets。


-effort control。


-30 天数据保留。


-不支持 zero data retention。


这些词放在一起,说明前沿模型已经不再只是一个 API。


它更像一个需要预算、审批、调度和审计的智能资源。


以前很多人使用 AI 的方式是:既然我买了,就尽量多用;既然最强模型效果最好,那就默认用最强模型。


但 Fable 5 这类模型正在提醒企业和开发者:最强模型不是免费的水电煤。


它是一种昂贵、稀缺、需要分配的能力。


二、Citadel 说的 Tokenomics,到底是什么意思


这几天,一份 Citadel Securities 的 “Tokenomics” 报告在华尔街广泛传播。


我没有看到完整公开版报告,但根据公开转述和 Citadel 相关公开文章,可以把它的核心意思压缩成一句话:


AI 采用的瓶颈,正在从“模型原则上能做什么”,转向“企业能不能负担每次真实任务的智能成本”。


过去大家看 AI,经常看模型能力曲线。


比如:


-它能不能写代码?


-能不能推理?


-能不能读长文?


-能不能做 agent?


-能不能替人完成一部分工作?


这些问题当然重要。


但当模型真的进入企业工作流之后,另一些问题会变得更重要:


-做到一次要多少钱?


-失败重试要多少钱?


-长上下文会烧掉多少 token?


-多轮 agent 会不会无限循环?


-工具调用失败后谁兜底?


-是不是每个任务都必须用最贵模型?


-账单能不能预测?


-合规风险能不能接受?


我会把 Tokenomics 的核心公式写成这样:AI 任务经济性 = token 单价 × token 消耗 × 重试率 × 模型路由组合 ÷ 真实业务产出。


注意,这里真正关键的不是“每百万 token 多少钱”。


而是“每完成一个成功任务,到底花了多少钱”。


一次客服工单。


一次代码合并。


一次销售线索判断。


一次法律合同审查。


一次财务报销审核。


一次代码迁移。


这些任务会包含上下文读取、计划、工具调用、检查、修改、重试、验证、人工复核。


这时,token 成本就不再是后台小数字,而是直接进入业务毛利、产品定价和企业预算。


三、企业不能再无限量试用


企业的心态也变了。


早期很多公司用 AI,更像创新预算:先试,先上,先让员工用起来。


今天越来越多企业开始问:这个东西进了生产系统以后,账怎么算?


Deloitte 给 CFO 的观点很典型:AI tokenomics 不只是技术成本,而会进入 P&L、资本配置、TCO、运营模式和风险管理。


CFO 不一定要盯每一个 token,但必须知道:AI 支出增长背后有没有清晰的价值链,是否对应明确业务场景。


Bain 的调研也能说明这种矛盾。


很多 CFO 仍计划提高 AI 支出,但很多企业实际获得的成本节省低于预期。也就是说,预算没有停,但“只要用了 AI 就一定降本”的叙事变弱了。


真实案例已经开始出现。


Uber 的 AI coding 工具预算快速超支。


Priceline 续约 Cursor 时成本大幅上升。


JPMorgan 有员工的 token 花费甚至高过工资。


这些案例说明企业要把 AI 纳入成本治理。


未来企业不会再简单给所有员工开最强模型,然后任由大家随便烧 token。


实际上,现在很多的企业都开始在实行一种策略:


不同岗位不同额度。


不同任务不同模型。


低风险任务走便宜模型。


高价值任务才升级到前沿模型。


敏感数据进入合规模型或私有部署。


长程 agent 设置预算上限。


每个任务都要有成本、成功率和人工兜底指标。


企业方的真实观点可以概括为一句:AI 必须用,但不能再按“无限云资源 + 无限上下文 + 无限试错”的方式用。


四、开发者不是反对强模型,而是反对不可预测


开发者可能是最愿意为强模型付费的一群人。


问题是,开发者需要稳定性和可预测性。


模型行为不能悄悄变。


默认 reasoning effort 不能今天 high、明天 medium。


system prompt 不能偷偷改,导致 coding quality 下降。


缓存策略不能出错,让模型忘掉之前的 thinking。


安全回退不能静默发生,让用户以为自己还在调用同一个能力水平的模型。


限额不能模糊。


账单不能失控。


这些并不是小抱怨。


对于开发者来说,AI coding agent 不是玩具,而是工作流的一部分。一个模型如果今天表现很好,明天突然变懒、变笨、变啰嗦、变得不敢做,开发者会立刻感受到。


Claude Code 之前的争议就说明了这一点。


Anthropic 自己在 postmortem 中承认,质量问题来自几类变化:默认 reasoning effort 从 high 降到 medium、缓存优化错误、减少 verbosity 的 system prompt 伤害了 coding quality。


这件事本质上就是 token economics。


更高 reasoning effort 通常意味着更高 token 使用、更高延迟、更高成本。


厂商想控成本。


用户想要质量。


开发者想要稳定。


这三者之间天然有拉扯。


还有一个更具体的成本黑洞:agentic coding 的 token 消耗并不只发生在“写代码”那一步。


很多 token 会花在 review、test、retry、tool calling、修复、再验证上。


也就是说,真正贵的不是模型回答一次,而是 agent 在复杂工程里来回跑。


所以开发者真正要的不是“永远无脑用最贵模型”。


他们要的是三件事:


第一,模型行为稳定。


第二,账单可预测。


第三,限制透明。


开发者可以接受安全限制、预算上限、模型回退。


但不能接受“表面上还是同一个模型,实际上已经被降级、改写或隐性节流”。


五、模型厂商正在变成智能电网运营商


站在模型厂商角度,这件事更矛盾。


他们必须不断推出更强模型。


因为资本市场、开发者、企业客户都在问:你是不是还领先?


但他们又不能让所有用户无限调用最强模型。


因为前沿模型的推理成本、数据中心压力、安全成本和合规成本都是真实存在的。


所以模型厂商正在做一件事:


把智能拆成不同服务等级。


OpenAI 的价格阶梯、cached input、Batch API、Flex processing,本质上都是这种趋势。


Anthropic 的 usage credits、effort control、task budgets、fallback,也是在做同一件事。


未来模型厂商会越来越像“智能电网运营商”。


它们不只是卖一种电。


它们会卖:


-高峰电。


-低谷电。


-缓存电。


-批处理电。


-高优先级电。


-低延迟电。


-合规专区电。


-前沿智能电。


-便宜日常电。


这听起来像比喻,但方向很真实。


未来企业买 AI,不会只买“一个最强模型”。


而是买一整套智能调度系统:


什么任务用便宜模型。


什么任务用中端模型。


什么任务升级到前沿模型。


什么时候用缓存。


什么时候批处理。


什么时候必须人工复核。


什么时候因为合规原因不能调用某个模型。


这就是 AI 模型产品的第二次产品化。


第一次产品化,是把模型能力包装成聊天框、API、copilot、agent。


第二次产品化,是把模型调用变成可预算、可审计、可路由、可降级、可缓存、可解释的生产系统。


六、投资者看到:估值锚变化


从投资角度看,Tokenomics 也不等于“AI 没戏了”。


更准确地说,是 AI 估值逻辑正在变化。


过去市场更愿意为能力突破买单。


谁模型强,谁叙事强。


谁训练规模大,谁融资顺。


谁发布新 benchmark,谁获得市场关注。


但接下来,投资者会越来越多问:


-收入能否覆盖推理成本?


-应用层毛利会不会被模型成本吃掉?


-客户是否愿意为 AI 成果付费,而不是只为 seat 付费?


-模型降价会不会导致收入增长和利润率拉扯?


-数据中心、电力、内存、GPU 需求是否真的能被终端需求消化?


-agent 是否带来 5–30 倍 token 消耗?


这并不是看空 AI。


而是从“能力叙事”进入“单位经济模型叙事”。


J.P. Morgan Asset Management 的态度更像中性偏乐观:AI 交易会更波动,市场担心可持续性,但大规模 capex 仍由采用率和工作负载增长支撑。


Gartner 的判断也能把两边连起来:未来单 token 推理成本可能大幅下降,但 agentic models 每个任务消耗的 token 也可能远高于普通 chatbot。


这就是关键矛盾:


token 单价下降,不代表 intelligence 总成本下降。


因为当 AI 真正进入生产系统后,使用量会暴涨,任务会变复杂,agent 会多步执行,模型会反复验证,企业会要求更高可靠性。


单价下降,可能被总量增长吃掉。


所以投资者会更挑剔。


算力、电力、内存、数据中心仍然有长期需求。


但应用层公司如果把昂贵模型成本内嵌进产品,又无法把成本转嫁给客户,毛利率会受到压力。


模型公司如果靠降价抢客户,也会在收入增长和利润率之间拉扯。


赢家不会只是“模型最强”的公司。


赢家会是能把模型能力变成可控成本、可衡量产出、可持续毛利的公司。



七、未来主流架构:三层模型,而非一个模型打天下


我认为未来 1–3 年,最主流的 AI 产品架构会变成三层。


层级负责什么典型任务
便宜模型日常吞吐分类、摘要、格式转换、简单问答、低风险客服
中端模型大多数生产工作代码补全、文档分析、常规 agent、销售运营任务
前沿模型高价值疑难任务复杂代码迁移、深度研究、法律尽调、金融分析、关键验证


这个架构的核心,是任务分层。


不是所有任务都值得调用最强模型。


不是所有任务都能交给便宜模型。


真正有价值的是中间那层调度系统:


-router。


-evaluator。


-memory。


-budget manager。


-governance layer。


它决定一个任务先用哪个模型,什么时候升级,什么时候停止,什么时候人工接管,什么时候缓存,什么时候因为合规原因换模型。


未来很多 AI 产品的核心竞争力,不会只体现在“用了哪个模型”。


而会体现在:


它能不能把任务切得足够细。


能不能判断任务难度。


能不能估算成本。


能不能控制失败重试。


能不能把前沿模型留给真正值得的地方。


能不能让用户感觉稳定,而不是每天像抽盲盒。


八、模型价格会让位于任务价格


今天模型厂商主要按 token 定价。


每百万 input tokens 多少钱。


每百万 output tokens 多少钱。


但企业真正想买的,不是 token。


企业想买的是结果。


一张客服工单解决多少钱?


一个 PR 合并多少钱?


一次代码迁移多少钱?


一份合规报告多少钱?


一次销售线索判断多少钱?


每降低 1% churn 要花多少 inference?


这意味着未来 AI 产品会越来越强调 task-level telemetry。


也就是任务级监控:


-cost per resolved ticket。


-cost per accepted PR。


-tokens per successful workflow。


-retry rate。


-fallback rate。


-human-review rate。


-frontier-model usage share。


这套指标会从工程团队内部工具,变成企业采购、CFO、FinOps、业务负责人共同关心的问题。


Linux Foundation 拟成立 Tokenomics Foundation,也说明这件事正在制度化。


token 支出不再只是开发者吐槽账单。


它会变成 AI 基础设施的标准化问题。


九、预算优先,会成为开发者工具的新范式


未来 coding agent 或企业 agent 里,会出现越来越明确的预算控制项。


比如:这个任务最多花 3 美元。


先用 cheap mode,失败再升级。


最多跑 8 次 tool call。


review 阶段最多消耗 20k tokens。


只在 CI failure 后调用高阶模型。


把 reasoning effort 显示出来,不要偷偷改默认值。


这个方向很重要。


过去开发者工具强调的是“能力优先”。


能不能写代码?


能不能理解项目?


能不能自动修 bug?


未来会变成“能力 + 预算 + 可预测性”一起看。


一个 agent 即使很强,如果它每次跑起来都不知道会花多少钱、会跑多久、会不会降级、会不会静默回退,企业也不敢大规模铺开。


因此,未来的好 AI 工具不会只说:


我能完成任务。


它还必须告诉你:


我准备用什么模型完成。


预计花多少钱。


最多花多少钱。


失败后怎么升级。


什么时候需要你确认。


哪些数据会被保留。


哪些动作会被审计。


这才是 production AI 应该有的样子。


十、小模型和私有部署会重新升值


Tokenomics 还会带来另一个结果:


小模型、专用模型、开源模型、私有部署会重新升值。


经济学原因。


高频、低复杂度、低风险任务,不值得每次都调用前沿模型。


企业内部大量任务其实不需要 Fable 5 或 GPT-5.5 级别能力。


它们需要的是:


稳定。


便宜。


低延迟。


可控。


可部署在私有环境。


能接企业内部系统。


这会让很多基础技术变得更重要:


RAG。


知识图谱。


prompt caching。


context compression。


fine-tuning。


distillation。


quantization。


speculative decoding。


KV cache 优化。


多模型路由。


私有化部署。


这些东西听起来不如“最强模型发布”性感。


但它们会决定 AI 能不能进入企业利润表。


十一、AI进入了筛选期


AI 能力扩张还会继续。


模型还会变强。


上下文还会变长。


agent 还会变得更能做事。


但“无纪律地调用最贵智能”的时代正在结束。


未来的赢家,是能把智能拆成不同价格、不同风险、不同延迟、不同可信度层级,并把它们编排进真实业务结果的公司。


所以我对未来模型发展的预言是:


模型会继续变强,但默认使用会变便宜;前沿智能会更稀缺、更受控、更高价;日常智能会更普及、更本地化、更自动路由;真正的竞争核心,会从“谁有最强模型”,转向“谁能用最经济的智能组合,完成最多真实任务”。


这就是 Tokenomics 这条线真正重要的地方。


AI 已经重要到必须进入成本表、预算表、治理表和业务结果表。


当一个技术开始被严肃算账,它才真正进入生产时代。


本文来自微信公众号:AIGC从0到1,作者:王零壹(港大AIBT研究生,ex上市公司CMO,《AIGC从0到1》作者,中文互联网第1个意识到OpenClaw价值的人,专注AI时代的商业模式与产品架构,主张"用AI,不AI"。“AIGC从0到1”由<范式><范性><范本>组成,是浪潮中的真实记录)

本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。