扫码打开虎嗅APP
本文来自微信公众号: AI前线 ,作者:褚杏娟
终于有高管站出来,用自己的实际经验直接质疑tokenmaxxing成本问题了。
Uber运营负责人Andrew Macdonald在近期的访谈中直接表示,公司内部越来越难证明AI tokenmaxxing成本是合理的。
此前,Uber首席技术官Praveen Neppalli Naga曾在4月份时透露,Uber已经提前用完了2026年的Claude Code预算。这番话随后在网上引发热议。Macdonald形容自己那一刻像是“脑袋炸开了”,公司内部也开启了一场关于token消耗的讨论,以及这种消耗所带来的取舍,比如是否会影响员工人数。
根据与Uber高级工程管理层的交流,Macdonald意识到:更高的token使用量,并没有转化为同等比例的、有用的消费者功能增长。
“这中间的联系还没有建立起来,对吧?”他说道,“我觉得也许从隐性层面看,确实有更多东西被交付出来了,但很难在这些数据和‘好,现在我们真的多产出了25%的有用消费者功能’之间画出一条清晰的线。”
Macdonald表示,由于无法建立直接联系,AI带来的取舍成本就更难被合理化。需要注意的是,本月早些时候,Uber CEO Dara Khosrowshahi在财报电话会上表示,为了对冲AI投入,公司正在放缓招聘。
Macdonald补充称,如果你只是“坐在那里想各种有趣用例的用户”,而且不用自己付钱,AI看起来确实像是免费的。但最终,账单是由公司来买单。
对于大公司来说,不用“Tokenmaxxing”,日常一次尝试就很烧钱了。
5月20日,《崩坏》系列AI NPC&Gameplay技术团队负责人郑银河在2026阿里云峰会上无意透露了内部对agent尝试的成本:有员工为了实现项目,建了几十个Agent共同协作,结果一晚上烧了价值200万人民币的Token。
“我们接受在探索AI时有成本、有学费,这也帮助更完善我们的Agent平台。”话虽如此,但有网友指出,这200万人民币的价值似乎并没有显著体现出来。
而这种“豪气”并非每个公司都能负担得起。就像有网友打趣道:“一单648才半个多金,两百万不过是三个全65氪佬养服的钱。”
值得注意的是,5月15日,米哈游联合创始人刘伟曾在外部活动中表示,未来三年,最多投入1000亿元以深耕AI领域。他坦言,“就算最终不成功,没做出来,也认了,就当放一场大烟花。”
“我们作为一个‘all in ai’口号的公司,在某一天用了十万块钱的token后,封掉了所有人的API。”有网友对此评论道。
当大型科技公司还在大力推进所谓的“tokenmaxxing”时,一些公司已经开始往相反方向调整。
例如,多邻国此前曾决定把AI使用情况纳入绩效评估,但在员工提出疑问“他们是否只是为了使用AI而不得不用AI”后,公司撤回了这一做法。
多邻国CEO Luis von Ahn在4月的一期播客访谈中曾说道:
“多邻国确实曾把AI使用情况纳入绩效考核,但后来我们取消了。我给公司发过内部备忘录,说明绩效考核会包含AI使用情况,结果发现员工们会疑惑,“是不是为了用AI而用AI?”。最后我们收回了这个要求,因为绩效考核最重要的是把本职工作做到最好,AI很多时候能帮上忙,但没必要强制使用。我们不想让大家为了迎合形式而忽略实际工作成果,有些场景AI本身就不适用。”
还有像Shopify这样的公司开始想办法阻止失控的token消耗。
Shopify是较早尝试Token排行榜的公司之一。其工程负责人Farhan Thawar曾表示,公司会表扬使用Token最多的人,因为他们可能正在用AI做出有价值的工作。例如,一个月在Cursor上花费1000美元的开发者,可能背后已经建立了一支Agent员工队伍。
但Shopify后来将“Token排行榜”改名为“使用情况仪表盘”。原因是,公司不希望鼓励员工为了冲榜而竞争。Token花费仍会展示在内部个人资料页和使用仪表盘中,但重点从“排名”转向“理解使用情况”。
Shopify还设置了“熔断机制”。如果某个员工的个人花费在一天内突然激增,公司可以立刻切断访问权限。如果这次激增是有意为之,或确实是Agent失控,员工可以申请恢复。
Farhan表示,这套机制不仅帮助公司发现了失控Agent,也暴露出了基础设施中的bug。更重要的是,Shopify会关注高Token使用者到底在做什么。高支出员工会被询问具体使用场景,如果有人只是单纯刷Token,很可能会在这一过程中暴露出来。
Farhan还提出一个更有价值的角度:与其只看“谁花的钱最多”,不如看“谁生成的Token最贵”。一些高成本Token背后,往往对应更深入、更复杂的开发工作,这比单纯的总量排名更有参考价值。
Tokenmaxxing的本质是把企业内部AI使用从“按需调用”变成“鼓励消耗”。只要企业把token使用量当成先进性指标,模型厂商就获得了一个近乎完美的增长飞轮。
Tokenmaxxing最直接的受益方,是OpenAI、Anthropic、Google、xAI等基础模型厂商。
因为token本身就是模型调用的计费单位。企业一旦把token使用量变成内部排行榜或绩效信号,员工就会从“按需调用AI”转向“主动制造AI使用量”。这会直接放大模型API调用、企业订阅和推理收入。
Meta的案例最能说明这一点。Meta员工在30天内消耗了60.2万亿个AI token,如果按照Anthropic API价格计算,这笔成本可能高达9亿美元;即便Meta能拿到折扣,成本也可能超过1亿美元。
这意味着,Tokenmaxxing一旦在大型企业内部规模化,就不再是普通工具开销,而是上亿美元级别的推理账单。
Anthropic的收入增长也能反映这种趋势。Reuters最新报道称,Anthropic预计2026年第二季度销售额将超过109亿美元,高于第一季度的48亿美元,并有望实现5.59亿美元经营利润。此前报道,Anthropic的Claude Code在推出当年就接近10亿美元年化收入。
也就是说,对模型厂商而言,Tokenmaxxing本质上是在把企业内部焦虑转化为API收入。当然,这不意味着模型公司没有算力压力,但Tokenmaxxing至少给了他们很可观的收入。
第二类赢家,是Cursor、Claude Code、Windsurf、Replit、Lovable等AI编程工具和Agent平台。比如,Cursor背后的Anysphere在2025年11月完成新一轮融资,估值接近300亿美元;公司称其年化收入已经超过10亿美元,销售驱动收入自2025年初以来增长了100倍。
但这不代表AI工具类公司就能盈利。据外媒报道,Cursor、Windsurf等公司增长迅速、估值高企,但许多公司尚未盈利,原因之一是它们依赖Anthropic等基础模型,推理成本很高;一些公司因此开始训练自有模型,以降低成本和增强控制力。
所以,AI编程工具只能说是Tokenmaxxing的流量赢家和估值赢家,还不一定都是利润赢家。
Tokenmaxxing底层烧的是算力,最大的赢家还是英伟达、云厂商、GPU云服务商以及AI基础设施公司。
典型如英伟达,其财务数据已经体现了这种趋势。英伟达在2026财年(截至2026年1月)全年收入达2159亿美元,同比增长65%;第四财季收入681亿美元,同比增长73%。随后,在2026年4月结束的2027财年第一季度,收入进一步达到816亿美元,同比增长85%,其中数据中心业务和网络硬件是核心驱动力,网络销售额达到148亿美元、同比增长约三倍。
云和推理基础设施创业公司同样受益。AI基础架构新创公司Modal Labs在最新一轮融资后估值达到46.5亿美元,年化收入从去年9月的6000万美元增长到3亿美元。它的业务正好踩中两个趋势:AI coding需求暴涨和算力资源越来越稀缺。
而这场浪潮中,最大的输家还是那些无法把token消耗转化为资产、但还盲目追风的企业。
回头看,这场硅谷“token消耗战”中已经浪费了不少token,“上头”的更多还是有钱的大厂们。
多位Meta工程师表示,内部正在出现大量无意义的AI使用。一些开发者运行类似OpenClaw的内部Agent,消耗海量Token,却几乎没有产生有效成果。还有开发者提到,部分SEV线上事故疑似与粗心的AI代码生成有关:开发者更关注用AI快速产出大量代码,而不是产品质量本身。
更具争议的是,排行榜让Token使用变成了游戏化竞争。排在榜首的员工,未必做出了更有价值的工作,反而可能制造了大量一次性、可丢弃的代码和提示词记录。内部人员查看AI提示词轨迹后,可以清楚看到其中许多工作并没有实际意义。
在社交媒体上出现舆论反弹,以及外媒披露相关数据后,Meta下线了该排行榜。
微软、OpenAI、Anthropic等内部也存在类似的Token使用仪表盘。早期来看,这一机制确实推动了AI工具实验,但问题也随之出现:当Token使用量与绩效评价、晋升信号、AI原生程度挂钩后,它就不再只是一个观察指标,而会变成员工刻意追逐的目标。
有微软工程师承认,自己会主动进行Tokenmaxxing,不是为了冲榜,而是担心被认为“AI用得太少”。他会向AI提问文档里已经写明的问题;让AI生成自己根本不会开发的功能原型;即使明知道手写更快,也默认使用Agent,然后看着它失败。
这位工程师入职时间不长,对职业安全感较为敏感,因此选择通过消耗更多Token来证明自己是“够AI原生”的员工。
Salesforce的做法更激进,直接让员工之间对比token消耗。
根据一名内部工程师的说法,公司推出了两个工具:一个是Mac小组件,每15分钟更新一次个人花费,同时显示最低预期花费,曾有周Claude Code的目标是100美元,Cursor的目标是70美元;另一个是网页工具,可以查看任意同事的Token花费情况。
Salesforce还设置了Claude Code 250美元/每月、Cursor 170美元/每月的最高花费限制,但这一限制可以通过简单点击按钮接触。部分工程组织甚至移除了最高限制,理由是“消除开发流程中的任何摩擦”。
这传递给员工的信号很明确:每月至少要使用约170美元Token,否则可能被认为AI使用不足。
结果,员工开始为了达到最低线或略高于平均水平而主动燃烧Token。一些开发者会让Claude或Cursor生成与工作无关、也不会真正交付的项目;另一些人则查看同事的花费,计算出“略高于平均值”的安全区间,再把自己的Token用量刷到那个位置。
然而,这个风气并未停止。YC正在把“Tokenmaxxing”从硅谷流行词推向创业公司方法论。
在最新一期《Startup School》中,合伙人Diana Hu向创业者提出,打造AI原生公司的关键转变,不是继续扩大员工规模,而是最大化AI token使用量。她直言:“最大化token使用,而不是最大化员工人数,将成为关键转变。最优秀的公司,会是那些tokenmaxxing的公司。”
Hu认为,AI正在改变创业公司的成本结构。过去一家前AI时代公司需要一支大型工程团队完成的工作,如今一个熟练使用AI工具的人就可能完成。她表示,这意味着工程、设计、人力资源和行政团队都可以变得更精简。
她进一步建议,创业者应当愿意承受“高到令人不舒服的API账单”,因为这笔支出替代的,是过去更昂贵、更臃肿的人力成本。这意味着,在YC的新创业观里,高额token账单不一定是浪费,反而可能是公司用AI替代组织膨胀的信号。
不过,这套建议是否真的适合早期创业公司呢?
如之前所说的,这些已经有不错用户的基础的AI编程公司都未能盈利,那新的创业公司在tokenmaxxing之后的成本又该如何负担呢?难道真要把股权“贱卖”给Altman,换200万美元的token先烧一个半月再说?
无限量、无治理、不可转嫁的token消耗,是会拖垮这些创业公司的。
Tokenmaxxing的本质,一定程度上,也是企业在AI转型焦虑下,把“消耗”误当成了“生产力”。
它把token使用量包装成AI原生程度,把AI原生程度包装成组织先进性。在更多token是否带来了更快交付、更少bug、更低事故率、更高收入和更可复用的能力等没有数据验证下,就无脑鼓励无尽烧token,更像是在缴纳一笔昂贵的“转型焦虑税”。
参考链接:
https://www.businessinsider.com/uber-coo-andrew-macdonald-ai-token-spending-harder-justify-2026-5
https://mp.weixin.qq.com/s/Xvoh9hGnqe7rJ_ns5tRwBQ
https://mp.weixin.qq.com/s/JaGOyQ20UOTKkrXkJ2AXBw
https://blog.pragmaticengineer.com/the-pulse-tokenmaxxing-as-a-weird-new-trend/?utm_source=chatgpt.com