扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
近期,以智谱为代表的AI服务商纷纷调整或停止其编程套餐,其核心原因在于以“小龙虾”为代表的AI智能体消耗了惊人的Token量,导致服务商算力成本激增,难以维持原有的包月服务模式。 ## 01/ 智能体引发“Token荒”的行业现象 上周,大模型第一股智谱因其算力紧张、体验不佳,宣布为Coding Plan用户提供限时退款。这并非个例,其他服务商也纷纷采取限购、停售或更改套餐配额等策略,其根本原因是以“小龙虾”为代表的AI智能体过度消耗Token,引发了算力危机。 ## 02/ 智能体为何如此“烧Token”? 你的一句简单问候“你好”,智能体内部却要执行一套复杂且高消耗的流程,其Token“起步价”就高达普通AI聊天工具的十倍。 ### 高昂的固定“起步价” 用户输入“你好”仅两个字,但智能体发给底层模型的“岗位说明书”(system prompt)却是一大段文本,这是第一笔基础开销。 ### 工具与Schema的成本 智能体(如OpenClaw)不仅需要告知模型可用工具名称,还需传递工具的JSON schema以便调用,工具列表和schema文本均计入上下文成本。 ### Skills清单的额外开销 即便未调用技能,系统提示词中也会包含一份紧凑版技能清单,告诉模型“有哪些技能,各自干什么”,这又是一笔Token开销。 ### 历史对话的反复加载 模型处理新消息时,通常需要重新加载整个对话历史,会话越长,每次交互的成本就越高。 ### 旧工具输出的“内存驻留” 之前工具调用产生的结果(如网页内容、文件、日志)会一直保留在上下文窗口中,成为隐形的Token消耗大户。 ### 记忆文件的加载代价 用户为弥补智能体“失忆”而维护的MEMORY.md文件,在需要被重新加载进会话时,也会占用大量Tokens。 ## 03/ 智能体的工作流本质:大力出奇迹 智能体的工作模式是“大力出奇迹”,即便面对简短输入,其内部也可能触发多步思考和多次模型调用。它会将你的消息标准化,并拼凑包含工具、技能、历史记录等庞大信息的系统提示词,导致回复一句“Thank you”也需要走完一整套高消耗的运行链路。 ## 04/ 高效使用智能体的实用建议 为节约Token并提升效率,用户应调整使用习惯: 1. 减少无效寒暄,直接下达明确指令。 2. 尽量一次性提供精准、完整的任务描述。 3. 避免直接投喂大型日志、代码库或文档。 4. 控制输出长度,明确要求回复篇幅。 5. 不同任务间及时切换会话,避免单次会话过长。 6. 精简工具和Skills,删除不常用或无效的功能。 7. 优先选择更聪明的模型,减少因模型“走弯路”产生的额外消耗。 8. 简单任务使用免费AI聊天助手即可,无需动用高消耗的智能体。
2026-04-20 16:50

小龙虾引发了Token荒

本文来自微信公众号: 特大号 ,作者:特大明白,原文标题:《小龙虾引发了Token荒!》


上周,来自大模型第一股智谱的一则退款公告,在圈里引起热议。


因为算力紧张、体验不佳,智谱选择给Coding Plan用户限时退款。



有小伙伴开始吐槽智谱不靠谱,其实智谱这个情况不是个案。


最近各大模型服务商都在悄悄调整自家的Coding Plan策略:


有人限购,有人停售,有人直接不开,还有人悄悄更改了套餐配额。


这究竟是为啥?


只因以小龙虾为代表的智能体,烧tokens太凶引发算力荒,服务费们卖包月卖不起了。


小龙虾们有多凶?甚至,你早上只是跟小龙虾说句「你好」,它就烧了大把Tokens。


为啥小龙虾们


烧起tokens来这么凶


按人类思维来讲,我说一句:How r u?小龙虾回一句:I'm fine。最多再来个:thank you,and you?


整个过程,就应该这么简单和直接,看着也就十几个字节。


但是,小龙虾这类智能体的工作原理非常不同,它们干起活来极度内耗。



01/固定「起步价」就很高


普通AI聊天工具起步价基本是0️⃣,小龙虾起步就10块。


你发给它的只有“你好”两个字,但它发给底层模型的,远远不止两个字。


小龙虾要先给大模型发的是本轮system prompt,好比是小龙虾的岗位说明书。



这岗位说明书,就是第一笔基础开销,起手先吃掉一大截tokens。


02/工具本身也要占Tokens


OpenClaw不仅要把「可用工具名称」告诉模型,还要把工具的JSON schema一起发过去,这样模型才能知道怎么调用。


所以,工具有两层成本:工具列表文本+工具schema,而且schema也计入上下文。


03/Skills列表也有额外开销


即便还没真正调用某个skill,系统提示词里也会先带一份紧凑版技能清单,告诉模型「有哪些技能,各自干什么」。


这又是一笔tokens开销。


工具箱已经不轻了,再背一本员工上岗手册,token不高才怪。


04/历史对话会反复重带


早上起来问了一句你好,但模型模型看到却是“你好+昨天你和我整段聊天历史”。


会话越长,每次新消息就越贵,大多数情况下,模型每次处理新消息,都要把前面的对话历史重新带一遍。


即便你做了压缩和剪裁,仍然要付出相当大的成本。


当你偶尔为小龙虾优秀的举一反三点赞,其实也在为tokens买单。


05/前序工具输出还会占据窗口


第五笔大头,是旧资料的输出可能一直挂在窗口里,这是隐形大胃王。


如果前面读过网页、文件、日志、终端输出,这些工具调用的结果和附件也都算上下文。



05/加载记忆文件,也要付出代价


你可能经常为小龙虾失忆烦恼,会在MEMORY.md文件上大费周章。


Memory不是免费外挂,它平时可以存在磁盘里,但只要本轮需要把记忆重新加载进模型窗口,它就会重新占用你的tokens。


除此之外,还有比如智能体会调用多个子智能体组团烧Token,或者你选的模型不够聪明,走弯路额外多烧Token,还有很多Skills还要调用额外的模型API等等。


智能体的工作流就是这种套路,大力出奇迹,肝就一个字,哪怕用户输入很短,系统内部也可能触发多步思考和多次模型调用。


它先把你的消息标准化、路由到当前session。


然后拼一份系统提示,把工具、技能、工作区文件、身份、时间、运行元数据都塞进去。


再把整个会话历史、之前的工具结果、附件和摘要一起带上。


接下来所有工具schema一起发给模型。


模型收到后,还要先判断这句“你好”到底只是寒暄,还是一个任务开始信号。


如果你之前有很长的会话,它还可能读到缓存里的整段大上下文。


所以,你发一句“Thank you”,它会摆开架势,大马金刀的走完整套运行链路。


等他一顿操作猛如虎的🔥完tokens,慢吞吞的回复你:谢谢夸奖,主人。


不要以为只有小龙虾这么肝,刚刚新蹿红的Hermes也一样。


所以,当我们使用这类智能体,应该养成一些好的习惯↓


①少跟龙虾寒暄,培养感情没用,把它当成喂不熟的狗,直接下命令。


②尽量精准完整的提示词,一次把任务说清楚。


③大日志、大代码库、大文档别图省事整个投喂。


④控制输出长度,明确回复的篇幅,减少废话。


⑤不要在一个Session里干到天荒地老,注意不同任务切换会话。


⑥没用的工具和Skills别整太多,不好用的测完及时删除。


⑦尽量选择更聪明的模型,少跑弯路,有些时候,便宜就是贵。


⑧有些免费AI聊天助手就能干的活(比如单步任务:P个图、翻译个文档),就别麻烦小龙虾了,浪费了Tokens效果还不好。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

大 家 都 在 搜