小龙虾引发了Token荒-虎嗅网

本文来自微信公众号：特大号，作者：特大明白，原文标题：《小龙虾引发了Token荒！》

上周，来自大模型第一股智谱的一则退款公告，在圈里引起热议。

因为算力紧张、体验不佳，智谱选择给Coding Plan用户限时退款。

有小伙伴开始吐槽智谱不靠谱，其实智谱这个情况不是个案。

最近各大模型服务商都在悄悄调整自家的Coding Plan策略：

有人限购，有人停售，有人直接不开，还有人悄悄更改了套餐配额。

这究竟是为啥？

只因以小龙虾为代表的智能体，烧tokens太凶引发算力荒，服务费们卖包月卖不起了。

小龙虾们有多凶？甚至，你早上只是跟小龙虾说句「你好」，它就烧了大把Tokens。

为啥小龙虾们

烧起tokens来这么凶

按人类思维来讲，我说一句：How r u?小龙虾回一句:I'm fine。最多再来个：thank you，and you？

整个过程，就应该这么简单和直接，看着也就十几个字节。

但是，小龙虾这类智能体的工作原理非常不同，它们干起活来极度内耗。

01/固定「起步价」就很高

普通AI聊天工具起步价基本是0️⃣，小龙虾起步就10块。

你发给它的只有“你好”两个字，但它发给底层模型的，远远不止两个字。

小龙虾要先给大模型发的是本轮system prompt，好比是小龙虾的岗位说明书。

这岗位说明书，就是第一笔基础开销，起手先吃掉一大截tokens。

02/工具本身也要占Tokens

OpenClaw不仅要把「可用工具名称」告诉模型，还要把工具的JSON schema一起发过去，这样模型才能知道怎么调用。

所以，工具有两层成本：工具列表文本+工具schema，而且schema也计入上下文。

03/Skills列表也有额外开销

即便还没真正调用某个skill，系统提示词里也会先带一份紧凑版技能清单，告诉模型「有哪些技能，各自干什么」。

这又是一笔tokens开销。

工具箱已经不轻了，再背一本员工上岗手册，token不高才怪。

04/历史对话会反复重带

早上起来问了一句你好，但模型模型看到却是“你好+昨天你和我整段聊天历史”。

会话越长，每次新消息就越贵，大多数情况下，模型每次处理新消息，都要把前面的对话历史重新带一遍。

即便你做了压缩和剪裁，仍然要付出相当大的成本。

当你偶尔为小龙虾优秀的举一反三点赞，其实也在为tokens买单。

05/前序工具输出还会占据窗口

第五笔大头，是旧资料的输出可能一直挂在窗口里，这是隐形大胃王。

如果前面读过网页、文件、日志、终端输出，这些工具调用的结果和附件也都算上下文。

05/加载记忆文件，也要付出代价

你可能经常为小龙虾失忆烦恼，会在MEMORY.md文件上大费周章。

Memory不是免费外挂，它平时可以存在磁盘里，但只要本轮需要把记忆重新加载进模型窗口，它就会重新占用你的tokens。

除此之外，还有比如智能体会调用多个子智能体组团烧Token，或者你选的模型不够聪明，走弯路额外多烧Token，还有很多Skills还要调用额外的模型API等等。

智能体的工作流就是这种套路，大力出奇迹，肝就一个字，哪怕用户输入很短，系统内部也可能触发多步思考和多次模型调用。

它先把你的消息标准化、路由到当前session。

然后拼一份系统提示，把工具、技能、工作区文件、身份、时间、运行元数据都塞进去。

再把整个会话历史、之前的工具结果、附件和摘要一起带上。

接下来所有工具schema一起发给模型。

模型收到后，还要先判断这句“你好”到底只是寒暄，还是一个任务开始信号。

如果你之前有很长的会话，它还可能读到缓存里的整段大上下文。

所以，你发一句“Thank you”，它会摆开架势，大马金刀的走完整套运行链路。

等他一顿操作猛如虎的🔥完tokens，慢吞吞的回复你：谢谢夸奖，主人。

不要以为只有小龙虾这么肝，刚刚新蹿红的Hermes也一样。

所以，当我们使用这类智能体，应该养成一些好的习惯↓

①少跟龙虾寒暄，培养感情没用，把它当成喂不熟的狗，直接下命令。

②尽量精准完整的提示词，一次把任务说清楚。

③大日志、大代码库、大文档别图省事整个投喂。

④控制输出长度，明确回复的篇幅，减少废话。

⑤不要在一个Session里干到天荒地老，注意不同任务切换会话。

⑥没用的工具和Skills别整太多，不好用的测完及时删除。

⑦尽量选择更聪明的模型，少跑弯路，有些时候，便宜就是贵。

⑧有些免费AI聊天助手就能干的活（比如单步任务：P个图、翻译个文档），就别麻烦小龙虾了，浪费了Tokens效果还不好。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

小龙虾引发了Token荒