OpenClaw一周烧掉我14亿Token后，我总结了这10条血泪教训-虎嗅网

本文来自微信公众号：Draco正在VibeCoding，原文：I Burned 1.4B Codex Tokens in a Week Running OpenClaw. Here's What I'd Tell Myself on Day One.，日期：20 Feb 2026，原文作者：作者：legendaryy，作者：DracoVibeCoding，题图来自：AI生成

一开始我以为，装个OpenClaw，丢给它几个任务，然后让它自己跑就完事了。演示视频里就是这么讲的。但前两周根本不是这么回事。

前两周简直就是“带娃”——盯着它烧token，看着它在同一个答案上循环八次，看着Codex任务在那儿空转。我布置个任务，走开一会儿，回来发现它要么只做了一件事就罢工了，要么陷入和自己关于用tab还是space的无限对话里。

经过大量试错，现在它终于能稳定运行，真的在干正事了。从“这玩意儿就是个玩具”到“我睡觉的时候它把功能都上线了”，这个差距是真实存在的。关键就在于，你得停止把它当聊天机器人，开始把它当基础设施来看待。

下面是真正起作用的东西。10个我想告诉每个今天刚开始的人的事。

一、模型路由决定一切（别用Opus去跑心跳）

这是最关键的决策，也是我14亿token主要烧在哪儿的原因。我把所有东西都往Opus或Codex上怼——心跳、定时检查、状态ping、普通聊天，全都在用最贵的模型。

这周开始，Sonnet 4.6是日常使用的最佳选择。刚发布，基本上有Opus级别的智商，但只需要五分之一的成本。输入/输出每百万token只要$3/$15美元，而Opus是15/75美元。它在OSWorld上得分72.5%，几乎追平Opus 4.6的72.7%。性格也很好。这是我用过最适合做agent工作的模型，质量够硬还不会让你大出血。

如果Sonnet的价格对你的配置来说还是太贵，那就降级到Kimi K2.5，通过OpenRouter调用。大约$0.60/$2美元每百万token，工具调用也很稳定。把Opus预算留到真正需要深度推理或长上下文作的时候。

设置一个分层配置。好模型做主引擎处理日常任务，强力模型做后备处理复杂工作。

你可以在聊天中用/model随时切换模型。需要Opus处理复杂任务？切换。回到常规工作？切回Sonnet。上面的配置会自动处理后备方案，如果主模型碰到速率限制的话。

二、不写Skill文件，你的agent就是个智障

刚开箱的时候，你的OpenClaw agent会做一些让人叹为观止的蠢事。在同一个失败的方法上循环六次。编辑它根本没资格碰的配置文件。跳过文档自己瞎编解决方案，结果把整个项目搞崩。模型是聪明的，agent行为不是。这是两回事。

解决办法是Skill文件。

这些文件放在你的workspace/skills/文件夹里，告诉agent具体该怎么表现。把它们想象成防止你的agent越野脱缰的护栏。

这是大多数人跳过的部分

你得自己写这些规则。没人知道你的技术栈、你的偏好，或者你的agent具体会以什么方式搞砸。你是在为一个能力很强但非常死板的员工写操作手册。没有它，你就只能祈祷。

让我错误率直接砍半的一条规则：做任何改动之前，先读文档。Agent喜欢即兴发挥，它们会硬刚那些文档里早就有的优雅解决方案。我做了个叫DocClaw的Skill，强制“先读再做”的工作流，在任何代码改动前必须有个侦察阶段。已经在ClawHub上了。

没有这些文件，你的agent干完一件事就卡住了。没有后续，没有迭代。只有一个昂贵的光标在凌晨3点等你告诉它该干嘛。

三、Soul.md是你的大脑，不是你的待办清单

构建 → 测试 → 记录 → 决策 → 循环

四、Todo.md = 自动扩展的任务清单

自扩展任务列表。

睡前给agent一个大任务。它会分解成子任务，工作时更新状态，发现后续工作时生成新任务。午夜的一个任务，到早上可能变成三四个。

五、ProgressLog.md = 你的晨间简报

每轮构建-测试循环都要记录。它试了什么，通过还是失败，学到了什么。边喝咖啡边打开这个，不用看会话记录就知道昨晚发生了什么。

六、Cron job > 长会话

你不能布置个任务就合上笔记本。会话只有在开着的时候才有状态。窗口一关，agent就全忘了。真正的后台工作需要定时任务，按计划唤醒agent。

我跑了三个定时任务：凌晨2点、4点、6点。每个都会唤醒agent，让它检查Todo.md里的剩余任务。有活就接着干，干完了就写个总结然后继续睡觉。

在这些定时任务之前，agent会在任务中途卡住，然后闲置几小时直到我注意到。定时任务就像闹钟。最坏情况下，它闲置两小时就会被戳醒继续干活。

七、文件就是记忆

长会话会被压缩。这意味着你的agent会悄悄丢失上下文。它之前做的决策、跟踪的状态、已经搞清楚的东西，全没了。然后它从头开始重新推导一遍，烧token做已经做过的工作，有时候第二次还会得出不同结论。

解决办法是把所有重要的东西都写到workspace的markdown文件里。想象一下，就像给一个每天早上失忆的员工写入职文档。你写得越多，它需要从头搞清楚的就越少。

八、模型质量 ≠ Agent质量

大部分挫败感不是来自OpenClaw，而是来自那些不会调工具的模型。聊天质量和agent质量是完全不同的两件事。一个模型能写诗，但在需要调用函数、解析结果、决定下一步做什么的时候可能直接卡死。

这是我从实际使用中发现的东西，都是2026年2月中旬的最新数据：

我的日常配置：Sonnet 4.6作为OpenClaw的日常主力。刚发布，基本上是Opus级别的办公任务能力，但只需要五分之一的价格。OSWorld上72.5%，几乎追平Opus 4.6的72.7%。目前做agent工作性价比最高的模型。

Opus 4.6留给需要严肃推理或长上下文的工作。100万token上下文窗口。最强大脑，只是你不想让心跳任务跑在上面。

GPT-5.3-Codex专门用来写代码。比5.2快25%，在SWE-Bench Pro和Terminal-Bench 2.0上都是最顶尖的。我在Codex app/CLI里用它做开发工作，和OpenClaw运维分开。

Agent苦力活的预算模型：Kimi K2.5通过OpenRouter或NVIDIA调用依然便宜得离谱。MiniMax M2.5是预算之王：SWE-Bench上80.2%，开源，MIT协议，输入每百万token只要0.30美元。GLM-5做重推理任务很稳。这三个工具调用都很可靠，这才是agent工作最重要的。

九、一次只加一个新集成

别试图一次性把邮件+日历+Telegram+网页爬虫+定时任务全配上。每个集成都是一个独立的故障点。每个渠道都是一个新的出错表面。

我从一个简单的晨间简报定时任务开始。稳定跑了一周后，才加下一个。然后再下一个。每个都搞稳了再往前走。出问题了就跑openclaw doctor --fix。

专业提示：一旦某个工作流稳定了，让你的agent学习它。让它读Skill文件、定时任务配置、成功运行的日志。当它理解你这套配置的“正常状态”是什么样子后，它会更擅长保持系统运行，在问题级联之前发现它们。

十、分开你的Dev和Ops Agent

Codex / Claude Code 做开发写代码、调试、上线功能。

有时候Codex会卡住。换Claude。有时候反过来。不同工作用不同模型。都指向一个有干净git结构的私有GitHub仓库。Agent在组织良好的代码里很擅长识别模式。

OpenClaw 做运维监控、调度、通信、自动化。

定时任务、心跳、消息路由、任务管理。把开发和运维分开，这样它们不会互相污染上下文。

关于记忆系统的补充

最好的agent是不会每次会话都从零开始的。OpenClaw有内置的向量记忆：openclaw memory status和openclaw memory search。还有Claw Vault和Supermemory可以做更高级的设置。

我自己在搭一个记忆系统（Gigabrain），目前已经索引了911+条记忆。每次对话、每个决策、每个偏好都被存储并可搜索。Agent记得上次什么有效、什么坏了、我喜欢什么。这个上下文让一切都更快更可靠。

关键洞察：透明度和可审计性比单纯的回忆更重要。你得能看到agent“知道”关于你和项目的什么。否则你就是在信任一个有shell访问权限的黑盒子。

关于安全的补充

OpenClaw出过真实的安全事故。多个CVE，包括一个CVSS 8.8的远程代码执行漏洞，Bitsight和Censys的扫描团队发现了超过3万个暴露实例，ClawHub还有大规模的供应链投毒活动。你的agent有shell访问权限、浏览器控制权，还能以你的名义发消息。在循环里运行。不需要问你就执行。

安全审计会标记暴露的网关认证、浏览器控制暴露、提升的允许列表、文件系统权限。光是ClawHavoc活动就在ClawHub上种植了1，184+个恶意Skill，当时占了整个注册表的约12%。这些可不是什么 subtle 的东西：加密货币窃取器、反向shell、伪装成交易机器人和生产力工具的凭证外泄。CrowdStrike、Cisco和Kaspersky都发布了警告。

最后

你不是不擅长这个。这事儿现在就是很难。那些发“我的agent一晚上做了个完整应用”的人，已经调了几周了。他们烧了token，写了几十页规则，调试了你正在经历的同样卡顿。

对我有帮助的是：接受这个事实——配置本身就是工作。写**就是产品工作。调整模型路由是基础设施工作。定时任务是运维工作。你不是在用一个工具，你是在搭建一个系统。

14亿token之后，agent在我睡觉的时候真的在产出成果。配置就是护城河。大部分人在到达这里之前就放弃了。

存好这篇。发给你的bot。等它在晚上自动产出成果的时候再回来看看。

本文来自微信公众号：Draco正在VibeCoding，原文作者：作者：legendaryy，作者：DracoVibeCoding

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

OpenClaw一周烧掉我14亿Token后，我总结了这10条血泪教训