扫码打开虎嗅APP
本文来自微信公众号:Draco正在VibeCoding,原文:I Burned 1.4B Codex Tokens in a Week Running OpenClaw. Here's What I'd Tell Myself on Day One.,日期:20 Feb 2026,原文作者:作者:legendaryy,作者:DracoVibeCoding,题图来自:AI生成
一开始我以为,装个OpenClaw,丢给它几个任务,然后让它自己跑就完事了。演示视频里就是这么讲的。但前两周根本不是这么回事。
前两周简直就是“带娃”——盯着它烧token,看着它在同一个答案上循环八次,看着Codex任务在那儿空转。我布置个任务,走开一会儿,回来发现它要么只做了一件事就罢工了,要么陷入和自己关于用tab还是space的无限对话里。
经过大量试错,现在它终于能稳定运行,真的在干正事了。从“这玩意儿就是个玩具”到“我睡觉的时候它把功能都上线了”,这个差距是真实存在的。关键就在于,你得停止把它当聊天机器人,开始把它当基础设施来看待。
下面是真正起作用的东西。10个我想告诉每个今天刚开始的人的事。
一、模型路由决定一切(别用Opus去跑心跳)
这是最关键的决策,也是我14亿token主要烧在哪儿的原因。我把所有东西都往Opus或Codex上怼——心跳、定时检查、状态ping、普通聊天,全都在用最贵的模型。
这周开始,Sonnet 4.6是日常使用的最佳选择。刚发布,基本上有Opus级别的智商,但只需要五分之一的成本。输入/输出每百万token只要$3/$15美元,而Opus是15/75美元。它在OSWorld上得分72.5%,几乎追平Opus 4.6的72.7%。性格也很好。这是我用过最适合做agent工作的模型,质量够硬还不会让你大出血。
如果Sonnet的价格对你的配置来说还是太贵,那就降级到Kimi K2.5,通过OpenRouter调用。大约$0.60/$2美元每百万token,工具调用也很稳定。把Opus预算留到真正需要深度推理或长上下文作的时候。
设置一个分层配置。好模型做主引擎处理日常任务,强力模型做后备处理复杂工作。

你可以在聊天中用/model随时切换模型。需要Opus处理复杂任务?切换。回到常规工作?切回Sonnet。上面的配置会自动处理后备方案,如果主模型碰到速率限制的话。
二、不写Skill文件,你的agent就是个智障
刚开箱的时候,你的OpenClaw agent会做一些让人叹为观止的蠢事。在同一个失败的方法上循环六次。编辑它根本没资格碰的配置文件。跳过文档自己瞎编解决方案,结果把整个项目搞崩。模型是聪明的,agent行为不是。这是两回事。
解决办法是Skill文件。
这些文件放在你的workspace/skills/文件夹里,告诉agent具体该怎么表现。把它们想象成防止你的agent越野脱缰的护栏。
这是大多数人跳过的部分
你得自己写这些规则。没人知道你的技术栈、你的偏好,或者你的agent具体会以什么方式搞砸。你是在为一个能力很强但非常死板的员工写操作手册。没有它,你就只能祈祷。
让我错误率直接砍半的一条规则:做任何改动之前,先读文档。Agent喜欢即兴发挥,它们会硬刚那些文档里早就有的优雅解决方案。我做了个叫DocClaw的Skill,强制“先读再做”的工作流,在任何代码改动前必须有个侦察阶段。已经在ClawHub上了。
没有这些文件,你的agent干完一件事就卡住了。没有后续,没有迭代。只有一个昂贵的光标在凌晨3点等你告诉它该干嘛。
三、Soul.md是你的大脑,不是你的待办清单
构建 → 测试 → 记录 → 决策 → 循环

四、Todo.md = 自动扩展的任务清单
自扩展任务列表。
睡前给agent一个大任务。它会分解成子任务,工作时更新状态,发现后续工作时生成新任务。午夜的一个任务,到早上可能变成三四个。
五、ProgressLog.md = 你的晨间简报
每轮构建-测试循环都要记录。它试了什么,通过还是失败,学到了什么。边喝咖啡边打开这个,不用看会话记录就知道昨晚发生了什么。
六、Cron job > 长会话
你不能布置个任务就合上笔记本。会话只有在开着的时候才有状态。窗口一关,agent就全忘了。真正的后台工作需要定时任务,按计划唤醒agent。
我跑了三个定时任务:凌晨2点、4点、6点。每个都会唤醒agent,让它检查Todo.md里的剩余任务。有活就接着干,干完了就写个总结然后继续睡觉。

在这些定时任务之前,agent会在任务中途卡住,然后闲置几小时直到我注意到。定时任务就像闹钟。最坏情况下,它闲置两小时就会被戳醒继续干活。
七、文件就是记忆
长会话会被压缩。这意味着你的agent会悄悄丢失上下文。它之前做的决策、跟踪的状态、已经搞清楚的东西,全没了。然后它从头开始重新推导一遍,烧token做已经做过的工作,有时候第二次还会得出不同结论。
解决办法是把所有重要的东西都写到workspace的markdown文件里。想象一下,就像给一个每天早上失忆的员工写入职文档。你写得越多,它需要从头搞清楚的就越少。

八、模型质量 ≠ Agent质量
大部分挫败感不是来自OpenClaw,而是来自那些不会调工具的模型。聊天质量和agent质量是完全不同的两件事。一个模型能写诗,但在需要调用函数、解析结果、决定下一步做什么的时候可能直接卡死。
这是我从实际使用中发现的东西,都是2026年2月中旬的最新数据:

我的日常配置:Sonnet 4.6作为OpenClaw的日常主力。刚发布,基本上是Opus级别的办公任务能力,但只需要五分之一的价格。OSWorld上72.5%,几乎追平Opus 4.6的72.7%。目前做agent工作性价比最高的模型。
Opus 4.6留给需要严肃推理或长上下文的工作。100万token上下文窗口。最强大脑,只是你不想让心跳任务跑在上面。
GPT-5.3-Codex专门用来写代码。比5.2快25%,在SWE-Bench Pro和Terminal-Bench 2.0上都是最顶尖的。我在Codex app/CLI里用它做开发工作,和OpenClaw运维分开。
Agent苦力活的预算模型:Kimi K2.5通过OpenRouter或NVIDIA调用依然便宜得离谱。MiniMax M2.5是预算之王:SWE-Bench上80.2%,开源,MIT协议,输入每百万token只要0.30美元。GLM-5做重推理任务很稳。这三个工具调用都很可靠,这才是agent工作最重要的。
九、一次只加一个新集成
别试图一次性把邮件+日历+Telegram+网页爬虫+定时任务全配上。每个集成都是一个独立的故障点。每个渠道都是一个新的出错表面。
我从一个简单的晨间简报定时任务开始。稳定跑了一周后,才加下一个。然后再下一个。每个都搞稳了再往前走。出问题了就跑openclaw doctor --fix。
专业提示:一旦某个工作流稳定了,让你的agent学习它。让它读Skill文件、定时任务配置、成功运行的日志。当它理解你这套配置的“正常状态”是什么样子后,它会更擅长保持系统运行,在问题级联之前发现它们。
十、分开你的Dev和Ops Agent
Codex / Claude Code 做开发 写代码、调试、上线功能。
有时候Codex会卡住。换Claude。有时候反过来。不同工作用不同模型。都指向一个有干净git结构的私有GitHub仓库。Agent在组织良好的代码里很擅长识别模式。
OpenClaw 做运维 监控、调度、通信、自动化。
定时任务、心跳、消息路由、任务管理。把开发和运维分开,这样它们不会互相污染上下文。
关于记忆系统的补充
最好的agent是不会每次会话都从零开始的。OpenClaw有内置的向量记忆:openclaw memory status和openclaw memory search。还有Claw Vault和Supermemory可以做更高级的设置。
我自己在搭一个记忆系统(Gigabrain),目前已经索引了911+条记忆。每次对话、每个决策、每个偏好都被存储并可搜索。Agent记得上次什么有效、什么坏了、我喜欢什么。这个上下文让一切都更快更可靠。
关键洞察:透明度和可审计性比单纯的回忆更重要。你得能看到agent“知道”关于你和项目的什么。否则你就是在信任一个有shell访问权限的黑盒子。
关于安全的补充
OpenClaw出过真实的安全事故。多个CVE,包括一个CVSS 8.8的远程代码执行漏洞,Bitsight和Censys的扫描团队发现了超过3万个暴露实例,ClawHub还有大规模的供应链投毒活动。你的agent有shell访问权限、浏览器控制权,还能以你的名义发消息。在循环里运行。不需要问你就执行。

安全审计会标记暴露的网关认证、浏览器控制暴露、提升的允许列表、文件系统权限。光是ClawHavoc活动就在ClawHub上种植了1,184+个恶意Skill,当时占了整个注册表的约12%。这些可不是什么 subtle 的东西:加密货币窃取器、反向shell、伪装成交易机器人和生产力工具的凭证外泄。CrowdStrike、Cisco和Kaspersky都发布了警告。
最后
你不是不擅长这个。这事儿现在就是很难。那些发“我的agent一晚上做了个完整应用”的人,已经调了几周了。他们烧了token,写了几十页规则,调试了你正在经历的同样卡顿。
对我有帮助的是:接受这个事实——配置本身就是工作。写**就是产品工作。调整模型路由是基础设施工作。定时任务是运维工作。你不是在用一个工具,你是在搭建一个系统。
14亿token之后,agent在我睡觉的时候真的在产出成果。配置就是护城河。大部分人在到达这里之前就放弃了。
存好这篇。发给你的bot。等它在晚上自动产出成果的时候再回来看看。
本文来自微信公众号:Draco正在VibeCoding,原文作者:作者:legendaryy,作者:DracoVibeCoding