2026-06-03 20:34

看完爆火的Anthropic 官方提示词课，我连夜做了个“全局优化器”

速览

本文来自微信公众号： AI Humanist by杉森楠，作者：杉森楠，原文标题：《看完爆火的 Anthropic 官方提示词课，我连夜做了个「全局优化器」｜已开源》

这两天，Anthropic两周前的官方讲座《The Prompting Playbook》，又小火了一把。

这场讲座来自Anthropic的开发者技术工坊系列Code w/Claude 2026，整个系列都很偏实践、偏开发。这一期是个实操型的workshop，主讲的是Anthropic的Apply AI团队，从头到尾就围绕一件事：怎么写出一个能真正在生产环境里用起来的Prompt。

我完整看了一遍，整体确实很贴近生产场景。这一年里，专门讲「在真实业务里怎么把提示词做好」的内容很少，这一期算难得的。它也算是继去年大火的《Prompting 101》之后，又一期高质量的提示词实践教学。

整场内容我就不一句句复述了，说实话讲得比较散。核心就是他们现场演示，怎么把一个模糊的提示词，一步步改成结构清晰、能扛住真实业务的提示词。

他们重点演示的，是怎么让一个提示词具备明确的角色、任务背景、约束条件和输出格式。这几样东西对效果的提升非常明显。

这里也纠正了一个常见误解：很多人觉得提示词这东西，只是模型能力不够强时的一种取巧手段，模型一强就没用了。但从他们的实际研究看，完全不是这样。

下面先从原理说起，顺便把这个误区讲清楚。

他们做了一组多轮测试，针对的是一个零售店的排班业务，用到两个模型：小模型Sonnet 4.6和大模型Opus 4.7。围绕同一个任务，提示词一共调了五轮。

第一轮，用的是最基础的提示词加小模型Sonnet 4.6。结果推理能力明显不够，严重违反了排班规则，测试几乎全挂。

接下来几轮，他们继续优化提示词，模型还是那个小模型。加上一些更复杂的推理指令之后，部分测试开始通过了。但小模型的token上限也带来了新麻烦：有些用例还是会失败，延迟也偏高。

到了第五轮，他们换了个思路，搭了一个「生成、评价、修复」的循环，模型依旧是小模型Sonnet 4.6。这一次，所有测试全部通过，用掉的token反而更少，延迟也更低。

同一个小模型，从全挂到全过，中间差的就是提示词和工作流。这一整期教学，我自己提炼出几个比较关键的点：

（1）始终靠系统化的评估（Evals）来验证每一次提示词的改动，凭感觉改不算数。

（2）保持提示词的「卫生」：清理冗余内容，用XML标签把结构区分清楚。

（3）别想着用纯指令去弥补能力上的缺口，该上外部工具就上外部工具。

（4）面对复杂任务，与其堆一个超长提示词、再做一次昂贵的大模型单次调用，不如搭一个多提示词协作的智能体工作流（Agentic Loop），往往更高效、更便宜，也更好维护。

看完之后，我把这一期的所有内容整理成了一份上下文，喂给Codex，让它据此整理出一套可以反复复用的提示词框架，分享给大家：

不过整个提示词内容实在太长了，而且我觉得，光甩一份提示词出来，意义也不大。正好借这个机会，聊聊我平常用AI的工作流。

我日常用AI，大致分两条路径。

一条是「重型任务」。碰到比较复杂的任务，或者需要深度获取知识的内容，我一般会用Codex或者Claude Code去做问答，或者直接Vibe Coding。

另一条是「轻型任务」。平常那些比较急、只需要一点轻量知识、或者想立刻搜一个结果、立刻拿到一个判断的场景，我一般会用ChatGPT。因为我用的是Atlas浏览器，它默认就带着ChatGPT，顺手。

但问题就出在「轻型任务」路径。这种时候我往往嫌麻烦，不会专门去搭一个完整的提示词框架，随手就敲一句很短的话进去。结果提示词效果也确实一般，最后还得来回调好几轮。

这里就有个挺反直觉的，我后来也注意到了：我用一句话的短提示词去赶一个急活，省下的是写提示词那几秒，但因为质量差，后面你得追加四五轮上下文，反复补充，才能勉强拿到一个像样的结果，前后可能搭进去10分钟。

反过来，如果我一开始就老老实实写一个结构完整、信息到位的提示词，写它花个1到2分钟，生成结果5分钟，总时间反而比硬刚短提示词更短。

最后，祝大家都玩得开心～

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。