扫码打开虎嗅APP
本文来自微信公众号: AI Humanist by杉森楠 ,作者:杉森楠,原文标题:《看完爆火的 Anthropic 官方提示词课,我连夜做了个「全局优化器」|已开源》
这两天,Anthropic两周前的官方讲座《The Prompting Playbook》,又小火了一把。
这场讲座来自Anthropic的开发者技术工坊系列Code w/Claude 2026,整个系列都很偏实践、偏开发。这一期是个实操型的workshop,主讲的是Anthropic的Apply AI团队,从头到尾就围绕一件事:怎么写出一个能真正在生产环境里用起来的Prompt。
我完整看了一遍,整体确实很贴近生产场景。这一年里,专门讲「在真实业务里怎么把提示词做好」的内容很少,这一期算难得的。它也算是继去年大火的《Prompting 101》之后,又一期高质量的提示词实践教学。
整场内容我就不一句句复述了,说实话讲得比较散。核心就是他们现场演示,怎么把一个模糊的提示词,一步步改成结构清晰、能扛住真实业务的提示词。
他们重点演示的,是怎么让一个提示词具备明确的角色、任务背景、约束条件和输出格式。这几样东西对效果的提升非常明显。
这里也纠正了一个常见误解:很多人觉得提示词这东西,只是模型能力不够强时的一种取巧手段,模型一强就没用了。但从他们的实际研究看,完全不是这样。
下面先从原理说起,顺便把这个误区讲清楚。
他们做了一组多轮测试,针对的是一个零售店的排班业务,用到两个模型:小模型Sonnet 4.6和大模型Opus 4.7。围绕同一个任务,提示词一共调了五轮。
第一轮,用的是最基础的提示词加小模型Sonnet 4.6。结果推理能力明显不够,严重违反了排班规则,测试几乎全挂。

接下来几轮,他们继续优化提示词,模型还是那个小模型。加上一些更复杂的推理指令之后,部分测试开始通过了。但小模型的token上限也带来了新麻烦:有些用例还是会失败,延迟也偏高。

到了第五轮,他们换了个思路,搭了一个「生成、评价、修复」的循环,模型依旧是小模型Sonnet 4.6。这一次,所有测试全部通过,用掉的token反而更少,延迟也更低。

同一个小模型,从全挂到全过,中间差的就是提示词和工作流。这一整期教学,我自己提炼出几个比较关键的点:
(1)始终靠系统化的评估(Evals)来验证每一次提示词的改动,凭感觉改不算数。
(2)保持提示词的「卫生」:清理冗余内容,用XML标签把结构区分清楚。
(3)别想着用纯指令去弥补能力上的缺口,该上外部工具就上外部工具。
(4)面对复杂任务,与其堆一个超长提示词、再做一次昂贵的大模型单次调用,不如搭一个多提示词协作的智能体工作流(Agentic Loop),往往更高效、更便宜,也更好维护。
看完之后,我把这一期的所有内容整理成了一份上下文,喂给Codex,让它据此整理出一套可以反复复用的提示词框架,分享给大家:

不过整个提示词内容实在太长了,而且我觉得,光甩一份提示词出来,意义也不大。正好借这个机会,聊聊我平常用AI的工作流。
我日常用AI,大致分两条路径。
一条是「重型任务」。碰到比较复杂的任务,或者需要深度获取知识的内容,我一般会用Codex或者Claude Code去做问答,或者直接Vibe Coding。
另一条是「轻型任务」。平常那些比较急、只需要一点轻量知识、或者想立刻搜一个结果、立刻拿到一个判断的场景,我一般会用ChatGPT。因为我用的是Atlas浏览器,它默认就带着ChatGPT,顺手。
但问题就出在「轻型任务」路径。这种时候我往往嫌麻烦,不会专门去搭一个完整的提示词框架,随手就敲一句很短的话进去。结果提示词效果也确实一般,最后还得来回调好几轮。

这里就有个挺反直觉的,我后来也注意到了:我用一句话的短提示词去赶一个急活,省下的是写提示词那几秒,但因为质量差,后面你得追加四五轮上下文,反复补充,才能勉强拿到一个像样的结果,前后可能搭进去10分钟。
反过来,如果我一开始就老老实实写一个结构完整、信息到位的提示词,写它花个1到2分钟,生成结果5分钟,总时间反而比硬刚短提示词更短。
最后,祝大家都玩得开心~