2026-06-27 10:30

40万次Claude Code真实对话分析：在AI面前，你的“专家”资历归零了

快刀青衣

本文来自微信公众号：快刀青衣，作者：快刀青衣，头图来自：AI生成

上周，Anthropic发了一份报告。本来没太当回事，因为最近这家公司身上的新闻实在太多了，一会儿要搞实名认证，一会儿是把顶级模型给看不给用，还有跟美国政府的对线。现在一看到他家的名字，都快有点儿免疫了。

但是，当看完这份报告的详细内容后，还是忍不住想分享给你。因为这不是那种“我们觉得未来会怎样”的趋势预测报告，而是实打实的数据报告。

他们分析了约40万次真实的Claude Code交互会话，来自约23.5万个用户，时间跨度从2025年10月到2026年4月，整整七个月。

▲Anthropic报告截图

一、为什么报告值得看？

先说为什么这份报告值得你花时间看。

Claude Code，是过去一年全球知识工作者广泛使用的AI编程产品之一。说“之一”只是为了避免太绝对，但对于AI专业领域的人来说，它几乎就是必选项。甚至连它的竞争对手谷歌的工程师，自己家也在做类似的产品，还公开称赞Claude Code好用。

注意，这已经不是一个“写代码的工具”，而是一个“完成复杂任务”的AI产品。

你给一个指令，它会自己读文件、改代码、跑命令、检查结果，然后再回到你这里。报告里有个小数据：一条指令下去，它平均触发大约10个动作，输出约2400字。

所以这份报告的数据，不是实验室里跑出来的，不是专门找测试员完成预设任务得到的，而是几十万人在真实工作场景里，用AI完成任务的真实记录。

这种数据，在AI行业里，之前几乎没有。大多数AI研究报告，要么是跑测试题，要么是做问卷调查，要么是分析公开代码仓库。

但真实的人机协作过程到底长什么样，人说了什么、AI做了什么、最后成没成，这些细节，只有像Anthropic这样既做模型、又能看到真实使用数据的公司，才拿得到。

当然，有了这个先例，我希望Codex也能拿出一份类似的报告。这样，就可以把两个产品的数据放在一起对比了。

二、人管判断，AI管执行

这份报告最有价值的发现，是第一次用真实使用数据证明了一件事：人主要负责判断，AI主要负责执行。

具体来说，在典型会话里，人做了约70%的规划决策，也就是“做什么”“走哪条路线”“怎样算完成”；AI做了约80%的执行决策，也就是“改哪些文件”“写什么代码”“跑哪些命令”。

70%和80%，这两个数字不是猜测，不是推演，是40万次对话里真实存在的分工比例。人管what，AI管how，这句话以前很多人在说，但从来没有人拿数据证明过。现在有了。

那这种分工到底长什么样？

举个小例子：你跟Claude Code说一句“帮我修复这个登录页面的bug”，然后Claude Code自己读了三个配置文件，改了两处代码，跑了一遍测试，测试没过，又回去改了一处，再跑，过了，最后把改动列出来给你看。

你全程只说了一句话，Claude Code做了十几个动作。你决定修什么，它决定怎么修。这就是70%和80%的意思。

而且这个分工还在往更深的方向走。报告追踪了七个月的变化，发现一个很有意思的趋势：

修bug的会话占比从33%降到了19%，说明用户不再只是拿它来修修补补了；运行软件从14%升到21%，说明用户开始让AI部署和跑流程了；写作和数据分析加起来，从大约10%翻倍到了20%，说明非程序员开始进场了。

七个月下来，用户开始把更接近最终交付的任务交给它了。任务的平均估算价值上升了27%。

AI编程工具的进化方向，不是“更会补全代码”，而是用户开始让它干代码之外的活了。

三、在AI面前，人的资历归零了

好，人管判断，AI管执行，分工清楚了。那接下来的问题就是，既然AI负责干活，那什么决定了一个人的判断好不好？

这个报告里，我觉得最锋利的发现来了，连定义本身都很有意思。

Anthropic给每个会话里的用户打了一个“专业度”评分，从新手到专家，五个级别。但这个“专家”的定义，跟我们以为的完全不一样。一提起专家这个词，我们脑海里经常浮现的是老教授和名医，衡量标准主要是从业资历。

但在这个报告里，它不看你的职位头衔，不看你在行业里干了多少年，不看你的学历和证书。它只看你在这一次具体任务里的具体表现，三个信号——

你的指令够不够精确，你知不知道该让AI验证什么，以及当AI理解错了的时候，你能不能发现并纠正它。

一个不会Python的会计，从来没写过代码，但她能清清楚楚地告诉Claude Code，对账脚本必须执行哪些规则，而且能抓住月末结账时的边界错误。在这个任务上，她就是专家。

反过来，一个资深软件工程师，如果他对Rust不熟悉，那他在Rust相关任务上给出的指令就不精确，也不知道该让AI验证什么，在AI眼里，他就是新手。不是因为他资历浅，而是因为在这个具体任务上，他给出的指令质量就是新手水平。

这背后意味着什么？意味着咱们在人类场域里的资历，在AI面前归零。

例如我做了20年产品经理，但如果只是跟AI说“你帮我做一下某个功能的产品需求文档”，那在AI眼里就是一个产品经理新手，因为指令质量太低。

从这个角度来说，一大批只会管人的中高层领导，在AI面前，就要被归为“职场新手”了。

四、专家一条指令，顶新手五倍

这个“指令质量”的差距，到底有多大？这份报告给出了数据。以前没有数据能说明这个问题，但这份报告给出了答案。

在典型的新手会话里，用户每发一条指令，Claude Code平均触发5个动作，输出600字。在专家会话里，每条指令触发12个动作，输出3200字。

12对5，3200对600。专家的一条指令，顶新手的好几条。按每条指令的产出来算，专家从AI那里拿回来的，是新手的五倍还多。不是AI偏心，而是专家的指令能让AI跑得更远。

而且这个差距不是专家输入了更多字。报告做了控制变量，把工作类型、任务价值、时间、职业、模型家族全部拉平之后，专业度每升一级，Claude Code的动作数增加9%，输出增加13%。趋势依然显著。

这说明什么？好指令不是微操，不是事无巨细地告诉AI每一步该干什么。好指令是高质量授权，是你把目标、边界和验收标准说得足够清楚，AI拿到之后能自己跑很远。

你可能会说，这不就是带团队吗？给下属布置任务，把目标讲清楚、把验收标准定好，下属就能自己推进。

确实有点像，但有一个关键区别：你的下属是一个有判断力的人，你跟他说“帮我做个对账脚本”，他大概知道一个合格的对账脚本该长什么样，会自己补上你没说的部分。

但AI不一样，它能力很强，但理解很窄。你不说清边界，它不会自己猜；你不说清验收标准，它不知道往哪跑。

你跟AI说“帮我写个脚本”，它真的就给你写个脚本，至于对不对账、规则对不对，它不管。但你跟AI说“帮我写个对账脚本，必须校验这三条规则，月末结账的边界情况要单独处理”，AI拿到就能自己跑出一条完整的路来。

前者是甩手掌柜，后者才是高质量授权。差别不在于你说了多少字，而在于你有没有把AI需要的东西给到。

五、管理者的验证成功率

而说到指令质量，报告里还有一个让人意外的发现。

在确实新增或修改了代码的会话里，Anthropic把用户按职业分了类，然后比较他们的成功率。

这里说的成功率，不是AI自己说“我做完了”就算成功，报告设了一个更严格的标准叫“验证成功”，要么代码提交了，要么测试通过了，要么用户在对话里明确确认了“这就是我要的”。得有硬证据，才算数。

按这个标准，十大职业的验证成功率，跟软件工程师的差距都不超过7个百分点。软件工程师及相关数学职业的用户，任务验证成功率约34%；管理类职业大约37%，法律类大约33%，商业金融大约29%，医疗、设计、销售、教育、科学类大约在27%到28%之间。

你注意到没？管理职业的验证成功率比软件工程师还高。

报告也特别说明，这可能和管理者更习惯明确确认结果有关，毕竟当领导的习惯了说“对对对就是这”。

但即便打个折，这个数据依然给出了一个很强的信号：拆任务、说清目标、委派、检查结果，这些原本是管理动作，现在也成了操作AI的技术动作。以前能管好人，现在也能管好AI。

你不需要先把自己训练成工程师，但你需要能说清业务规则、边界条件和验收标准。AI能帮你写代码，但不能替你知道什么叫“对”。

六、翻车后，才是真正分水岭

前面说的是让AI知道什么叫“对”，这和发现AI哪里理解错了，还不是一回事。

报告里有一组数据，我觉得比前面所有的都更值得细看。

它把会话里“遇到麻烦”的情况单独拎了出来，所谓“遇到麻烦”，就是出现了报错、测试失败、反复重试、用户表达不满这些信号。在复杂任务里，AI出错是常态，这不是什么丢人的事。

但在遇到麻烦之后，不同专业度的用户，结局完全不同。

遇到麻烦后，新手会话的验证成功率滑落到只有4%，专家是15%。4%是什么概念？就是100次遇到麻烦里，新手只有4次能救回来。

更扎心的是放弃率。遇到麻烦之后，19%的新手直接放弃了，判定为失败且没写任何代码。而其他专业度级别的用户，放弃率只有5%到7%。

这说明什么？专业用户的优势，不在于永远不翻车，而在于翻车之后知道怎么把AI拉回来。他们知道该补充什么约束，该要求AI验证什么，该在哪个方向上纠偏。

而新手呢，不是AI不够努力，而是新手自己都不知道该往哪拉。AI等着你给方向，但你给不出来，那就只能放弃。

这其实是最让人担心的地方。新手放弃率高，不是因为AI帮不了他们，恰恰相反，AI就在那里等着，只要你给对方向它就能跑。

但新手给不出方向，于是得出一个结论“AI不好用”，然后放弃。而专家遇到同样的麻烦，会说“你这里理解错了，应该是这样的”，然后继续推进。

同一个工具，同一个困境，结局完全不同。差的不是工具，是人对问题的理解深度。

写在最后

报告里有一句话让我印象很深：

生产软件，可能正在从一种程序员专属的职业能力，变成一种普通工作能力。

这是报告的一个推测，我觉得说的挺对的。当然，这并不是说非程序员可以替代软件工程师，工程师的价值从来不只是写代码，还有系统架构、风险控制、长期质量维护，这些是AI暂时替代不了的。

但方向是对的——未来不是人人都成为程序员，而是各行业懂问题的人，可以直接生产脚本、自动化流程、内部工具和技术文档。

律师会写合同检查脚本，还是一名律师；会计指挥Python对账，还是一名会计。编程不再是程序员的专利，而是各行各业解决自己问题的工具。

从这份报告里，我们更能看出来：AI面前，你的资历归零了，但你的专业能力没有归零，它只是换了一种接口和表现形式。

所以，下次你跟AI对话前，不妨过一遍这三件事：

①我有没有说清目标？

②我有没有告诉它验证什么？

③如果它理解错了，我能不能发现并纠正？

这三件事做到了，你就是那个能让AI跑出五倍产出的专家。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI原生产品日报

频道：前沿科技