2026-06-27 10:30

40万次Claude Code真实对话分析:在AI面前,你的“专家”资历归零了

author_path 快刀青衣 icon_path
头图

本文来自微信公众号: 快刀青衣 ,作者:快刀青衣,头图来自:AI生成


上周,Anthropic发了一份报告。本来没太当回事,因为最近这家公司身上的新闻实在太多了,一会儿要搞实名认证,一会儿是把顶级模型给看不给用,还有跟美国政府的对线。现在一看到他家的名字,都快有点儿免疫了。


但是,当看完这份报告的详细内容后,还是忍不住想分享给你。因为这不是那种“我们觉得未来会怎样”的趋势预测报告,而是实打实的数据报告。


他们分析了约40万次真实的Claude Code交互会话,来自约23.5万个用户,时间跨度从2025年10月到2026年4月,整整七个月。


▲Anthropic报告截图


一、为什么报告值得看?


先说为什么这份报告值得你花时间看。


Claude Code,是过去一年全球知识工作者广泛使用的AI编程产品之一。说“之一”只是为了避免太绝对,但对于AI专业领域的人来说,它几乎就是必选项。甚至连它的竞争对手谷歌的工程师,自己家也在做类似的产品,还公开称赞Claude Code好用。


注意,这已经不是一个“写代码的工具”,而是一个“完成复杂任务”的AI产品。


你给一个指令,它会自己读文件、改代码、跑命令、检查结果,然后再回到你这里。报告里有个小数据:一条指令下去,它平均触发大约10个动作,输出约2400字。


所以这份报告的数据,不是实验室里跑出来的,不是专门找测试员完成预设任务得到的,而是几十万人在真实工作场景里,用AI完成任务的真实记录。


这种数据,在AI行业里,之前几乎没有。大多数AI研究报告,要么是跑测试题,要么是做问卷调查,要么是分析公开代码仓库。


但真实的人机协作过程到底长什么样,人说了什么、AI做了什么、最后成没成,这些细节,只有像Anthropic这样既做模型、又能看到真实使用数据的公司,才拿得到。


当然,有了这个先例,我希望Codex也能拿出一份类似的报告。这样,就可以把两个产品的数据放在一起对比了。


二、人管判断,AI管执行


这份报告最有价值的发现,是第一次用真实使用数据证明了一件事:人主要负责判断,AI主要负责执行。


具体来说,在典型会话里,人做了约70%的规划决策,也就是“做什么”“走哪条路线”“怎样算完成”;AI做了约80%的执行决策,也就是“改哪些文件”“写什么代码”“跑哪些命令”。


70%和80%,这两个数字不是猜测,不是推演,是40万次对话里真实存在的分工比例。人管what,AI管how,这句话以前很多人在说,但从来没有人拿数据证明过。现在有了。


那这种分工到底长什么样?


举个小例子:你跟Claude Code说一句“帮我修复这个登录页面的bug”,然后Claude Code自己读了三个配置文件,改了两处代码,跑了一遍测试,测试没过,又回去改了一处,再跑,过了,最后把改动列出来给你看。


你全程只说了一句话,Claude Code做了十几个动作。你决定修什么,它决定怎么修。这就是70%和80%的意思。


而且这个分工还在往更深的方向走。报告追踪了七个月的变化,发现一个很有意思的趋势:


修bug的会话占比从33%降到了19%,说明用户不再只是拿它来修修补补了;运行软件从14%升到21%,说明用户开始让AI部署和跑流程了;写作和数据分析加起来,从大约10%翻倍到了20%,说明非程序员开始进场了。


七个月下来,用户开始把更接近最终交付的任务交给它了。任务的平均估算价值上升了27%。


AI编程工具的进化方向,不是“更会补全代码”,而是用户开始让它干代码之外的活了。


三、在AI面前,人的资历归零了


好,人管判断,AI管执行,分工清楚了。那接下来的问题就是,既然AI负责干活,那什么决定了一个人的判断好不好?


这个报告里,我觉得最锋利的发现来了,连定义本身都很有意思。


Anthropic给每个会话里的用户打了一个“专业度”评分,从新手到专家,五个级别。但这个“专家”的定义,跟我们以为的完全不一样。一提起专家这个词,我们脑海里经常浮现的是老教授和名医,衡量标准主要是从业资历。


但在这个报告里,它不看你的职位头衔,不看你在行业里干了多少年,不看你的学历和证书。它只看你在这一次具体任务里的具体表现,三个信号——


你的指令够不够精确,你知不知道该让AI验证什么,以及当AI理解错了的时候,你能不能发现并纠正它。


一个不会Python的会计,从来没写过代码,但她能清清楚楚地告诉Claude Code,对账脚本必须执行哪些规则,而且能抓住月末结账时的边界错误。在这个任务上,她就是专家。


反过来,一个资深软件工程师,如果他对Rust不熟悉,那他在Rust相关任务上给出的指令就不精确,也不知道该让AI验证什么,在AI眼里,他就是新手。不是因为他资历浅,而是因为在这个具体任务上,他给出的指令质量就是新手水平。


这背后意味着什么?意味着咱们在人类场域里的资历,在AI面前归零。


例如我做了20年产品经理,但如果只是跟AI说“你帮我做一下某个功能的产品需求文档”,那在AI眼里就是一个产品经理新手,因为指令质量太低。


从这个角度来说,一大批只会管人的中高层领导,在AI面前,就要被归为“职场新手”了。


四、专家一条指令,顶新手五倍


这个“指令质量”的差距,到底有多大?这份报告给出了数据。以前没有数据能说明这个问题,但这份报告给出了答案。


在典型的新手会话里,用户每发一条指令,Claude Code平均触发5个动作,输出600字。在专家会话里,每条指令触发12个动作,输出3200字。


12对5,3200对600。专家的一条指令,顶新手的好几条。按每条指令的产出来算,专家从AI那里拿回来的,是新手的五倍还多。不是AI偏心,而是专家的指令能让AI跑得更远。


而且这个差距不是专家输入了更多字。报告做了控制变量,把工作类型、任务价值、时间、职业、模型家族全部拉平之后,专业度每升一级,Claude Code的动作数增加9%,输出增加13%。趋势依然显著。


这说明什么?好指令不是微操,不是事无巨细地告诉AI每一步该干什么。好指令是高质量授权,是你把目标、边界和验收标准说得足够清楚,AI拿到之后能自己跑很远。


你可能会说,这不就是带团队吗?给下属布置任务,把目标讲清楚、把验收标准定好,下属就能自己推进。


确实有点像,但有一个关键区别:你的下属是一个有判断力的人,你跟他说“帮我做个对账脚本”,他大概知道一个合格的对账脚本该长什么样,会自己补上你没说的部分。


但AI不一样,它能力很强,但理解很窄。你不说清边界,它不会自己猜;你不说清验收标准,它不知道往哪跑。


你跟AI说“帮我写个脚本”,它真的就给你写个脚本,至于对不对账、规则对不对,它不管。但你跟AI说“帮我写个对账脚本,必须校验这三条规则,月末结账的边界情况要单独处理”,AI拿到就能自己跑出一条完整的路来。


前者是甩手掌柜,后者才是高质量授权。差别不在于你说了多少字,而在于你有没有把AI需要的东西给到。


五、管理者的验证成功率


而说到指令质量,报告里还有一个让人意外的发现。


在确实新增或修改了代码的会话里,Anthropic把用户按职业分了类,然后比较他们的成功率。


这里说的成功率,不是AI自己说“我做完了”就算成功,报告设了一个更严格的标准叫“验证成功”,要么代码提交了,要么测试通过了,要么用户在对话里明确确认了“这就是我要的”。得有硬证据,才算数。


按这个标准,十大职业的验证成功率,跟软件工程师的差距都不超过7个百分点。软件工程师及相关数学职业的用户,任务验证成功率约34%;管理类职业大约37%,法律类大约33%,商业金融大约29%,医疗、设计、销售、教育、科学类大约在27%到28%之间。


你注意到没?管理职业的验证成功率比软件工程师还高。


报告也特别说明,这可能和管理者更习惯明确确认结果有关,毕竟当领导的习惯了说“对对对就是这”。


但即便打个折,这个数据依然给出了一个很强的信号:拆任务、说清目标、委派、检查结果,这些原本是管理动作,现在也成了操作AI的技术动作。以前能管好人,现在也能管好AI。


你不需要先把自己训练成工程师,但你需要能说清业务规则、边界条件和验收标准。AI能帮你写代码,但不能替你知道什么叫“对”。


六、翻车后,才是真正分水岭


前面说的是让AI知道什么叫“对”,这和发现AI哪里理解错了,还不是一回事。


报告里有一组数据,我觉得比前面所有的都更值得细看。


它把会话里“遇到麻烦”的情况单独拎了出来,所谓“遇到麻烦”,就是出现了报错、测试失败、反复重试、用户表达不满这些信号。在复杂任务里,AI出错是常态,这不是什么丢人的事。


但在遇到麻烦之后,不同专业度的用户,结局完全不同。


遇到麻烦后,新手会话的验证成功率滑落到只有4%,专家是15%。4%是什么概念?就是100次遇到麻烦里,新手只有4次能救回来。


更扎心的是放弃率。遇到麻烦之后,19%的新手直接放弃了,判定为失败且没写任何代码。而其他专业度级别的用户,放弃率只有5%到7%。


这说明什么?专业用户的优势,不在于永远不翻车,而在于翻车之后知道怎么把AI拉回来。他们知道该补充什么约束,该要求AI验证什么,该在哪个方向上纠偏。


而新手呢,不是AI不够努力,而是新手自己都不知道该往哪拉。AI等着你给方向,但你给不出来,那就只能放弃。


这其实是最让人担心的地方。新手放弃率高,不是因为AI帮不了他们,恰恰相反,AI就在那里等着,只要你给对方向它就能跑。


但新手给不出方向,于是得出一个结论“AI不好用”,然后放弃。而专家遇到同样的麻烦,会说“你这里理解错了,应该是这样的”,然后继续推进。


同一个工具,同一个困境,结局完全不同。差的不是工具,是人对问题的理解深度。


写在最后


报告里有一句话让我印象很深:


生产软件,可能正在从一种程序员专属的职业能力,变成一种普通工作能力。


这是报告的一个推测,我觉得说的挺对的。当然,这并不是说非程序员可以替代软件工程师,工程师的价值从来不只是写代码,还有系统架构、风险控制、长期质量维护,这些是AI暂时替代不了的。


但方向是对的——未来不是人人都成为程序员,而是各行业懂问题的人,可以直接生产脚本、自动化流程、内部工具和技术文档。


律师会写合同检查脚本,还是一名律师;会计指挥Python对账,还是一名会计。编程不再是程序员的专利,而是各行各业解决自己问题的工具。


从这份报告里,我们更能看出来:AI面前,你的资历归零了,但你的专业能力没有归零,它只是换了一种接口和表现形式。


所以,下次你跟AI对话前,不妨过一遍这三件事:


①我有没有说清目标?


②我有没有告诉它验证什么?


③如果它理解错了,我能不能发现并纠正?


这三件事做到了,你就是那个能让AI跑出五倍产出的专家。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。