2026-06-09 13:34

到处都是AI,到底生产力在哪儿

author_path 未尽研究
头图

本文来自微信公众号: 未尽研究 ,作者:未尽研究


编码智能体,上半年出尽了风头。


智能体正在部署到越来越广泛的应用场景中。其中软件开发是AI采用最早、也最突出的领域之一,同时也是受AI影响程度最高的职业之一。资本喜欢讲述的故事,是AI把人类码农的事都干了,再把高价值的服务业都干了,就是个十万亿美元级别的市场。


如果一家AI企业,推出更好的写代码工具,它的员工能用这些工具消耗更多的token,成倍提升写代码的效率,它就会得到资本的追捧。引领这一叙事的,如Anthropic等,甚至提出AI的递归自我提升(RSI),很快不需要人类协助了。


但是,真实的经济表现,与技术的叙事,并不是一回事,即使AI圈子甚至想改写经济学教科书。


一项对10万名软件工程师、2022-2026年期间、从使用Copilot到Codex和Claude Code的研究表明,智能体对劳动生产率的提升,即使是在纯软件领域,仍然处于非常初级的阶段,尤其是仍然处于与人类的深度相依阶段——好吧,你可以说人类仍然是智能体的“瓶颈”。


这项MIT和宾大沃顿的三位经济学者的研究,《写代码与交付代码:AI编码工具历代演进中的生产率效应》,最近发布于美国国家经济研究局(NBER)。


(本图汇总了采用AI编程工具对代码行数、接触文件数、提交次数、拉取请求、独立仓库和发布版本影响的匹配事件研究估计值。“自动补全”指基于AI的代码补全;“同步”指与开发者在本地协同工作的智能体(例如Claude Code);“异步”指自主运行直至任务完成的智能体(例如GitHub Agent)。由于功能更强大的工具通常是与早期一代工具同时被采用的,因此本图展示了采用截至并包括某一特定代际的所有工具的累积效应。来源:NBER论文)


研究认为智能体所带来的编码效率的提升显著,但在走向真实生产层级中,效应急剧衰减;即使AI增加了软件供给,主要市场上新的应用数量大幅度增加,但新应用发布后总使用量并没有增加,甚至产生了大量的“僵尸应用”。


这说明能写大量的代码,仅仅是通向最终产出的一个阶段,它的作用是有限的。在软件领域,约束性瓶颈似乎正在从编写代码,转向代码审查、集成,并最终转向软件的分发,所以这些,至少在目前还离不开人。


软件产品的开发过程是一个层级结构,每一层级s都聚合了其下一层级的产出:代码行组合成文件,文件组合成代码提交,代码提交组合成拉取请求,拉取请求组合成项目,项目再组合成发布版本。


(来源:NBER论文)


在软件生产模型中,每一层的产出都通过一个CES生产函数,与下一层的人类投入结合。


CES生产函数,全称是Constant Elasticity of Substitution production function,中文通常译为恒定替代弹性生产函数。它是一种经济学模型,用来描述不同投入要素之间能在多大程度上互相替代,并共同产出。


经典例子是资本和劳动如何共同生产GDP;在这篇论文里,则被用来描述AI生成的上游代码产出和下游人类工作如何共同形成更高层级的软件产出。


AI工具可以通过两种方式影响生产流程中的每一层:一种是增强该层,使人类在这一层的每单位努力更有生产率;另一种是对该层进行部分自动化,使这一层不再需要直接的人类努力,但仍然需要人类审查。例如,自动补全增强了代码生产,但并没有使其自动化;相比之下,异步智能体不仅自动化了代码生产,也自动化了整个拉取请求的生产,尽管这些拉取请求在被合并之前仍然需要人类审查。


该模型中的关键参数,是AI生成的上游产出与后续人类努力之间的替代弹性。两者越难相互替代,AI的生产率提升就越容易受到下游人类环节的瓶颈约束;同时,随着这些收益沿生产链条向后传导,其衰减也就越明显。在存在互补性的情况下,即使上游环节实现无限自动化,最终生产率收益也仍然是有限的。


为了将这一框架带入数据分析,研究者将公开的GitHub数据与微软内部遥测数据结合起来,构建了与生产层级中每一层对应的活动指标,从代码行数到发布版本,并识别开发者首次采用每一种工具的时间。


将GitHub上可公开观察到的AI使用情况与内部订阅数据相结合,能够追踪来自不同供应商的多种工具:来自GitHub Copilot的自动补全;来自GitHub Copilot、Claude和Codex的同步智能体;以及来自GitHub Copilot和Codex的异步智能体。


他们发现,AI编码工具显著提高了开发者在任务层面的生产率,而且这种效应会随着一代代工具的演进而增强。以提交数量为重点来看,自动补全使任务层面生产率提高约40%;如果将同步智能体的累计效果包括进来,这一增幅上升到约140%;而进一步使用异步智能体,通过智能体生成的提交,又将增幅提高到180%。这些效应在活跃度较低的开发者身上更大,但在整个活跃度分布中仍然相当显著。总体而言,这些结果表明,随着智能体式AI工具兴起,软件开发正在经历一次显著的生产率转变。


这些任务层面的生产率提升如何转化为最终产出?对生产层级各个环节的估计,揭示出一种清晰的衰减模式。采用AI工具之后,开发者编写的代码显著增加,参与的功能开发也更多,但这些增长转化为已交付软件的增幅要小得多。


  • 同步智能体使代码行数增加了741%,拉取请求增加了65%,但发布版本仅增加了20%。


  • 自动补全也呈现出同样模式:它对代码行数的影响为228%,但到了提交层面衰减为36%,到了发布版本层面仅为10%。


  • 用GitHub总体活动,也验证了这些开发者层面的估计结果:自2025年初以来,新代码库和拉取请求数量大幅增加,其模式与估计到的衰减现象一致。


这种沿生产层级逐步衰减的模式,与生产模型预测一致。为了量化潜在的互补性以及衰减背后的机制,研究人员把估计结果映射到模型参数上。估计得到的衰减模式,与每一层中上游产出和人类努力之间0.25的替代弹性相一致。这表明,AI与人类投入之间存在强互补性。


在CES生产函数里,弹性越高,说明两种投入越容易互相替代;弹性越低,说明它们越像必须配套使用的互补关系。


如果替代弹性接近1,说明AI产出和人类工作比较容易互换,代码产出提升会更顺畅地传导到最终软件发布。


如果替代弹性大于1,那就意味着AI很容易替代人类,自动化一层会强烈推动最终产出。


但现在估计值只有0.25,说明瓶颈还很强,尤其是在审核、集成、发布、分发这些下游环节。


这张图解释了自动补全工具带来的生产率提升,为什么会从代码行层面一路衰减到发布版本层面。自动补全在最底层“写代码行”上的提升非常大,但越往后传导,效果越小。


(该图展示了与自动补全工具的衰减模式最匹配的模型结果,校准参数为θ=0.75,σ=0.25。黑色方块表示每一层级上的经验效应;彩色线条表示模型预测结果。来源:NBER论文)


大致可以看出:


  • 代码行层面,自动补全带来约228%的生产率提升;


  • 到文件层面,提升下降到约50%;


  • 提交层面,下降到约30%–40%;


  • 拉取请求层面,只剩约10%–20%;


  • 仓库/发布层面,提升进一步变得很小,大约在10%左右。


也就是说,自动补全让开发者写出更多代码非常明显,但这些额外代码并没有等比例变成更多PR、更多项目或更多发布版本。


虽然GitHub上的编码活动有助于理解AI如何影响软件生产,但它仍然只是开发者侧产出的衡量指标。这些新应用是否触达消费者、实际被使用了多少,为了解决这些问题,他们统计了四个最大的应用市场的数据:Apple App Store、Google Play Store、Chrome Web Store和SourceForge。


在各个应用市场中,自2025年年中以来,新应用数量普遍增加,但增幅有所不同:Apple App Store和Chrome Web Store出现明显加速;Google Play Store的增长较温和;SourceForge几乎没有变化。


(来源:NBER论文)


然而,尽管供给扩大,在四个应用市场中,新应用发布后三个月内的总使用量都没有增加。AI并没有带来市场扩张效应,而且供给端扩张主要集中在几乎没有用户基础的应用上。这一模式有两种解释:要么边际新增应用质量较低;要么消费者端还存在额外瓶颈,也就是新应用的发现和采用需要时间,从而阻碍了供给端收益转化为实际使用。目前的数据无法区分这两种解释。


AI在任务层面带来的巨大生产率效应,由于生产函数中的瓶颈,最终只会转化为小得多的最终产出影响。这些收益在终端用户阶段还会面临进一步压缩,因为应用必须真正触达消费者,并被消费者使用。


未来这一约束能在多大程度上放松,将同时取决于未来模型能力的发展,也取决于这些工具在生产各阶段中的扩散程度。前者涉及AI工具是否能够生成更高质量、需要更少审查的代码,或者是否能够在生产层级中更靠后的环节替代人类努力;后者则涉及这些工具能否更广泛地扩散到生产流程的各个阶段。


作者承认该研究有一些局限。首先,作者们衡量软件质量的能力有限,只能通过评分和下载量等消费数据进行间接推断。第二,仍然没有覆盖市场中其他一些重要部分,尤其是企业软件和仅供内部使用的软件。


瑕不掩瑜。这项研究揭示了一个基本事实,到目前为止,AI与人类的之间的互补性依然很强。即使智能体在多步骤复杂任务中的自动化能力在提升,但它们只是在一层又一层的闭环中,基本以渐进的方式实现自动化,并摆脱人类瓶颈的,但人类始终在设定那个更大圈层的闭环,以及闭环之外更广阔的AI应用空间。人在环中,智能体也在环中。


--


完整论文:


https://www.nber.org/system/files/working_papers/w35275/w35275.pdf

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。