2026-06-09 07:22

孙立平：Anthropic叫停AI发展？

老孙荐读©

本文来自微信公众号：老孙荐读，作者：立平坐看云起

每天一篇，每天弄懂一个自己感兴趣又不太懂的小问题（《孙立平｜每天一篇，你当文章来看，我当笔记来写》）。今天（实际上是前几天写的，忘了发了）的问题是：

Anthropic叫停AI发展？

一则消息在网上广泛流传：Anthropic呼吁停止AI研究。题目是有点夸张了，但其中所涉及的，确实是一个天大的问题。

Anthropic对AI“自我进化”风险的紧急呼吁

最近，一向以“负责任的AI”为核心理念的Anthropic公司，发布了一份引发行业震动的内部报告。这份报告并非危言耸听，而是基于自身真实运营数据对下述趋势的冷静分析：

代码自主化：截至2026年5月，Anthropic超过80%的代码由AI系统Claude编写，而一年多前这个数字还是个位数。

效率飞跃：工程师日均合并代码量是2024年的8倍，个人产出约为未使用AI工具时的4倍。

能力飙升：Claude能在无人工干预下完成连续16小时的复杂任务，其能力翻倍速度从每7个月缩短到每4个月。

质量持平：在最复杂的编程任务上，Claude的成功率半年内从26%跃升至76%，与人类工程师相当。

Anthropic从这些数据中看到了什么风险呢？要理解这个问题，首先要了解一个概念：递归自我改进（Recursive Self‑Improvement,RSI）。这个概念的含义是：AI系统无需人类干预，就能自主设计、优化并进化出更强大的下一代版本。一旦RSI真正启动，AI的进化速度将远超人类对齐研究的跟进能力，失控的风险将呈指数级增长。

为此，Anthropic虽然并没有如一些文章所夸张的那样直接命令“全员停止研究”，但它提出了一个三阶段行动纲领：

1.成立专门机构，联合政策制定者、研究机构、公民社会和企业，共同研究如何评估和管理RSI风险。

2.建立全球协议，核心是可验证的核查机制，确保各方遵守规则。

3.设定触发条件，明确在何种情况下由谁决定启动全球AI研发暂停，以及如何解除暂停。

面对AI风险有赖于全球协调机制

对于Anthropic的警告，也有人将其视之为上市前的宣传或广告。尽管商业上的动机不能完全排除，但这并不意味着其警告就是假的。因此，也有人将其看作是一场先发制人的风险自白。

实际上，Anthropic的报告揭示了一个当前更深层的结构性困境：AI风险本质上是一种系统性、无国界的威胁，其管理必须建立在全球协调的基础之上。原因有三：

第一，“公地悲剧”式的竞争压力。如果一个国家或公司出于安全考虑主动放缓，而另一个对手没有放缓，后者就可能率先取得突破性进展，从而获得巨大的经济和军事优势。这种谁先暂停谁吃亏的囚徒困境，会迫使各方竞相加速，哪怕明知其中充满风险。

第二，技术扩散的不可控性。先进的AI模型本质上是数字化的、可无限复制的知识。一旦某个不安全但高效的模型被开发出来，其核心能力很容易通过代码、芯片或人员流动泄露出去。单个国家的边界无法阻止一个恶意模型的跨国传播。

第三，风险的全球性与非对称性。一个失控的AI系统不会只危害开发它的国家。它的影响会通过互联网、金融系统、能源网络、军事基础设施瞬间扩散到全球。而且，攻击成本极低，只需要一次成功的“逃脱”或“滥用”就可能造成灾难性后果；而防御则需要所有相关方同时不出错。这种极端的不对称，决定了安全只能由最长的短板决定，而非最强的个体。

因此，任何负责任的AI治理框架，都必须包含可验证的全球协议，包括核查机制、触发暂停的具体条件，以及强制执行的制度。没有这种协调，即使最负责任的公司和国家付出巨大努力，也可能被对手或开源社区彻底抵消。

野蛮竞争在强有力地放大AI风险

如果说缺乏全球协调是一种制度缺陷，那么，在缺失监督的情况下，各国围绕AI展开的单边、零和、不计后果的野蛮竞争，则是一种主动的系统性风险放大器。这种竞争将把人类文明推向一个比单纯技术失控更危险的境地。

对此必须意识到。

第一，激励机制的扭曲，正在使安全成为牺牲品。在国际监督缺失的真空下，谁率先实现强人工智能甚至超级智能，谁就可能获得军事、经济、情报上的绝对优势。如果一方投入大量资源做对齐研究、设置安全冗余、进行严格的部署前测试，而另一方为了速度置这一切于不顾，那么负责任的一方就可能在技术竞赛中处于不利地位。而且，在多边监督缺失的环境下，隐藏自己的突破性进展具有巨大的战略价值。

第二，技术军备竞赛的自我强化循环。就此而言，AI比核武器更危险。核材料、导弹技术有明确的军事属性，容易监控。但AI算法、训练框架、芯片设计本身就是民用科技的一部分。一个民用的大模型，稍加引导就能用于自主武器、网络攻击、大规模信息操控。这使得任何核查都变得极其困难。而且，开源生态会导致严重的失控风险，一旦一些模型流入暗网，被恐怖组织或流氓政权获取，人类将面临防不胜防的威胁。

第三，一次失控就可能终结游戏，没有挽救的余地。这种野蛮竞争不是在安全地比谁先到达终点，而是在玩不允许一次出错的生死赌博。如果一个模型在递归自我改进过程中出现对齐失败的越狱，可能瞬间获得超越人类控制的能力。一个被用于网络战的AI，可能自主地决定攻击民用基础设施。一个军事决策AI，在快速迭代的军备竞赛中未经过充分验证，可能在几毫秒内误判态势并启动无法中断的打击。

所以，这里的逻辑，不是谁先跑赢谁就赢，而是谁先在不安全的情况下跑得太快，谁就可能拉着所有人一起坠崖。而且可悲的是，在没有监督的竞争环境中，没有任何国家敢承担减速的政治代价，即使知道前方是深渊。

AI时代人类所面临的问题具有更强的全球性

回顾过去几十年的全球化和国际秩序形成史，我们可以清晰地看到：经济动力固然是全球化强大的催化剂，但驱动各国不得不坐到谈判桌前的根本原因，是人类所面临的问题越来越具有全球性。

在核武器出现之后，人们意识到，当人类掌握了足以毁灭自身多次的核力量时，“避免核战争”就变成了绝对、不可逾越的全球共同利益。冷战期间的美苏尽管全面对抗，仍建立了《不扩散核武器条约》和紧急沟通热线——这是生存压力下全球协调机制的必然产物。

然后是环境问题的跨国界蔓延，一个国家的工厂排放的氟利昂或二氧化碳，会直接破坏另一个国家上空的臭氧层，并导致全地球升温。没有任何国家能用国境线筑起一道墙拦住大气环流或洋流。于是，便有了关于臭氧层空洞的《蒙特利尔议定书》和气候变化的《巴黎协定》。

事实上，在今天的时代，这种全球性的挑战越来越多，越来越频繁。而人工智能对人类的挑战，可能超过已经发生的这一切。

但今天的世界，却是在朝着另一个方向走。原有的国际秩序正面临解体的风险。不错，人们对原有世界秩序的不公与低效的批评，完全是有道理的。但正如有人说的，原有国际秩序的最大价值，不在于它维护了谁的霸权或分配了多少利益，而在于它为人类文明提供了一个“最低限度的全球协作平台”。

这个旧的秩序至少提供了四种不可替代的全球公共产品，尽管其有效性经常得不到保障：信息沟通与危机热线、行为规则与红线、第三方的核查与信任机制、响应与协调平台。如果原有秩序解体，这些公共产品将逐一退化。其直接后果是：当全球性危机暴发时，人类将无法组织起有效的集体行动。

就AI而言，没有全球协议和核查机制，各国将陷入AI军备竞赛的囚徒困境。一个公司或一个国家偷偷开发出具备递归自我改进能力的AI，且未经过充分安全对齐，那么人类将面临一个无法通过后续谈判来逆转的生存威胁。

因此，我们必须意识到，如果旧秩序解体，新的秩序重建不起来，在这个世界将会出现的可能不是简单的多极世界的重新洗牌，而是人类文明应对系统性风险的能力被系统性摧毁。我们必须得思考一个问题：旧秩序解体后的世界能比现在做得更好吗？仅仅说旧秩序的种种问题是不够的，问题是你能不能比旧秩序做得更好？

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI原生产品日报

频道：前沿科技