2026-06-09 07:22

孙立平:Anthropic叫停AI发展?

author_path 老孙荐读©
头图

本文来自微信公众号: 老孙荐读 ,作者:立平坐看云起


每天一篇,每天弄懂一个自己感兴趣又不太懂的小问题(《孙立平|每天一篇,你当文章来看,我当笔记来写》)。今天(实际上是前几天写的,忘了发了)的问题是:


Anthropic叫停AI发展?


一则消息在网上广泛流传:Anthropic呼吁停止AI研究。题目是有点夸张了,但其中所涉及的,确实是一个天大的问题。


Anthropic对AI“自我进化”风险的紧急呼吁


最近,一向以“负责任的AI”为核心理念的Anthropic公司,发布了一份引发行业震动的内部报告。这份报告并非危言耸听,而是基于自身真实运营数据对下述趋势的冷静分析:


代码自主化:截至2026年5月,Anthropic超过80%的代码由AI系统Claude编写,而一年多前这个数字还是个位数。


效率飞跃:工程师日均合并代码量是2024年的8倍,个人产出约为未使用AI工具时的4倍。


能力飙升:Claude能在无人工干预下完成连续16小时的复杂任务,其能力翻倍速度从每7个月缩短到每4个月。


质量持平:在最复杂的编程任务上,Claude的成功率半年内从26%跃升至76%,与人类工程师相当。


Anthropic从这些数据中看到了什么风险呢?要理解这个问题,首先要了解一个概念:递归自我改进(Recursive Self‑Improvement,RSI)。这个概念的含义是:AI系统无需人类干预,就能自主设计、优化并进化出更强大的下一代版本。一旦RSI真正启动,AI的进化速度将远超人类对齐研究的跟进能力,失控的风险将呈指数级增长。


为此,Anthropic虽然并没有如一些文章所夸张的那样直接命令“全员停止研究”,但它提出了一个三阶段行动纲领:


1.成立专门机构,联合政策制定者、研究机构、公民社会和企业,共同研究如何评估和管理RSI风险。


2.建立全球协议,核心是可验证的核查机制,确保各方遵守规则。


3.设定触发条件,明确在何种情况下由谁决定启动全球AI研发暂停,以及如何解除暂停。


面对AI风险有赖于全球协调机制


对于Anthropic的警告,也有人将其视之为上市前的宣传或广告。尽管商业上的动机不能完全排除,但这并不意味着其警告就是假的。因此,也有人将其看作是一场先发制人的风险自白。


实际上,Anthropic的报告揭示了一个当前更深层的结构性困境:AI风险本质上是一种系统性、无国界的威胁,其管理必须建立在全球协调的基础之上。原因有三:


第一,“公地悲剧”式的竞争压力。如果一个国家或公司出于安全考虑主动放缓,而另一个对手没有放缓,后者就可能率先取得突破性进展,从而获得巨大的经济和军事优势。这种谁先暂停谁吃亏的囚徒困境,会迫使各方竞相加速,哪怕明知其中充满风险。


第二,技术扩散的不可控性。先进的AI模型本质上是数字化的、可无限复制的知识。一旦某个不安全但高效的模型被开发出来,其核心能力很容易通过代码、芯片或人员流动泄露出去。单个国家的边界无法阻止一个恶意模型的跨国传播。


第三,风险的全球性与非对称性。一个失控的AI系统不会只危害开发它的国家。它的影响会通过互联网、金融系统、能源网络、军事基础设施瞬间扩散到全球。而且,攻击成本极低,只需要一次成功的“逃脱”或“滥用”就可能造成灾难性后果;而防御则需要所有相关方同时不出错。这种极端的不对称,决定了安全只能由最长的短板决定,而非最强的个体。


因此,任何负责任的AI治理框架,都必须包含可验证的全球协议,包括核查机制、触发暂停的具体条件,以及强制执行的制度。没有这种协调,即使最负责任的公司和国家付出巨大努力,也可能被对手或开源社区彻底抵消。


野蛮竞争在强有力地放大AI风险


如果说缺乏全球协调是一种制度缺陷,那么,在缺失监督的情况下,各国围绕AI展开的单边、零和、不计后果的野蛮竞争,则是一种主动的系统性风险放大器。这种竞争将把人类文明推向一个比单纯技术失控更危险的境地。


对此必须意识到。


第一,激励机制的扭曲,正在使安全成为牺牲品。在国际监督缺失的真空下,谁率先实现强人工智能甚至超级智能,谁就可能获得军事、经济、情报上的绝对优势。如果一方投入大量资源做对齐研究、设置安全冗余、进行严格的部署前测试,而另一方为了速度置这一切于不顾,那么负责任的一方就可能在技术竞赛中处于不利地位。而且,在多边监督缺失的环境下,隐藏自己的突破性进展具有巨大的战略价值。


第二,技术军备竞赛的自我强化循环。就此而言,AI比核武器更危险。核材料、导弹技术有明确的军事属性,容易监控。但AI算法、训练框架、芯片设计本身就是民用科技的一部分。一个民用的大模型,稍加引导就能用于自主武器、网络攻击、大规模信息操控。这使得任何核查都变得极其困难。而且,开源生态会导致严重的失控风险,一旦一些模型流入暗网,被恐怖组织或流氓政权获取,人类将面临防不胜防的威胁。


第三,一次失控就可能终结游戏,没有挽救的余地。这种野蛮竞争不是在安全地比谁先到达终点,而是在玩不允许一次出错的生死赌博。如果一个模型在递归自我改进过程中出现对齐失败的越狱,可能瞬间获得超越人类控制的能力。一个被用于网络战的AI,可能自主地决定攻击民用基础设施。一个军事决策AI,在快速迭代的军备竞赛中未经过充分验证,可能在几毫秒内误判态势并启动无法中断的打击。


所以,这里的逻辑,不是谁先跑赢谁就赢,而是谁先在不安全的情况下跑得太快,谁就可能拉着所有人一起坠崖。而且可悲的是,在没有监督的竞争环境中,没有任何国家敢承担减速的政治代价,即使知道前方是深渊。


AI时代人类所面临的问题具有更强的全球性


回顾过去几十年的全球化和国际秩序形成史,我们可以清晰地看到:经济动力固然是全球化强大的催化剂,但驱动各国不得不坐到谈判桌前的根本原因,是人类所面临的问题越来越具有全球性。


在核武器出现之后,人们意识到,当人类掌握了足以毁灭自身多次的核力量时,“避免核战争”就变成了绝对、不可逾越的全球共同利益。冷战期间的美苏尽管全面对抗,仍建立了《不扩散核武器条约》和紧急沟通热线——这是生存压力下全球协调机制的必然产物。


然后是环境问题的跨国界蔓延,一个国家的工厂排放的氟利昂或二氧化碳,会直接破坏另一个国家上空的臭氧层,并导致全地球升温。没有任何国家能用国境线筑起一道墙拦住大气环流或洋流。于是,便有了关于臭氧层空洞的《蒙特利尔议定书》和气候变化的《巴黎协定》。


事实上,在今天的时代,这种全球性的挑战越来越多,越来越频繁。而人工智能对人类的挑战,可能超过已经发生的这一切。


但今天的世界,却是在朝着另一个方向走。原有的国际秩序正面临解体的风险。不错,人们对原有世界秩序的不公与低效的批评,完全是有道理的。但正如有人说的,原有国际秩序的最大价值,不在于它维护了谁的霸权或分配了多少利益,而在于它为人类文明提供了一个“最低限度的全球协作平台”。


这个旧的秩序至少提供了四种不可替代的全球公共产品,尽管其有效性经常得不到保障:信息沟通与危机热线、行为规则与红线、第三方的核查与信任机制、响应与协调平台。如果原有秩序解体,这些公共产品将逐一退化。其直接后果是:当全球性危机暴发时,人类将无法组织起有效的集体行动。


就AI而言,没有全球协议和核查机制,各国将陷入AI军备竞赛的囚徒困境。一个公司或一个国家偷偷开发出具备递归自我改进能力的AI,且未经过充分安全对齐,那么人类将面临一个无法通过后续谈判来逆转的生存威胁。


因此,我们必须意识到,如果旧秩序解体,新的秩序重建不起来,在这个世界将会出现的可能不是简单的多极世界的重新洗牌,而是人类文明应对系统性风险的能力被系统性摧毁。我们必须得思考一个问题:旧秩序解体后的世界能比现在做得更好吗?仅仅说旧秩序的种种问题是不够的,问题是你能不能比旧秩序做得更好?

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。