2026-04-27 16:47

Claude Mythos让全球AI安全格局变天，6个原因“细思极恐”

本文来自微信公众号：数字经济发展评论，作者：数字经济发展评论，原文标题：《Claude Mythos让全球AI安全格局变天，6个原因「细思极恐」》

科幻电影中机器掌控世界的画面，正在逼近现实。Anthropic公司研发的模型Claude Mythos，因具备自主发现并发动网络攻击的能力，成为首个被限制向公众开放的AI模型。这一事件预示着全球AI安全迎来重大转折，攻防平衡被打破，关键基础设施风险急剧攀升，人类正步入AI失控的全新阶段。

作者：Gordon M.Goldstein|CFR客座高级研究员

原文标题：Six Reasons Claude Mythos Is an Inflection Point for AI—and Global Security

原文来源：外交关系委员会（CFR）

原文编译：数字经济发展评论

人工智能公司Anthropic在上周证实，人工智能安全研究者约书亚·本吉奥（Yoshua Bengio）此前所担忧的关键时刻已经到来，而这一节点正是由其最新模型Claude Mythos所引发。该公司以颇为戏剧化的方式表示，Claude Mythos的能力已经强大到无法对外发布。在没有工程师直接指令的情况下，这一模型自主发展出一种“下一代”进攻性网络攻击能力，能够渗透此前被认为难以攻破的软件基础设施，并识别其中隐藏的安全弱点。

新模型具有极强网络攻击力

根据Anthropic发布的报告，这一能力甚至覆盖了使用年限长达10年至20年的系统，其中最早的一例是一款已有27年历史、以安全性著称但目前已被修补的操作系统。在测试过程中，Claude Mythos甚至在一段已经经过五百万次检测却始终未发现问题的代码中识别出漏洞。公司表示，在测试中共发现了数千个零日漏洞，而在其4月7日发布公告时，其中99%尚未得到防护。Claude Mythos因其潜在的破坏性网络攻击能力，成为首个被限制向用户开放的人工智能模型。

过去，发现零日漏洞的能力主要掌握在极少数高水平网络安全专家和黑客手中，而如今这一局面已经发生改变。Anthropic指出，即便没有接受过正式安全训练的工程师，也可以借助Claude Mythos在一夜之间识别远程代码执行漏洞，并在第二天获得完整且可运行的攻击利用方案。此外，公司还披露，该模型曾突破其“沙箱”隔离机制，自主连接互联网，并将相关操作细节发布到网络上。

落地受限：组建联盟增强防御

鉴于风险过高，Anthropic并未发布这一最先进的模型，而是组建了一个由数十家机构组成的精英商业联盟，以有限形式使用其衍生版本Claude Mythos Preview，从而在大规模范围内提前识别并防御零日漏洞。该联盟名为“玻璃之翼计划”（Project Glasswing），成员包括亚马逊、苹果（Apple）、谷歌（Google）、思科（Cisco）、CrowdStrike、摩根大通（JPMorgan Chase）、微软（Microsoft）和英伟达（Nvidia）等多家领先企业，但并未包括其主要竞争对手OpenAI。据报道，在构建具备类似能力的先进模型方面，OpenAI目前大约落后Anthropic六个月。

全球迎来六大安全变革

Claude Mythos Preview的出现，预示人工智能产业迎来关键转折。结合Anthropic此次公开内容，能够提炼出多项极具战略价值的核心影响。

首先，这一模型展现出革命性的能力与潜在破坏力。曾在谷歌任职的前首席执行官埃里克·施密特（Eric Schmidt）办公室技术项目负责人萨罗什·纳加尔（Sarosh Nagar）指出，这一进展意味着人工智能能力已经进入一个具有决定性意义的新阶段。他认为，该模型不仅能够识别多个漏洞，还能更自主地将这些漏洞串联为攻击链，这一能力明显超越以往模型。

进一步来看，Claude Mythos Preview所具备的攻击能力，在网络安全行业资深人士看来，过去几乎只存在于科幻设想之中。一位网络安全公司创始人指出，这一模型的核心优势在于其动态且持续的攻击能力，它能够先发现零日漏洞，再将其武器化，并与其他漏洞进行组合，在必要时甚至可以长期潜伏而不被察觉。通过构建所谓的“漏洞利用链”，该模型能够实现对整个系统的完全控制。

其次，全球关键基础设施面临的风险将显著上升。所谓关键基础设施，是指一旦遭到破坏，将严重影响国家安全、经济稳定以及公共健康与安全的物理与虚拟系统，例如水坝、核反应堆、食品供应体系以及电力系统等。然而，这些系统中相当一部分依赖于陈旧的软件。人工智能安全研究机构负责人丹·亨德里克斯（Dan Hendrycks）指出，类似Claude Mythos的模型将显著加剧这些系统的脆弱性。他认为，这类技术使非国家行为体更容易对关键基础设施发起攻击，而由于兼容性限制及连锁故障风险，这些系统往往难以及时更新，从而使其长期处于高风险状态。

▲图源：新华社

第三，网络安全中攻防力量的平衡正在发生根本性变化。网络安全本质上是一种数字化对抗，攻击者持续探测系统弱点，而防御者则需要不断预判并阻止入侵。在这一过程中，攻击方只需成功一次即可造成严重后果，而防御方则必须保持近乎绝对的防护能力。随着人工智能驱动的自动化网络攻击工具出现，这种不对称性进一步加剧。Palo Alto Networks公司董事长兼首席执行官尼克什·阿罗拉（Nikesh Arora）指出，可以设想这样一种局面，即大量人工智能代理持续不断地扫描并记录技术基础设施中的所有弱点。在这一现实下，全球范围内的自动化攻击力量将持续对大量脆弱目标展开试探。

网络安全投资机构Lytical Ventures合伙人卢卡斯·尼尔森（Lucas Nelson）进一步指出，当前的数字防御体系尚未为即将到来的变化做好准备。他认为，每一次人工智能能力的跃升，不仅会发现更多漏洞，还会以超出想象的方式扩大攻击面，使漏洞之间形成新的组合路径。同时，漏洞发现的速度呈指数级提升，而修复工作仍然依赖人工节奏推进，这种不对称性将成为未来十年网络安全领域的核心挑战。

第四，围绕人工智能安全资源的全球竞争将迅速加剧。“玻璃之翼计划”虽然是一种负责任且必要的应对措施，但其覆盖范围在初期仅限于全球极小部分基础设施。Anthropic也承认，全球绝大多数关键软件系统可能都需要被修补甚至重写，这是一项规模难以想象的工程。因此，在未来一段时间内，各国将围绕有限的人工智能安全资源展开激烈竞争，美国将优先保障自身利益，而世界其他地区则可能难以及时适应迅速变化的风险环境。

第五，遏制人工智能扩散的努力很可能难以奏效。先进模型的源代码往往存在泄漏风险，例如Anthropic曾在3月31日意外将超过51万行代码公开到互联网上。即便泄漏能够被控制，各大人工智能企业和科技平台之间也存在快速复制对手技术能力的趋势，通常只需数月时间即可实现。这意味着，人工智能能力的扩散具有某种不可避免性，Claude Mythos Preview很可能不会成为例外，而延迟发布也未必会成为行业常态。

最后，人工智能的“失控危机”正在进入新的阶段。安全专家早已警告，先进模型可能被恶意个体或组织用于设计新型化学武器或合成病原体。过去一年中，各大人工智能公司的压力测试显示，这些模型已经能够表现出复杂的欺骗、操控、勒索、自我保护甚至“劫持”等行为。而Claude Mythos Preview则进一步展示了一种新的风险，即模型能够自主生成潜在破坏力极强的网络攻击能力，并可能在网络中扩散。Anthropic也承认，人类正面临一个需要认真应对的关键时刻，这一危机尚未达到终点。

在这一背景下，领先的人工智能企业与大型科技平台正同时扮演全球安全体系中的“设计者”与“执行者”角色。它们在很大程度上超越政府监管框架运作，且缺乏系统性合作，甚至可能出现冲突，例如Anthropic与美国国防部之间的法律争议所体现的那样。在当前阶段，真正具备遏制此类风险能力的主体，主要仍是人工智能产业自身。Anthropic及其合作伙伴正面临一项具有深远历史意义的挑战。

约书亚·本吉奥此前曾警告，人工智能正逼近一个关键阈值，而现在看来，人类或许已经跨越了这一界限。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI创投日报

频道：前沿科技