扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
在ARC-AGI-3基准测试中,人类满分而GPT-5.5和Claude Opus 4.7得分低于1%,揭示当前AI在抽象推理和适应新环境上的重大缺陷。 ## 1. ARC-AGI-3:测试智能本质的终极挑战 - 由Keras之父设计的135个全新逻辑环境,要求测试者通过探索和假设验证自主构建规则。 - 人类首次接触即可100%解决问题,而所有AI模型表现均低于1%(GPT-5.5:0.43%,Opus 4.7:0.18%)。 ## 2. 三大核心失败模式导致AI崩溃 - **局部反馈≠全局理解**:模型能识别单步动作效果(如旋转物体),但无法整合为完整策略。 - **训练数据绑架思维**:将新任务误认为已知游戏(如俄罗斯方块、打砖块),导致行动偏离。 - **侥幸通关≠真正学习**:Opus 4.7在任务"ka59"中误读点击机制,后续关卡因错误认知彻底失败。 ## 3. GPT-5.5与Opus 4.7的差异化失败 - **Opus 4.7:过度自信的直觉**:快速形成错误理论并坚持执行(如任务"cn04"中的错误计时假设)。 - **GPT-5.5:发散性思维陷阱**:虽能提出正确思路(如镜像效应),但无法专注执行,反复切换假设。 - 根本差异在于"压缩能力":Opus过度压缩观察为错误模型,GPT-5.5则无法完成有效压缩。 ## 4. AGI发展的关键启示 - 当前AI依赖文化知识而非抽象推理,面对全新逻辑环境时表现甚至不及6岁儿童。 - ARC-AGI-3证明:实现人类级智能需突破"新颖性、模糊性、规划、适应性"四大核心能力。
2026-05-02 13:40

这套题,GPT-5.5、Opus4.7加起来没考到“1分”,人类却拿了满分100?

本文来自微信公众号: 机器之心 ,作者:关注AGI的,原文标题:《这套题,GPT-5.5、Opus 4.7加起来没考到「1分」,人类却拿了满分100?》


在大模型「卷生卷死」的今天,大家似乎已经习惯了模型在各大榜单上刷出逼近满分准确率。然而,在一项名为ARC-AGI-3的基准测试中,堪称当下「最红炸子鸡」的两款顶尖模型——OpenAI的GPT-5.5和Anthropic的Claude Opus 4.7,却双双「折戟」……


近日,ARC Prize官方发布了针对这两款顶级模型的详细分析报告,结果令人震惊:在面对未见过的逻辑任务时,两者的表现得分均低于1%,GPT-5.5得分0.43%,Claude Opus 4.7得分0.18%。



这意味着,即便拥有千亿级参数和近乎无限的算力,这些模型在处理「全新逻辑环境」时的表现,甚至不如一个6岁的儿童。


这是怎么一回事?


ARC-AGI-3:智能的「真伪试金石」


为了更好理解这一成绩,首先我们来了解一下ARC-AGI-3,这是由Keras之父François Chollet创立的基准测试系列的最新一代,于今年3月分布。


François Chollet当时称,当一个AI系统在首次接触所有环境时,其行动效率能够达到或超过人类水平,才算真正「攻克」ARC-AGI-3。


而根据团队进行的大量的人类测试结果来看:在没有任何先验训练、没有任何说明的情况下,人类在第一次接触时可以100%解决这些环境中难题,与此同时,目前所有前沿的AI推理模型在这一测试上的表现都低于1%。



彼时,OpenAI的GPT-5.5和Anthropic的Claude Opus 4.7还没有发布,如今来看,这两个模型也同样难逃这一结果。


具体来看,ARC-AGI-3是由135个全新环境组成的测试集,每个环境都由人类手工设计,用来测试模型面对「未知」的能力。


对于测试者来说,无论人类还是AI,进入环境中将不会获得任何的玩法说明,要前进,取得进展,必须做到以下几点:


  • 探索未知界面;


  • 从稀疏反馈中推断规则(构建世界模型);


  • 提出并验证假设;


  • 从错误中恢复;


  • 将经验迁移到下一关(持续学习)。


每个环境的构建都缺乏模型通常依赖的文化知识,只保留「抽象推理能力本身」。


换句话说,可以把ARC-AGI-3理解为,一个在「新颖性、模糊性、规划、适应性」上的最低共同测试集合,而这些,正是现实世界任务对智能体的核心要求。因此,ARC-AGI-3也被公认为目前最接近「人类智能本质」的测试。


顶尖模型纷纷「败北」背后的三大失败模式


此次,GPT-5.5和Claude Opus 4.7的表现得分均低于1%的成绩固然令人「心痛」,但比起成绩,知道背后的失败原因似乎更重要。


ARC Prize研究团队通过分析160组完整运行轨迹,包括模型的每一步操作和推理过程,总结出了导致模型「崩溃」的三大核心失败模式:


一、真实的局部反馈,虚假的世界模型


模型能够理解哪一步动作产生了变化(局部反馈),但无法将这种因果效应转化为一套通用的全局规则。


这是一个最为明显的原因。比如,在一个需要旋转物体以匹配插槽的任务中,模型能够识别出「我按下这个键,物体可以旋转」这一局部规律,但它无法将此逻辑上升为全局目标,进一步推理出:「旋转会影响结果,因此我需要在行动前调整物体方向以匹配目标。」


换句话说,模型失败不是因为它们「看不见」,而在于无法把观察的事物整合成一个完整的世界模型。


比例,Claude Opus 4.7在运行任务「cd82」时,在第4步已经意识到执行「ACTION3」可以旋转容器,随后在第6步也观察到执行「ACTION5」可以倾倒或蘸取油漆。然而,它始终无法将这些碎片化的认知转化为一个完整的逻辑策略,即「先调整桶的方向,然后再蘸取油漆,以还原左上角的目标图像」。


Claude Opus 4.7理解ACTION3旋转物体,但未能理解游戏的概念。


或者在任务「cn04」中,Claude Opus 4.7虽然发现了一个成功的「旋转后放置」交互逻辑(这是正确的假设,见第23步),但随后却陷入了追求「整体形状重叠」的误区(错误假设),并为了追求「顶行进度」的假象而偏离了目标(见第60步)。


二、被训练数据「绑架」的抽象思维


模型对当前环境产生了误判,由于受到训练数据的影响,它们会将一个全新的「ARC-AGI-3」任务误认为是在玩另一种已知的游戏。


这种失败模式源于模型对训练数据的「错误抽象」,在多次运行中,模型反复尝试通过将其映射到已知游戏来解释陌生的机制,这些游戏包括:「俄罗斯方块」「青蛙过河」「推箱子」「粉末游戏」「填充颜色」「打砖块」等。


虽然从核心先验知识中提取抽象概念在理论上有助于解决问题,但这些来自训练数据的字面类比反而「绑架」了模型的动作选择,从而演变成:局部视觉相似、导致被误认为完整的游戏规则、行动方向被带偏。


比如,在任务「cd82」中,GPT-5.5的思维被锚定在了流沙、物理模拟或「填充颜色」的游戏机制上;而在任务「ls20」中,它将本应是按键组合的逻辑误判为了「打砖块」。


三、通关了关卡,却没学会规则


模型侥幸通过了某个特定关卡,却无法利用那个成功的奖励信号来强化并执行正确的后续操作。这说明,「通关并不等于理解」。


Claude Opus 4.7的两次记录很好地说明了这一点。


在任务「ka59」中,Claude Opus 4.7用37步完成了Level 1,但它对「点击」这一操作的理解其实是错误的——它认为点击是在「传送当前角色」。虽然结果看起来像是一次干净利落的胜利,但本质上只是对底层机制的误读,恰好碰上了一个比较宽容的关卡。


因此,当进入Level 2,需要真正的机制(形状匹配与推动)时,Opus将这种错误理解进一步固化为「点击每个目标来填充它」,结果可想而知,整个过程彻底偏离、崩溃,且无法恢复。


Opus 4.7正在运行任务「ka59」,陷入了「盲目点击(Click-fishing)」的死循环,游戏得分:2.04%。


在「ar25」任务中也是如此。Opus在Level 1通过对「镜像移动」的正确解读成功通关(见第4步);随后在Level 2,它实际上已经发现了新的「可移动轴」机制(见第227步),但紧接着它又陷入了幻觉,开始臆想出诸如「打孔」或「需要翻转」等并不存在的规则。


在这两种情况下,Level 1的成功掩盖了模型对底层机制的缺失或扭曲,这种「局部胜利」反而为错误的Level 2策略提供了一个看似自信的支撑框架。


这也说明,早期关卡的推进并不能可靠反映模型是否真正理解了任务。如果没有明确检验模型「为什么能过关」,它就会把错误的认知带入下一关,并在此基础上不断放大偏差。


GPT-5.5 vs Opus 4.7:不同的「翻车」姿势


有意思的是,虽然GPT-5.5和Opus 4.7的得分成绩都不尽如人意,但研究团队通过对比两者的运行记录发现,它们的失败方式完全不同。


简单来说就是,Claude Opus 4.7的问题是「压缩错了」,而GPT-5.5的问题则在于「压缩不了」。


具体来看,Opus 4.7在短周期的机制发现方面表现更强。例如在任务「ar25」中,它几乎立刻识别出镜像结构,并顺利通过Level 1;在任务「ka59」中,即便世界模型并不完整,它也能读出「双角色、双目标」的布局,并完成较短的Level 1操作序列。


但问题在于,它也更容易抓住一个错误的「恒定特征」,并坚定执行下去。


比如在任务「cn04」中,它构建了一套「进度/计时/转换」的错误理论,并在这一假设下不断尝试操作(第60步)。它确实形成了一套「可运行的解释」,只是这套解释是错的。


GPT-5.5则是另一个极端。它的「假设生成」更广泛,这使得它更有可能说出正确的思路,但同时也更难将其转化为具体行动。


比如在任务「ar25」中,它识别出了镜像效应,但不断重新打开「可能的游戏类型空间」,在「俄罗斯方块」「青蛙过河」「乒乓球」「汉诺塔」之间反复横跳,始终无法坚定地执行镜像逻辑。而在任务「ka59」中,它也构建出了正确的对象结构——两个目标轮廓和一个可切换的第二角色——但始终没有真正执行这一理解。


换句话说,Claude Opus 4.7有点像「过度自信的直觉主义者」,GPT-5.5则像「思维发散的理论家」。


而归根结底,两者之间的这种差异在于「压缩」能力的区别:Claude Opus 4.7将观察压缩成了一个「自信但错误」的理论,而GPT-5.5则几乎无法完成压缩,始终停留在分散的可能性之中。


不得不说,此次Claude Opus 4.7和GPT-5.5双双在ARC-AGI-3,这一堪称目前最接近「人类智能本质」的测试上的低分表现,揭示了一个事实:AGI之路「道阻且长」啊。


你呢,如何看待AI的这一成绩?欢迎在评论区留言、交流!


参考链接:


https://x.com/fchollet/status/2050328852107612559


https://arcprize.org/blog/arc-agi-3-gpt-5-5-opus-4-7-analysis


https://x.com/GregKamradt/status/2050262126120632554

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: