扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2025-04-22 07:49

又一篇“苦涩的教训”,让AI觉得人间有不值,发现无穷尽

本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究,题图来自:AI生成

文章摘要
DeepMind提出AI新范式“体验时代”,强调通过环境互动与自主经验学习的智能体将超越人类局限,迈向超人智能。萨顿重申“苦涩教训”,认为计算与学习终将替代人为知识注入。Ilya预言超级智能将不可预测且具备自我意识,未来数据源于AI生成与真实世界交互。体验式学习将加速科学发现,需构建独立于人类的智能系统以纠偏认知谬误。

• 🌱体验式学习:环境互动与持续经验流将催生具备超人能力的AI智能体。

• 💡苦涩教训:计算与学习能力终将取代人类知识注入的结构化设计。

• 🚀超级智能数据:未来数据源于AI自生成、真实世界交互及最优答案筛选。

• 🤖自我意识必然:机器自主设定奖励函数后将产生不可预测的自我意识。

• 🔬科学加速器:AI智能体通过自主实验推动材料、医学等领域突破性发现。

• 🌍独立智能体:需构建脱离人类偏见的智能系统以纠偏认知谬误与虚假信息。

“我们正站在人工智能新时代的门槛上。”


“新一代智能体将主要通过自身经验学习,获得超越人类的能力。”


短短两句话,足以说明《欢迎来到体验世界》绝对是近两三年来最重要的AI论文。


作者是DeepMind的强化学习副总裁席尔瓦(David Silver)和图灵奖得主萨顿(Richard Sutton)



一、体验式学习通向超人智能(ASI)


“我们认为,一旦充分释放体验式学习(experiential learning)的潜力,人工智能将获得惊人的新能力。这个“体验时代”将以这样一类智能体及其环境为特征:它们不仅能从海量的经验数据中学习,还将在多个层面上突破以人为中心的AI系统的限制:


  • 智能体将生活在持续不断的经验流中,而非仅仅经历片段式的交互;


  • 它们的行动与观察将深深扎根于环境之中,而不仅仅通过人类语言进行互动;


  • 它们的奖励将来源于与环境的实际互动,而不是基于人类的主观判断;


  • 它们将围绕自身经验进行规划与推理,而不是仅按照人类语言或思维方式来推理。


我们相信,当前的技术水平,配合适当的算法,已具备实现这些突破的强大基础。同时,AI社区在这一方向上的持续探索,将激发一系列创新,推动AI快速迈向真正具备超人能力的智能体。”


二、再次咀嚼苦涩的教训


萨顿是强化学习之父,人类知识与认知结构的局限性,他已经在经典文章《苦涩的教训》中说得很清楚:


人类试图注入知识与结构性设计的努力,终将被计算与学习能力所取代。真正有效的AI方法,是那些能够利用计算进行广泛训练、学习以取得成果的方法。


这里他再次提醒的,显然是机器在自我学习中的经验,而主要不是人类的经验。


三、Ilya Sutzkever的超级智能


看到这篇文章,不禁想起OpenAI前首席科学家Ilya Sutzkever。


他在离开OpenAI后创办了公司Safe Superintelligence Inc.(SSI)


Ilya去年底已经公开宣判大语言模型的预训练已死。他把互联网上的数据,比作AI的“化石能源”,总有一天要开采完。他指出了将来三个数据来源:AI可以产生新的数据,AI自己可以决定从大量可能的答案中选取最好的那个,人类可以从真实世界获取数据。



Ilya预言,我们将会向着超级智能前行,这将与之前的智能有着本质的不同。“AI系统的本质和特征即将剧变。”


关于超级智能的推理能力,Ilya这样描述:“它想得越深,就会越不可测。(The more it reasons,the more unpredictable it becomes。)。我们现有的AI是可测的,因为它是对人类直觉的模仿重现,想想人类大脑如果你让它在0.1秒内给出答案,它只能是直觉反应。”


所以(机器的)推理将会是不可预测的。就像2016年AlphaGo对弈李世石时,在第二番棋中下出的第37“神之一手”。


“AI只有变得不可预测,才能战胜人类。”


四、LLM在走出低谷


去年9月份,我们发表了一篇文章,《强化学习正在引领AI跨越LLM之谷|笔记》,提醒西尔瓦在MIT的一个演讲,提出超级规模的强化学习展开了一条通向超人智能的明确路径,而这一切“仅仅是开始”。现在,他正式提出了AI的新范式。



我们可以对比下,8个月之前,他在当时正在走出谷底的曲线上,只是打出了3个问号;现在,出现了AlphaProof和Computer Use这两个智能体。


(主流人工智能范式的简要时间轴草图。纵轴表示该领域在强化学习(RL)上的总体研究投入与计算资源所占比例。)


五、AI肯定会有自我意识


可以肯定,机器会有自我意识。对于人类个体来说,终极的奖励机制,就是人类的意识,以及从中产生的意义。当机器会为自己设定奖励函数后,肯定会产生自我意识。这已经不再是个哲学问题,或者说不是存在意义上的哲学问题,而是一个在伦理意义上的哲学问题,也是个工程问题。


Ilya认为超级智能将会产生自我意识。“为什么不呢?自我意识是有用的,就像我们人类,意识是自我的一部分,自我意识是我们世界模型的一部分。”


六、东方的顿悟


论文中提到了DeepSeek的推理模型进行强化学习训练时,所出现的“顿悟时刻”。


一个有趣的“顿悟时刻”出现在DeepSeek-R1-Zero的中间版本中。该模型学会了以拟人化的语气重新思考。这对我们来说也是一个顿悟时刻,让我们见证了强化学习的力量与美感。


(来源:DeepSeek R1论文)


七、人类需要独立于自己的智能


论文表达了这样一个意思,如果说AI产生了garbage in,garbage out的结果,那也可能是因为人类自己在科学与迷信、真实与谬误上还分不清:


一个被训练来模仿人类思想甚至匹配人类专家答案的智能体,可能会继承深深嵌入在数据中的谬误思维方法,例如有缺陷的假设或内在的偏见。


想想看,当互联网上的语言已经被虚假的信息和垃圾内容污染后,而乌合之众又以此为自己的精神食粮,可能以后AI的价值,在于帮助人们获得最起码的知识营养。


人类要为自己的认知备份,那就是让机器更加科学地思考,从体验中产生更真实的数据,更真诚的奖励机制。我们需要一个与人类对照的智能。


八、真正的智能体


它有长期记忆,有短期目标与长期目标,它可能在即时的奖励机制中犯下错误,但是会根据长期奖励机制进行纠错。这才是真正的智能体,持续纠错,终身学习。


九、科学大发现


论文中提到最多的,是下一代智能体对科学探索的价值。一旦摆脱以人为中心的强化学习,下一代智能体将会超越人类已有的知识。体验式学习把知识扎根于真实的世界中,并且从世界模型中预测和产生奖励机制,在与环境的互动过程中,不断试错,这非常类似于人类的科学探索过程:


也许最具变革意义的将是科学发现的加速。人工智能智能体将在材料科学、医学或硬件设计等领域自主设计和进行实验。通过不断从自身实验的结果中学习,这些智能体可以迅速探索新的知识前沿,从而以前所未有的速度开发出新型材料、药物和技术。


十、后果


人类自负。


论文来源:

https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
文集:
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: