2024-12-16 17:16

Ilya：预训练时代将终结，未来 AI 或将不可预测

AppSo

本文来自微信公众号：APPSO，作者：appso，原文标题：《OpenAI 前首席科学家 Ilya：预训练时代将终结，未来 AI 或将不可预测》，题图来自：视觉中国

在温哥华举行的神经信息处理系统大会（NeurIPS）上，OpenAI 前首席科学家 Ilya Sutskever 发表公开演讲。

Ilya 指出，当前 AI 模型预训练方式将不可避免地走向终结。

他还将 AI 训练数据比作“化石燃料”，认为互联网上的人类生成内容是有限的，业界已经达到了数据峰值，“我们只有一个互联网，必须适应现有的数据资源”。

根据他的预测，下一代 AI 系统将突破当前局限，具备真正的主动性和类人推理能力，但他也警告，随着 AI 推理能力的提升，其行为将变得愈发难以预测，就如同即便是顶尖棋手也无法准确预判高级象棋 AI 的走法。

演讲中，他将 AI 的发展规模与生物进化过程进行了对照。

通过引用数据，他指出在对数坐标下，虽然绝大多数哺乳动物的脑重与体重比例都遵循着相似的规律，但人类祖先却展现出一条截然不同的发展曲线。

基于此，他推测正如进化在人类大脑发展过程中找到了新的路径，AI 可能也会突破当前预训练模式的局限，发现全新的发展路径。

演讲结束后，Ilya 也接受了与会者的提问，以下为 Ilya 演讲和提问环节全文，要点概括如下：

Ilya 认为，互联网数据资源就像化石燃料般正在逐渐枯竭，虽然计算能力不断提升，但数据增长速度已见顶，“我们只有一个互联网”这个物理限制无法突破。

预训练时代（GPT-2/3）带来重大突破但也暴露局限，而下一个阶段可能出现智能体、合成数据等新方向。

Ilya 通过图表数据发现哺乳动物大脑和体重的关系遵循一定规律，但人科动物展现出不同的发展曲线，这暗示 AI 也可能找到全新的进化路径。

当前 AI 系统仍主要依赖模仿人类直觉，未来 AI 将具备真正的推理能力，而越具备推理能力的系统行为越难预测（如国际象棋 AI）。

AI 终将具备自我意识，这是理解世界的必要部分，但未来 AI 系统的本质将与现在完全不同，以及 AI 可能会寻求权利和与人类共存。

附上演讲视频原地址：https://www.youtube.com/watch?v=WQQdd6qGxNs

演讲全文

我非常荣幸地感谢主办方选择这篇论文获奖。同时，我也要感谢我的杰出同事和合作者，Oriel Vinyls 和 Quoc V. Le，他们刚才就在大家面前站着。

在这里大家可以看到一张图片，是十年前在新加坡国立大学（NUS）2014年蒙特利尔一场类似演讲的截图。那是一个更加纯真的年代。照片中展示了当时的我们。

这是“上次”，顺带一提，这是“这次”。

现在，我们变得更有经验，也希望更有洞见。

在这里，我想稍微谈谈这个工作的本身，或许也可以对过去十年进行一些回顾。因为在这个研究中，有许多地方是正确的，但也有一些不完全正确。

我们可以回顾一下，看看它们是如何发展的，又是如何逐步流向了今天的方向。

那么，让我们从讨论我们当时所做的事情开始吧。我们会通过展示 10 年前同一场演讲中的幻灯片来说明。我们研究工作的总结可以归纳为以下三个要点：

一个基于文本训练的自回归模型；
一个大型神经网络；
一个大型数据集；

就是这样。现在让我们更深入地探讨一下细节。这是 10 年前的一张幻灯片，效果还算不错——“深度学习假说”。

我们在这里提出的是：如果有一个具有 10 层的大型神经网络，那么它就可以完成任何人类在短时间内能够完成的事情。

为什么我们会特别强调人类能够在短时间内完成的任务呢？为什么是这个？

如果你相信深度学习的教条，也就是说，人工神经元和生物神经元相似，或者至少不太不同，并且你认为生物神经元的处理速度比人类能快速完成的任务慢，那你就会认为一个 10 层的神经网络也能在短时间内完成任何人类能够做到的任务，对吧？这就是推理的过程。

你只需将神经元之间的连接关系嵌入到人工神经网络中。所以，这就是我们的动机。任何人类能在短时间内完成的任务，10 层的大型神经网络也能做到。

我们当时专注于 10 层神经网络，因为那时我们知道如何训练 10 层神经网络。如果能增加更多层数，就能做得更多。但那时我们只能训练 10 层网络，这就是我们特别强调人类能够在短时间内完成的任务的原因。

这是演讲中的另一张幻灯片，展示了我们的核心思路。你们可能能识别出其中的一些要点，或者至少能识别出自回归模型在起作用。

那么，这张幻灯片究竟要传达什么呢？

它的意思是，如果你有一个自回归模型，并且它能够足够准确地预测下一个 Token，那么它实际上会抓住并捕捉到接下来序列的正确分布。

这个想法相对较新，它不是第一个自回归神经网络，但我认为它是第一个我们真正相信的自回归神经网络。我们认为，如果将其训练得足够好，那么它能达到我们想要的效果——机器翻译。

在今天看来，这确实显得保守，但那时却极其大胆。

现在我要向大家展示一些古老的历史，许多人可能从未见过，那就是 LSTM。

对于不熟悉的人来说，LSTM 是深度学习研究人员在 Transformer 出现之前的技术。它基本上是一个 ResNet，只不过旋转了 90 度。

所以，那就是 LSTM，它比 Resnet 稍微复杂一点。你可以看到 integrator，它现在被称为 residual stream。

不过，你会看到一些乘法运算，它稍微复杂一些，但这就是我们当时做的事情——一个旋转了 90 度的 Resnet。

另一个我想强调的来自旧演讲的重点是，我们使用了并行化，但不仅仅是普通的并行化，我们用了流水线并行化，正如这张图所示，每个 GPU 只处理一层。

我们被建议使用流水线并行化。虽然现在我们知道流水线并行化并不总是明智的选择，但当时我们没有其他选择，所以我们采用了这种方法，并通过使用 8 个 GPU 获得了 3.5 倍的速度提升。

从某种意义上说，正是那次演讲的结论幻灯片是最重要的，因为它阐明了 Scaling Laws 的开始。

换句话说，如果你拥有一个非常大的数据集，并且训练一个非常大的神经网络，那么成功是可以保证的？如果要慷慨一些看待这个问题，可以说，这的确是发生了的事情。

我想提到另一个观点，我认为这是经得起时间考验的真正想法。它是深度学习的核心思想——联结主义（connectionism）思想。

这是一个观点：如果你相信人工神经元在某种程度上像生物神经元一样。

你认为它们在某些方面是相似的，那么你就会有信心相信非常大的神经网络不需要达到人脑的规模。它们可以稍微小一点，但你可以配置它们去完成几乎所有人类能做的事情。

尽管如此，人类大脑仍然存在差异，或者我忘了补充这一点，确实存在差异，因为人类大脑能够重新配置自身，而我们只能使用现有的最佳学习算法，这些算法需要的数据点数量和网络参数数量相当，正是这一点使得人类在这一方面仍然更具优势。

按我所见，这一切可以说是引领了预训练时代，而预训练时代正是我们所说的 GPT-2 模型、GPT-3 模型和 Scaling Law 的时代。

我想特别提到我的前合作者 Alec Radford、Jared Kaplan 和 Dario Amodei，正是他们让这一切成为可能。但这也引领了预训练时代。

而这一切推动了我们今天所见的所有进展，包括超大规模神经网络，以及在海量数据集上训练的极其庞大的神经网络。

但正如我们所知，预训练时代无疑会结束。

那么，为什么预训练会结束呢？因为虽然计算机通过更好的硬件、更好的算法和更大的集群持续发展，所有这些因素都在提升计算能力，但数据并没有同步增长，因为我们只有一个互联网。

实际上，我们只有一个互联网，你甚至可以说，数据是人工智能的化石燃料。它某种程度上被创造出来，现在我们用它，达到了数据的巅峰，之后将不会再有更多数据。

我们只能处理现有的数据。我依然认为，尽管如此，这已经可以走得很远，但我们只有一个互联网系统。

所以在这里，我稍微放开一些，来猜测一下接下来会发生什么。实际上，我并不需要完全猜测，因为很多人也在猜测，我会提到他们的猜测。

你可能听过“智能体”这个词，这个词现在很常见，我相信最终会有一些东西发生，但人们觉得智能体是未来的方向。

更具体地说，虽然也有点模糊，就是合成数据。那么，合成数据究竟是什么意思呢？弄明白这一点是一个巨大的挑战，我相信不同的人在这方面都有各种各样有趣的进展。

还有推理时间计算，或者最近最生动的例子之一——o1 模型，这些都是人们在尝试弄明白预训练之后该做什么的例子。

这些都是非常值得做的事。

我想提到另一个来自生物学的例子，我觉得它真的很酷，这个例子是这样的：很多年以前，在这个会议上我也看到过一个演讲，演讲者展示了一张图表，这张图表显示了哺乳动物体型与大脑体积之间的关系。

这里面是体重的关系。在那次演讲中，我记得很清楚，他们说，在生物学中，很多事情都非常混乱，但在这里你可以看到一个非常特殊的例子，动物体型与大脑体积之间有着非常紧密的关系。完全是偶然的，我对这张图表产生了兴趣。

这是早期的一个例子，我去 Google 搜索图表时，找到了这个图片。

所有不同的哺乳动物，然后你会看到非灵长类的灵长类动物，基本上是一样的，但接下来是人科动物。

据我所知，人科动物是与人类进化关系最为接近的物种，比如尼安德特人。这里有很多种类，比如 Homo habilis（能人），还有一大堆物种，它们都在这里。

有趣的是，它们的大脑与身体的比例增长呈现不同的斜率。这个点非常酷。

这意味着在生物学中，存在先例表明不同的比例尺度是可能存在的。显然有所不同。我认为这很酷。

顺便提一下，我要强调的是，X 轴是对数尺度。你看到这个是 100，这个是 1000，10000，100000，同样在克的单位下，1 克，10 克，100 克，1000 克。所以事物是可能有所不同的。

我们所做的、到目前为止我们所扩展的东西，实际上是我们首先学会如何扩展的东西。毫无疑问，这个领域中的每一个工作者都会弄清楚该做什么。但我想在这里花几分钟，来猜测一下更长远的未来，我们到底要去哪里？

我们正在取得巨大的进展，这真是令人震惊的进展。

事实上，我的意思是，那些十年前就在这个领域的人，如果你记得那时一切是多么无能为力的话，真的，虽然你可能会说，当然，深度学习仍然很有潜力，但现在的情况简直难以置信。

如果你在过去两年才加入这个领域，当然，你和计算机对话，它们会回应你并表达不同意见。那就是计算机的样子，但事情一直不是这样的。

但我想稍微谈一下超级智能，因为显然这是这个领域的发展方向。

显然，这就是我们在构建的东西，而关于超级智能的事情是，它将从根本上与我们现在拥有的不同。接下来的一分钟里，我的目标是尽量为你提供一些具体的直觉，来帮助你理解它将如何不同，以便你自己能够推理出它的差异。

现在我们拥有强大的语言模型和令人难以置信的聊天机器人，它们甚至能够完成一些任务，但它们也奇怪地不可靠，它们会感到困惑，但在评估中却表现出极具超人的能力。

所以，如何调和这一点仍然不清楚。但最终，迟早，以下的情形将会实现。

这些系统实际上将以一种真正的方式变成智能体，而现在的系统在任何有意义的层面上都还不是智能体，或许说它们是非常、非常微弱的智能体，仅仅是刚刚开始。它们将真正开始推理。

顺便说一句，我想提一下关于推理的事情：一个进行推理的系统，它进行推理的次数越多，结果就越难以预测。

所有我们习惯的深度学习，都是非常可预测的，因为如果你一直在努力复制人类的直觉，实际上这就像是直觉反应。回到 0.1 秒的反应时间，我们的大脑处理这些信息时是什么？

那就是我们的直觉。因此，我们赋予了我们的人工智能一些直觉。然而，推理，你现在看到的一些早期迹象表明，推理是不可预测的。

一个可以看到的原因是，因为国际象棋的人工智能，最强的那些对于顶级的人类棋手来说是不可预测的。

因此，我们将不得不应对那些极其不可预测的人工智能系统。它们将能够从有限的数据中理解事物，它们不会感到困惑，这些正是目前人工智能面临的巨大限制。

我并不是在说具体怎么做，也不是在说什么时候会发生，我只是说，这一定会发生，并且当这些事情，和自我意识一起发生时，又会发生什么呢？因为为什么不呢？

自我意识是有用的，它是我们自己世界模型的一部分。

当这一切聚集在一起时，我们将拥有今天完全不同性质的系统，当然它们会有令人难以置信和惊人的能力，但与这些系统相关的问题，我只能留给大家自己想象。

毕竟，它们将与我们所熟悉的系统非常不同。

我想说的是，预测未来肯定是不可行的。未来可能会发生各种各样的事情。但在这样一个激励人心的话题上，我将结束我的发言，非常感谢大家。

提问环节

提问：谢谢你，现在在 2024 年，是否有其他生物结构是人类认知的一部分，你认为值得以类似方式探索的，或者你有兴趣去探索的？

Ilya：我回答这个问题的方式是，如果你是一个拥有特定洞察力的人，认为“嘿，我们都在做极其愚蠢的事情，因为显然大脑在做一些事情，而我们却没有”，那么这个可以做的事情，他们应该去追求。

我个人并不这样看，嗯，这取决于你所关注的阻碍层次。也许我会这样回答。

就像曾经有很多人渴望创造生物学启发的人工智能。你可以从某种角度说，生物学启发的人工智能是非常成功的，毕竟深度学习本身就是生物学启发的人工智能。

但另一方面，生物学的启发是非常、非常、非常有限的。就是说，我们用神经元，这就是生物学启发的全部。

更详细的生物学启发一直很难获得，但我并不排除这种可能性。我认为如果有人有特殊的洞察力，他们可能会看到某些东西，而这些东西会很有用。

提问：我想提问一个关于自动纠正的问题。问题是这样的。

你提到推理可能是未来模型的核心方面之一，甚至可能是一个区分因素。我们在一些海报展示环节看到的现象是，今天的模型中的幻觉，分析幻觉的方式是，我们现在知道模型不能推理的危险，我们正在使用统计分析，比如偏离均值多少个标准差，或者其他的方式。

未来，你认为如果模型具备推理能力，它能自己纠正错误吗？

换句话说，自动纠正将会成为未来模型的核心特性之一，这样模型就不会出现那么多幻觉，因为它能意识到什么时候发生了幻觉？

Ilya：是的，答案是肯定的。

我认为你所描述的这个观点极其有可能发生。我的意思是，你应该去查证一下。是的，我不排除它可能已经发生在一些现有的早期推理模型中，我不知道，但从长远来看，为什么不呢？

提问：这就像微软 Word 中的自动更正功能一样，你知道的，它是一个核心功能。

Ilya：是的，我觉得把它称为“自动更正”真的是低估了它的意义。说到自动更正，你会联想到它只是一个简单的功能，但除此之外，答案是肯定的，谢谢。

提问：Ilya，我喜欢最后神秘留白的结尾，

人工智能会取代我们，还是它们优于我们？它们需要权利吗？这是一个新物种的智人，可能它们也需要，我的意思是，我觉得强化学习（RL）的人认为它们需要权利。

我有一个与此无关的问题，那就是如何创造合适的激励机制，让人类实际上以赋予它们我们作为智人的自由的方式去创造它们？

Ilya：我觉得从某种意义上讲，这些是人们应该更多反思的问题。对于你提到的关于应该创造什么样的激励结构的问题，我感觉我没有信心回答这些问题。就像你在谈论创建某种自上而下的结构或政府机制。

我不知道，这也有可能是加密货币。你知道的，有些事情我感觉自己并不是合适的人选来评论加密货币，但，嗯……顺便说一下，你描述的情况是有可能发生的。

确实，我们会有。你知道，从某种意义上说，这并不坏。如果我们有人工智能，而它们所想要的只是与我们共存，并且只是想要权利，也许这就可以了。

提问：你好，谢谢你的精彩讲座。我是来自多伦多大学的 Shelepov Chitz。感谢你所做的一切。我想问一下，你认为 LLMs 是否能够在分布外进行多跳推理的泛化？

Ilya：好吧，这个问题假设了答案是“是”或“不是”。这个问题不应当用“是”或“不是”来回答，因为我们需要弄清楚：什么是分布外的泛化，什么是分布内的，什么又是分布外的？

因为这是一次关于 “时间检验” 的演讲。

我想说，很久很久以前，当人们还没有使用深度学习时，他们使用的东西包括字符串匹配和 n-gram 用于机器翻译，人们使用的是统计短语表。

你能想象他们当时有数万个复杂的编码，这真的是难以想象的。而在那个时候，泛化意味着，它和数据集中的表述字面上不同。

现在，我们可能会说，模型在数学竞赛达到了这个高分。但也许这些数学题在互联网上某个论坛上早被讨论过了，因此它记住了。

好吧，你可以说也许它在分布内，也许是记忆化，但我也认为我们的标准，对于什么算作泛化，已经大大提高了。如果你一直有留意这类发展的话，甚至可以说显著地，不可想象地提高了。

所以，我认为答案是，在某种程度上，模型的泛化能力可能没有人类做得那么好。我认为人类的泛化能力要好得多，但与此同时，他们确实会在某种程度上进行分布外的泛化。我希望这个答案是有用的，尽管它有点重复。

不幸的是，我们的时间到了。我有种感觉，我们可以再聊六个小时，但最后还是非常感谢这次讲座。

本文来自微信公众号：APPSO，作者：appso

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

文集：

拥抱“AI”

AI原生产品日报

频道：前沿科技