2024-03-06 15:44

OpenAI与DeepMind的Scaling Laws之争

神州问学©

本文来自微信公众号：神州问学（ID：gh_20b0d0649537），作者：Zhongmei，题图来自：视觉中国

在大语言模型中，我们期望模型能够理解人类语言的一般规律，从而做出和人类相似的表达方式，通常使用大量的数据进行训练来实现这一目标。在训练预训练模型时，有两个可以提高语言模型性能的选项：增加数据集大小和增加模型中的参数量。

在此基础上，训练过程中还存在一个限制条件，即训练成本，比如GPU的数量和可用于训练的时间等。因此，大语言模型的预训练，通常伴随着模型容量、数据量、训练成本的三方权衡博弈。

Figure 1. 模型规模扩展的选项概览

什么是Scaling Laws

对于这种三角形式的拔河关系，往往存在一些三元悖论，比如分布式计算领域中的公认定理：CAP理论。分布式系统不可能同时满足一致性、可用性和分区容错性，最多只能同时满足其中2个条件。大语言模型训练中同样存在这种三元关系的探索，这就是缩放定律（Scaling Laws）。

在大语言模型预训练过程中，交叉熵损失（cross-entropy loss）是一种常用的性能衡量标准，用于评估模型预测输出与真实情况之间的差异。较低的交叉熵损失意味着模型的预测更准确。训练的过程也是追求损失值最小化的过程。

Scaling Laws的意义在于，AI专业人士可以通过它来预测大模型在参数量、数据量以及训练计算量这三个因素变动时，损失值的变化。这种预测能帮助一些关键的设计决策，比如在固定资源预算下，匹配模型的最佳大小和数据大小，而无需进行昂贵的试错。

OpenAI V.S DeepMind

NO.1 DeepMind

We’re a team of scientists， engineers， ethicists and more， committed to solving intelligence， to advance science and benefit humanity.
—— DeepMind

DeepMind，成立于2010年并于2015年被谷歌收购，是Alphabet Inc.的子公司。该公司专注于开发能模仿人类学习和解决复杂问题能力的AI系统。作为Alphabet Inc.的一部分，DeepMind在保持高度独立的同时，也在利用谷歌的强大能力推动AI研究的发展。

DeepMind在技术上取得了显著成就，包括开发AlphaGo，击败世界围棋冠军李世石的AI系统，展示了深度强化学习和神经网络的潜力，开启了一个AI时代。

另一项重要成就是AlphaFold，这是一个革命性的用于准确预测蛋白质折叠的工具，对生物信息学界产生了深远影响。DeepMind用AI进行蛋白质折叠预测的突破，将帮助我们更好地理解生命最根本的根基，并帮助研究人员应对新的和更难的难题，包括应对疾病和环境可持续发展。

NO.2 OpenAI

“Our mission is to ensure that artificial general intelligence, AI systems that are generally smarter than humans，benefits all of humanity.”

——2023年2月14日《Planning for AGI and beyond》

在谷歌收购DeepMind后，为避免谷歌在AI领域形成垄断，埃隆·马斯克和其他科技行业人物于2015年决定创建OpenAI。它作为一个有声望的非营利组织，致力于开发能够推动社会进步的AI技术。不同于DeepMind像一个精于解决棋盘上复杂战术的大师，专注于解决那些有明确规则和目标的难题，OpenAI更像是一个擅长语言艺术的诗人，致力于让机器理解和生成自然的人类语言。

从坚持初期被外界难以理解的GPT路线信仰，直到拥有1750亿参数的GPT-3问世，OpenAI展示了其在生成式模型上无与伦比的能力，引领了另一个AI时代。类比Deepmind和谷歌的关联，OpenAI与科技巨头微软牵手，展开了深度的战略合作，进一步推进AI技术的发展。

Figure 2. Deepmind和OpenAI核心产品发展时间线（原创）

NO.3 OpenAI在Scaling Laws研究中的主要成就：GPT系列模型

2020年，来自OpenAI的Kaplan等人的团队，在Scaling Laws for Neural Language Models论文中首次提出模拟神经语言模型的模型性能（Loss）与模型大小、数据集大小和训练计算量的关系。该团队发现三者中任何一个因素受限时，Loss与其之间存在幂律关系。

注：幂律指的是两个变量中的一个变量与另一个变量的某个幂次成正比。如果体现在图表中，当两个轴都是对数时，图像呈现为直线）

Figure 3. Loss随着模型大小、数据集大小和用于训练的计算量的增加而平稳下降

该团队的研究结论总结如下：

影响模型性能的三个要素之间，每个参数会受到另外两个参数的影响。当没有其他两个瓶颈时，性能会急剧上升，影响程度为计算量 > 参数 > 数据集大小。
在固定算力预算下进行训练时，最佳性能可以通过训练参数量非常大的模型，并在远离收敛前停止（Early Stopping）来实现。
更大的模型在样本效率方面表现更好，能以更少的优化步骤和使用更少的数据量达到相同的性能水平。在实际应用中，应该优先考虑训练较大的模型。

Figure 4. 参数量为10^3到10^9不等的几个模型，训练运行中的Loss随训练token和计算量的变化曲线

OpenAI的观点可以翻译为：

如果大语言模型的训练过程是一位厨师在制作一道复杂菜肴，那么语言模型的性能就是这道菜的最终口味。

模型大小是厨师水平。更有经验的厨师（更大的模型）通常能做出更美味的菜肴。随着厨师技能的提升，菜肴的味道（模型性能）也会随之提升。

数据集大小是厨师可以使用的食材种类和数量。更多的食材选择（更大的数据集）意味着厨师有更多的组合方式来创造美味（更好的模型性能）。

训练的计算量是准备和烹饪食物的时间及所用的厨具。更多的准备和烹饪时间，以及更好的厨具（更多的计算资源），通常能使菜肴更加精致。

OpenAI的研究，就像在不断调整这三个方面（厨师的技能、食材的多样性和烹饪的资源），最终制作出一道口味卓越的菜肴。并从其中得到的经验：影响制作出一道美味的菜肴（高性能的语言模型）的因素，烹饪的资源（训练的计算量）> 厨师的技能（模型大小）> 食材的多样性的影响（训练的计算量）。

因此，为了资源更好的利用，应该优先选择更大的模型。也正是因为这项研究，OpenAI有了在数据和参数规模上Scaling-up的信心。在同一年，火爆全球的GPT-3问世。

NO.4 DeepMind在Scaling Laws研究中的主要成就：Chinchilla

2022年，来自Deepmind的Hoffmann等人的团队，在Training Compute-Optimal Large Language Models提出了与OpenAI截然不同的观点。

OpenAI建议在计算预算增加了10倍的情况下，如果想保持效果，模型的大小应增加5.5倍，而训练token的数量仅需增加1.8倍。

Deepmind这支团队则认为模型大小和训练token的数量都应该按相等的比例进行扩展，即都扩大3倍左右。该团队还暗示许多像GPT-3这样的千亿参数大语言模型实际上都过度参数化，也就是说它们的参数量超过了实现良好的语言理解所需，并训练不足。

该团队的研究结论如下：

Figure 5. 给定不同的FLOP预算（不同颜色），训练损失和模型参数量的关系

1. 对于给定的FLOP预算，损失函数有明显的谷底值（Figure3）：模型太小时，在较少数据上训练较大模型将是一种改进；模型太大时，在更多数据上训练的较小模型将是一种改进。也就是说，在给定的计算量下，数据量和模型参数量之间的选择平衡存在一个最优解。

2. 在计算成本达到最优情况下，模型大小和训练数据（token）的数量应该等比例进行缩放，即：如果模型的大小加倍，那么训练数据的数量也应该加倍。对于给定参数量的模型，最佳的训练数据集大小约为模型中参数量的20倍。比如，对于一个7B的模型，理想的训练数据集大小应该约为140B tokens。

3. 大模型训练需要更加关注数据集的扩展，但是只有数据是高质量的时候，更大数据集的益处才能体现出来。

回到刚才做菜的比喻，Deepmind的观点是认为当烹饪资源（计算量）一定时，厨师的水平（模型规模）和食材多样性（数据大小）同等重要。而一个厨师，拥有自己水平20倍丰富度的食材，做出的菜才是最佳效果。

基于这种模型规模和数据量的重新评估，他们训练了Chinchilla模型，一个基于1.4T tokens训练的70B模型，并发现Chinchilla的表现在大范围的下游任务评估中一致且显著地优于Gopher（280B）、GPT-3（175B）、Jurassic-1（178B）和Megatron-Turing NLG（530B）。

这个现象，某种程度上代表了大语言模型发展的一个新方向：从一味追求模型规模的增加，变成了优化模型规模和数据量的比例。

国内有什么观点？

目前国内关于讨论Scaling Laws的论文还不是很多。根据目前搜集到的部分公开资料，可以看到百川智能的Baichuan2和北京理工大学的明德大模型（MindLLM）的论文中，讲述了各自对Scaling Laws的尝试。

两者在真正着手训练数十亿或者百亿参数的大语言模型之前，训练多个小型模型为训练更大的模型拟合拓展规律。具体做法是在同一套（足够大）的训练集上，采用一致的超参数设置，独立训练每个模型，收集训练的计算量和最终损失。而后以OpenAI论文中结论的幂律关系拟合，预测出期望参数量模型的训练损失。

百川的做法是在开始训练7B和13B参数量模型前，设计大小从1000万到30亿不等的7个模型，采用一致的超参数，在高达1Ttoken的数据集上进行训练。基于不同模型的损失，拟合出了训练浮点运算次数（FLOPs）到训练损失的映射，并基于此预测了最终大参数模型的训练损失。（Figure 5）

Figure 6. Baichuan2的缩放定律：使用1万亿个token训练了从1000万到30亿参数不等的7个模型，对给定训练浮点运算次数（FLOPs）时的训练损失进行幂律拟合（蓝线），从而预测了在2.6万亿token上训练Baichuan2-7B和Baichaun2-13B的损失。拟合过程精确预测了最终模型的损失（两颗星标记）

明德大模型团队的关注点与百川相似，在训练3B模型前，在10b Tokens上训练了参数量从1000万到5亿的5个模型，通过分析各个模型的最终损失，同样基于幂律公式，建立从训练浮点运算次数（FLOPs）到目标损失的映射，以此预测最终大参数模型的训练损失。（Figure 6）

Figure 7. MindLLM的缩放定律: 在100亿token的数据集上训练参数从1000万到5亿参数的5个模型。通过对训练浮点运算次数（FLOPs）和损失幂律拟合，预测使用5000亿token的数据集训练MindLLM-3B的最终训练损失。该拟合过程准确预测了模型的最终损失，用星星标记。

此外，李开复零一万物团队的黄文灏，在知乎上关于Yi大模型的回答也较有代表性：

“Scaling Laws is all you need：很多人都认为Scaling Laws就是用来算最优的数据和参数量的一个公式，但其实Scaling Laws能做的事情远不止如此。为了真正理解Scaling Laws，要做的第一件事就是忘记Chinchilla Scaling Laws，然后打开OpenAI Scaling Laws的paper，再把paper中OpenAI引用自己的更早的paper都详细地读几十遍。”

其中Chinchilla Scaling Laws指的是DeepMind的思想。黄文灏认为大模型需要的是系统性的研究，把基础研究做好，才能更好的支持scale up。

OpenAI和DeepMind哪个会更早到达AGI?

Deepmind在Levels of AGI: Operationalizing Progress on the Path to AGI中提出了一个直观的分类方法，可以帮助更清楚地理解AGI的各个发展阶段。如下图所示，这个分类体系基于两个关键维度：性能（深度）和泛化性（广度）。

其中，性能（深度）分为了 Level 0-5，代表无AI-涌现-胜任-专家-大师-超人类六个能力层次；泛化性（广度）分为了专用（Narrow）和通用（General）两个维度。专用指类似于专精于特定领域或任务的专家。而通用更像是多才多艺的全能型人才，能够处理广泛的非物理任务，包括学习新技能等元认知能力。

这个系统就将AGI 分成了12个有独特特征的层级，就像我们职场中的不同职级一样，每个等级都代表了不同的能力和责任。（Figure 7）

Figure 8. 根据能力的深度（性能）和广度（通用性）对走向AGI（人工通用智能）的系统进行分类

在DeepMind发布的标准中，OpenAI的ChatGPT在通用能力上还处于Level 1的阶段，能力等同或略强于没有经过训练的人类。而DeepMind的AlphaFold在专业能力上，已经处于Level 5阶段，在特定领域上的表现将100%强于人类。

不难看出，DeepMind的AI系统更关注具体任务上，比如深蓝和AlphaGo属于人类大师水准，而AlphaFold和AlphaZero表示已经超越了人类。Google的语言模型过去也更看重下游任务的表现。相比之下，OpenAI的ChatGPT，一直保持着追求新兴的高泛化AI特性的理念，倒是DALL·E在这个标准中属于专家水平。

随着Google高调发布Gemini，我们看到搜索霸主与屠龙少年，现在都迈入了同一条波涛汹涌的河流。此前，Google CEO Pichai被问到：“没抢在ChatGPT前发布Bard，你错过了什么？”Pichai回答：“谷歌不是第一个做出搜索引擎，也不是第一个做出浏览器。有时候成为第一很重要，但有时候无关紧要。”

我们很难判断未来到底谁是最终赢家，谁将会第一个到达AGI或是以什么方式到达，但是我们相信，你追我赶才是技术研发创新和市场充满活力的良好状态。

结语

竞争有时候不仅是技术的较量，也是对未来愿景的探求。中国在大模型基础研究的起步时间虽然稍晚，但目前国内市场也体现出了较高的参与热情。

这场关于大模型竞争的深远影响或许会远超过单纯的技术突破。它引发了全球对人工智能的深思和投资，激发了一个更广阔的讨论：在构建智能的未来时，我们的目标和道路应该是什么。可能最后，通过全球范围内的合作与知识共享，会共同铺就了人工智能发展的多元化道路。在这个过程中，我们将不仅见证技术的飞跃，也会参与对人类与机器共存的未来的塑造。

参考资料和插图：

Scaling Laws for Neural Language Models

Training Compute-Optimal Large Language Models

Baichuan 2: Open Large-scale Language Models

MindLLM: Pre-training Lightweight Large Language Model from Scratch， Evaluations and Domain Applications

Levels of AGI: Operationalizing Progress on the Path to AGI

本文来自微信公众号：神州问学（ID：gh_20b0d0649537），作者：Zhongmei

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

文集：

拥抱“AI”

AI创投日报

频道：前沿科技