语言与大模型：通向AGI之路-虎嗅网

本文来自微信公众号：穿云寻恒星（ID：cyxhx2022），作者：Max，原文标题：《语言、大模型与AGI》，题图来自：《终结者3》

一

语言和世界知识不可分离。一些观点认为可以把AI模型的知识和语言能力分离，用一个小模型来完成语言功能，然后连接一个很大的知识库，这样就可以用小模型来实现强大的功能。我想这样做的效果恐怕会让人失望，可以从语言和模型两个角度来说明。

1. 语言角度：仅凭基本的语法结构是无法构成有意义的语言的。语言学家乔姆斯基举过这样一个例子：colorless green idea sleeps furiously，这是符合句法结构的但毫无意义的一句话，没有颜色无法来形容绿色，绿色的想法是什么，想法如何睡觉，睡觉又如何愤怒。要想一句话有意义，就必须要对知识有所理解。

我们的日常对话中蕴含了大量的世界知识，历史故事被凝结成了一个成语，或者一个网络故事成为了互联网黑话，抽离了世界知识的对话体验一定是很差的。同样的词汇在不同语境中的含义可能不同，在不同时期的含义也未必相同。思想史研究中非常注重词语所在年代的含义，而非它的现代解释。我们有很多的舶来词汇，他们在现代和古代有着截然不同的含义。要理解这些含义的不同，仅靠语法知识是不够的，需要结合历史，也就是背景知识。

2. 从模型角度来看，GPT模型预测任何一个单词，所有参数都会被激活（尽管有手段将模型做得更稀疏化）。就像人脑一样，我们无法仅拿出大脑的某个区域让他完成该区域的功能，大脑必须要完整地存在才可以完成一项哪怕很简单的任务。要预测下一个单词，或者说给出下一个单词的概率分布，需要对世界的运行机制有足够的了解，才能够准确预测。这是一个全方位的能力调用，语言中浓缩了对时空、事物位格、因果关系等多重因素的理解。

二

Scaling law所表现出来的涌现特征，是在足够规模知识的积累上，一些上下文学习/举一反三的能力开始体现，这里足够的规模是必不可少的条件。

Richard Sutton所总结的AI研究在过去70年的bitter lesson，即只有蛮力计算是最有效的，这是一种简洁且暴力的美学。基于人类知识的方法往往很复杂，不太适合利用好通用算力，容易陷入局部最优；只有把自身依托于快速演进的摩尔定律才能往全局最优的方向发展。

就像斯蒂芬·平克在《思想本质：语言是洞察人类天性之窗》中讲到的，人类擅长在概念间建立连接：“人们从一种概念框架翻转到另一种概念框架、人们利用一些概念作为另一些概念的隐喻”，“主宰传统教育的是一种叫作储贷模型的导管隐喻，这种教育模式下，教师把有价值的信息灌输给学生，学生则设法尽可能地记住它们，以备将来考试时使用。而进步主义教育哲学的目标则是引导孩子们重新开发知识，而不是被动地仓储一个个孤立的事实”。足够多的概念连接在一起，才能形成一张意义之网。

三

暴力美学的一个问题是可解释性差，这是客观事实。但关于人类的很多知识可解释性都很差，我们真的知道自己是怎么思考的吗？尽管人都对自己的想法深信不疑，但却说不上来是哪组神经元通过怎样的激活、传导过程产生了当下的想法。如果无法回答这样的问题，为何要对机器有这样的要求？（大概是他心问题迁移不到机器上吧，关于这个问题，有兴趣的读者可以去搜索塞尔的“汉字屋”问题和相应反驳）

我们真正需要的是对模型做一些约束，也就是所谓的alignment。其实现在我们连Alignment的目标都无法给出完全清晰的回答，更多是通过隐性的学习人类偏好来实现与人类目标的对齐。如果真的要可解释性，可以先从alignment入手。

ps. 一个有意思的点，GPT-4预训练模型在alignment之前calibration很准（知道自己不知道），在做完RLHF之后反而失去了calibration能力（不知道自己不知道），似乎是人把模型教坏了。

四

当然我们可以用外部知识库如搜索引擎来增强语言模型，这样的技术手段已然存在。但语言模型本身所蕴含的知识越多，其语言能力也越强这一点是不会变的。而且一些只有在大模型中才会涌现的逻辑思维能力，也很难从语言中完全抽离出来。

维特根斯坦认为，语言表达的意义必须由世界的本质来决定，否则表达的意义或含义将会变得模糊和不确定。我把这里的“世界的本质”理解为一种世界知识，这种世界知识只有在储备足够丰富的时候才能相对完备。如果世界知识有着重大欠缺，那么语言表达的意义会变得含混，逻辑链条很难清晰展现。

我们之所以觉得ChatGPT经常在一本正经地胡说八道，不是因为ChatGPT没有语言能力，而是因为我们和ChatGPT的知识之间没有对齐。我们在现实中遇到的问题太复杂，要考虑不同人在不同语境中面对不同的实时问题求解语境所给出的不同的求解策略，以至于无法给出某种规则化、机械化的解决方案。这时基于概率的、贝叶斯更新的、具有足够知识储备的模型就显得尤为重要。

GPT-4在学习丰富文本和图片的时候是在学习一个世界模型，这个世界模型无法简单拆分成为语言和知识，他是浑然一体的，甚至逻辑、智能也包含在其中。这正是模型预训练阶段的意义，先把全部的知识灌输其中，然后再通过指令微调/RLHF的方式把模型的本已经具有的能力激发出来，让它更符合人类偏好。

五

语言是人类智慧的本质之一。智人战胜尼安德特人是靠语言带来的智慧和社会结构革命，哲学研究到后面也要融合语言学，否则无法清晰地表达哲学命题。智能跟语言有着千丝万缕的关联。从这个角度，语言模型是当前各模态中最为重要的。

当然，长期来讲可能是视频，这里面包含的信息更丰富，语言可以通过声音、图像来表征（我们看到的文字是眼睛感知到的一个个像素构成的，因此可以认为文字这个模态内含于视频模态）。这只是理论上的一种表达，现在还无法对海量视频数据做全部信息的清晰标注并基于此完成学习。

六

在多模态融合中，因为语言模型是最先训练好的，且足够强大，可以通过语言模型向其他模态注入知识，让其他模态的效果大幅提升，比如GPT-4展示的搞笑图片理解。幽默可以理解为与预期的不符，这要求模型可以判定原先的预期，以及图像哪里不符合预期，这种关于预期的知识很难从图像中获得，只能来自于文本模态。

类似地，LAMPP: Language Models as Probabilistic Priors for Perception and Action这篇paper中讲到了将语言模型作为先验知识引入：An X has a Y：plausible/non-plausible，通过这个概率给出了更好的图像语义分割结果。

我认为特斯拉的自动驾驶最终也需要引入语言模型（不一定是GPT-4这么强的），可以通过多模态的对齐把从语言模型中获得的人类知识灌输过去，解决传统图像/视频语义识别的难点。现在的占用网络是可以判断前方没见过的障碍物，但对于该障碍物的危险性，或者一个人的手势/意图的理解都是比较薄弱的，如果有语言模型的世界知识，那么对于图片背后的“暗物质”就会有更好的理解。因为人对一个物体的理解是基于场景的，这个场景知识很难靠图片本身来获得。

七

通往AGI的路并不复杂，就是靠规模。这里的规模包含数据量（模态种类丰富度以及单一模态的数据量）、模型参数量、投入的训练算力，基础的transformer模型架构已经足够强大。人类进化到现在所经历的历史虽然很长，但数据和算力的增长速度远远高于历史的自然演进，这导致了Sam Altman所讲的新摩尔定律——总智能每18个月翻番。

智能的高速成长甚至可能颠覆现有的社会结构和经济学，技术从影响生产效率直接跃升为生产要素。控制论祖师爷维纳早在1950年写过《人有人的用处》（the human use of human beings），其中谈到了机器的威胁：“我们给予机器的任何程度的独立性都可能导致对我们自身意愿的反抗，瓶子里跑出的精灵不会心甘情愿地重新回到瓶子里”。

我想说人作为信息的载体，并不仅仅是静态的“being”，也在因信息而流动、变化，即“becoming”。人会找到新的生存策略，无论是避让还是驾驭机器、人机共驾，抑或用机器来武装自己，实现共生。人确有着人的作用，只是我们要重新发现它。

参考资料

https://zhuanlan.zhihu.com/p/526137088 【他心问题】如何证明其他人不是NPC？（该系列文章都不错）

https://yam.gift/2018/04/07/AI/2018-04-07-AI-Philosophy-Note/ 人工智能哲学笔记

https://mp.weixin.qq.com/s/wEtGaul0UtBc9OlWl3PKHQ 过去70年人工智能领域 - 最苦涩的教训

https://mp.weixin.qq.com/s/ZvNw4BfZ5ysn4zzMUQXgNA GPT-4与自动驾驶

《中国思想史十讲（上）》金观涛

《思想本质：语言是洞察人类天性之窗》史蒂芬·平克

《人有人的用处：控制论与社会》诺伯特·维纳

本文来自微信公众号：穿云寻恒星（ID：cyxhx2022），作者：Max

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

语言与大模型：通向AGI之路

大 家 都 在 搜

大家都在搜