涌现：AI“思考”背后的科学-虎嗅网

本文来自微信公众号：集智俱乐部，作者：杨明哲，原文标题：《涌现——AI“思考”背后的科学｜杨明哲》

非常感谢大家今天来捧场。我来自北京师范大学系统科学学院，目前是一名研究生。今天想和大家分享的主题，其实也正是我自己正在研究的科学问题。之所以选择这样一个题目，是因为我一直希望，能够从一个非常朴素的思考起点出发，带大家一步一步走进我所研究的世界。

所以今天的分享，我会尽量减少那些让人望而生畏的数学符号，也会尽可能剔除不必要的学术术语。但与此同时，我也不希望它只是一次停留在表面的浅层科普。我还是想保留一些值得深入思考的内容，让我们不仅知道一个概念，也能真正靠近它背后的问题意识。

按照通常的讲法，谈到“涌现”这个主题，似乎总该先列举几个经典案例：哪些现象可以称为涌现，哪些系统体现了涌现，借此向大家说明它究竟是什么。这一次，我更想从自己最初遭遇这个概念的经历讲起。

大概是在中学时期，我开始读一些带有哲学和科学思辨色彩的书。那时我常常会想：什么是生命？什么是意识？我相信，经常来参加这样活动的朋友，多多少少都思考过类似的问题。也正是在那个阶段，我第一次接触到“涌现”这个概念。坦率地说，当时我并不真正明白它意味着什么，也说不清它的准确内涵。但它的出现，至少帮助我排除了一些答案。

它仿佛在告诉我们：当我们试图理解生命、意识这类问题时，也许并不需要诉诸某种额外的、神秘的解释，不必依靠“活力论”、灵魂，或者其他同样复杂却难以检验的概念。相反，我们可以回到系统本身，去看组成它的那些具体部分如何相互作用。比如，理解意识，并不一定要从某种抽象的“精神实体”出发，而是可以回过头来观察人体，尤其是大脑，观察神经元之间复杂而持续的互动。在这样的路径中，意识之谜不再只是一个遥不可及的哲学命题，而成为一个可以被逐步逼近的科学问题。

更吸引人的是，涌现并不只出现在某一个特定领域。它广泛存在于各种不同的复杂系统之中：蚁群、鸟群、神经网络，乃至许多社会系统，都可能体现出类似的现象。你会发现，一些看似彼此遥远的系统，背后却可能共享某种深层的相似性。它意味着不同类型的复杂系统，也许并不是彼此孤立的，而是可以在更高层次上被放进同一种理解框架中。

这也带来一种非常重要的启发：也许你觉得，直接深入神经科学、去研究一个个神经元的活动，门槛太高，难度太大；但你完全可以先从一些更直观的集群行为入手，比如鸟群如何协同飞行、蚁群如何组织行动。当你对“涌现”这一现象有了更扎实的理解之后，它或许会反过来帮助你重新看待意识问题。换句话说，这些看似分属不同领域的问题，彼此之间并非毫无关联，它们可能是可以打通的。

我展示的这一张图，就非常形象地体现了这种“共性”。图中从右往左看，是一群鸟在飞行。单独看，每一只鸟都只是一个微观个体；但当它们在运动中不断调整彼此的位置与方向时，整个群体却会汇聚成某种更大的、清晰可辨的整体形状。如果我们做一个类比，可以把这些鸟想象成大脑中一个个神经元：它们各自是独立的微观单位，但通过持续的相互作用，最终却可能呈现出宏观层面的结构、秩序，甚至功能。

这正是涌现最令人着迷的地方：宏观层面的行为，并不是简单地把微观个体“相加”就能得到的，而是在相互作用中“长出来”的。整体表现出的性质，往往是局部所不直接拥有的。也正因为如此，涌现不仅是一种现象描述，更是一种理解复杂世界的重要视角。

我引用这张图的那篇文章《Collective minds》，讨论的是一个很有意思的问题：像鸟群这样的群体，在作为一个整体行动时，是否可以被视为拥有某种“集体心智”？这也是个有意思的问题。作者Lain Couzin就是一位集群行为专家，从集群出发，面向神经科学，在如此不同的两个领域之间搭建起了桥梁。

如果把视野再放远一点，我们还可以举出一些离日常经验更远、但同样典型的例子。它们看起来和生命、意识、鸟群这些对象完全不同，却依然呈现出非常鲜明的涌现现象。比如木星上的“大红斑”。如果看过相关影像资料，大家会发现，在木星表面那种深色背景之上，这个巨大的红色风暴非常醒目。它并不是一阵短暂的天气变化，而是一个规模极其庞大、长期稳定存在的大气涡旋，直到今天仍然在持续。它的尺寸会有波动，有时大一些，有时小一些，但在最大的时期，甚至可以轻松容纳下好几个地球。

从复杂系统的角度看，这其实就是一种非常典型的“模式”或者“斑图”（pattern）。也就是说，在无数局部相互作用之中，系统自发形成了一个稳定、清晰、宏观可见的结构。它像是系统内部动力过程长期演化后自然长出来的东西，底层是各式各样的湍流和混乱的分子运动。正因如此，大红斑也一直是许多研究涌现现象的学者非常关注的对象。虽然它和我们前面讲到的鸟群、蚁群，甚至神经元网络，表面上属于完全不同的系统，但在更深的层面上，它们之间其实有很强的共性。

当然，今天这个话题也绕不开人工智能——它已经写进了我今天分享的标题里。尤其是现在的大语言模型，规模越来越大之后，我们其实完全可以把它本身也看成一个复杂系统，作为研究对象来讨论。既然如此，那些我们在其他复杂系统中会提出的问题，在AI这里同样也可以被重新提出来。

事实上，在AI领域内部，研究者们已经越来越重视这样一种视角。他们开始注意到，当模型规模不断扩大时，系统身上会出现一些很难用线性方式理解的新现象，并且尝试把这些现象系统地总结出来。其中一个很有代表性的概念，就叫作“涌现能力”。

我们更熟悉“缩放规律”：模型更大、数据更多、训练更充分，效果通常就会更好，没有天花板的限制。这种增长关系在很多时候是连续的、平滑的，至少从整体趋势上看是这样。但“涌现能力”真正引人注意的地方在于，它并不完全符合这种平滑提升的直觉。

在某些任务上，在模型规模达到某个阈值之前，它几乎没有表现出相关能力，或者表现得非常差，像是“完全不会”。可一旦跨过那个临界点，能力就会突然显现出来，而且提升得非常显著。也就是说，这种变化并不是均匀爬升，而更像是一种跃迁：前面几乎看不到，到了某个位置以后，突然出现。很多相关研究都会画出类似的图表：横轴是模型规模，从小到大不断增加；纵轴则是一项项具体能力，比如逻辑推理、数学能力、代码能力，或者其他更复杂的任务表现。研究者测试了很多不同维度的能力，想看它们如何随着规模变化而变化。

2022年，OpenAI的一个团队写出了一篇很有影响的论文，综述了这些现象，把大模型中的涌现能力真正带入了更广泛的讨论视野。也正是从那时开始，越来越多的人开始认真讨论：为什么一些能力会在模型规模扩大到某个阶段之后突然出现？这种现象，是否真的可以被称为“涌现”？关于大模型更多的具体研究，我们会在后面展开，现在我们先来追问，为什么这些学者会想到用“涌现能力”来给这个现象命名？

之所以这样命名，并不是一种随意的比喻，它背后其实有明确的理论来源。论文引用了一篇在物理学中极为经典的文章，作者是1977年诺贝尔物理学奖得主菲利普·安德森。那篇文章的标题就叫《More is Different》，通常被译作“多者异也”。它几乎可以说是现代科学讨论涌现时最重要的文本之一。

借用这个思想来理解大模型中的“涌现能力”，核心意思其实很清楚：当系统只发生了一点点定量变化时，可能会引发非常显著的定性变化。放到大模型里，就是参数规模、训练量这些指标看起来只是继续增长了一点，但一旦跨过某个阈值，原本几乎不存在的能力就会突然显现出来。

“多者异也（More Is Different）”可以写成一句最常见的表述：整体大于部分之和。这句话作为涌现的朴素定义没有人会说它错，它确实抓住了涌现问题的一部分直觉。但如果我们把它直接搬到日常语境里，会发现它还不够准确，至少不够完整。

比如拿人本身来举例。一个人当然可以被看作一个复杂系统，即便暂时不谈意识，只看生理系统本身，它也已经足够复杂了。但如果用名为“还原论”的“刀子”把一个人被分成若干部分之后，这些部分的重量加起来，并不会神秘地少于或多于原来的整体。至少在这些意义上，整体并没有“超过”部分之和。

事实上，如果我们想把“涌现”说得更准确一些，还得再往前走一步：不是笼统地说“整体大于部分之和”，而是要问清楚，到底是整体的什么，大于了部分的什么之和。只有把这个问题说清楚，我们才算真正开始理解涌现，真正进入科学讨论的层次。我们需要一把“尺子”，一种可以比较、可以计算、可以量化的框架。只有这样，涌现才不只是一个听起来很深刻的词，而是一个能够被认真研究的问题。

围绕这个问题，不同学者其实给出过很多角度的回答。最早“整体大于部分之和”的说法，可以追溯到亚里士多德。后来，物理学家更强调一些更具体的特征，比如对称性破缺：很多系统在微观上看是对称的，但到了宏观层面，却会沿着某个特定方向发展，呈现出不对称的结构。再比如刚才提及的微小的定量变化可能引发显著的定性变化。还有一些研究者会从秩序的角度来理解，认为系统从微观走向宏观时，可能会自发生成更高层次的有序结构。

也有人从因果关系来谈这个问题：我们在宏观层面看到的结果，未必能直接在微观层面找到一个简单、明确的对应原因。还有一些研究者则更关注“斑图”或者“模式”的出现——只要系统中形成了稳定的宏观结构，并且这些结构反过来影响了系统行为，那么这本身就可以被看作是涌现的重要表现。

这些说法看起来各不相同，但如果稍微整理一下，就会发现它们其实都在试图回答同一件事：我们究竟该用什么“尺子”去衡量涌现？

信息论简介

在这些可能的“尺子”里，我们可以先考察信息这个选项。信息是目前我们已经能够比较成熟地计算的东西。自从香农建立信息论以来，信息就成了一个非常有力量的工具。它的特别之处在于，它不依赖某个具体学科，可以跨越不同系统来使用。无论研究的是神经元、鸟群、天气系统，还是人工智能模型，只要我们关心的是结构、关联和不确定性，信息论往往都能提供一套通用的语言。

这也是为什么它特别适合用来讨论涌现。因为涌现本来就是一个跨领域的问题，而信息论恰恰提供了一种跨领域的度量方法。比如，我们平常会直觉地区分“有序”和“无序”，但如果只靠感觉，这种区分其实很模糊。借助信息论里的概念，比如熵、互信息等，我们就可以把这种差别真正量化出来。

接下来，我想尽量少用数学符号，把“信息”到底是怎么算的讲清楚。因为真正重要的不是公式本身，而是它背后的直觉：我们到底在度量什么。

先做一个非常简化的想象。假设一群鸟在一个二维平面上飞，每只鸟每一时刻只能朝四个方向中的一个运动：上、下、左、右。这样一来，一只鸟当前朝哪个方向飞，就可以看成它的一个“状态”。

信息论最核心的直觉其实很简单：信息量衡量的是一件事有多“不确定”，或者说，它发生时会带来多大的“惊讶”。越难预料的事，信息量越大；越常见、越容易猜到的事，信息量越小。

所以我们自然会引入概率。比如，一只鸟向上飞的概率是p。如果这个概率很大，说明这件事本来就很常见，那它真的发生时，我们不会太意外；但如果这个概率很小，它却偏偏发生了，那它带来的信息量就更大。于是，一个事件的信息量可以写成：

这里的对数并不神秘，它只是为了把概率上的乘法关系，转成信息量上的加法关系。

有了单个事件的信息量之后，我们还可以继续问：这只鸟平均而言能提供多少信息？因为它不是只会做一个动作，而是在四个方向之间按某种概率分布活动。于是，把每个状态的信息量按对应概率加权平均，就得到它的平均信息量，也就是熵：

熵越大，说明这只鸟的行为越难预测；熵越小，说明它越有规律。但我们真正关心的当然不是一只鸟，而是一群鸟。因为一旦形成鸟群，不同个体之间就开始发生关联。它们不会各飞各的，而是可能同步、跟随、协调。这时候问题就变成了：鸟和鸟之间到底有多相关？

这个量也可以算。对于两只鸟(X)和(Y)，我们一方面可以把它们看成一个整体，计算联合信息；另一方面，也可以分别计算它们各自的信息量。两者一比较，就得到它们之间共享了多少信息，也就是互信息：

这个量可以理解为两只鸟之间关联程度的度量。如果两只鸟总是同步，比如一只往上飞，另一只一定也往上飞，那它们之间的互信息就很高。因为知道其中一只的状态，就几乎等于知道了另一只。反过来，如果两只鸟完全独立、各自随机乱飞，那么知道一只鸟的状态，并不能帮助我们预测另一只，这时候互信息就接近于0。

同样的思路还可以推广到n只鸟。我们把整个鸟群看成一个整体，计算它的总信息量；再把每一只鸟各自的信息量加起来，做一个比较。这个差值在信息论里叫作总相关性（total correlation）：

它衡量的，就是整个系统内部到底整合了多少关联。如果这个值很小，说明系统里的个体基本彼此独立；如果这个值很大，说明系统内部存在很强的协调和耦合。于是，我们就得到了一把可以真正拿来“量”复杂系统的尺子。比如刚才那个例子里，如果一群鸟的飞行方向始终保持一致，那么算出来的相关性就会非常高。直观地说，n只鸟如果总是同步行动，那么它们各自信息量加总之后，再减去整体的信息量，得到的值会很大；而如果系统是无序的、彼此独立的，这个值就会接近0。

从信息到因果

不过，回到直觉层面，我们很快会发现，问题并没有这么简单。

这里放了两个图像：一类是大家在春晚上常见到的机器人集群表演，另一类是自然界中的鸟群。它们看上去都很整齐、都呈现出某种群体秩序，但两者之间其实有一个非常本质的区别。

看到机器人表演时，我们当然会觉得很震撼，觉得它很精密、很厉害。但我们通常不会真的把它理解成一个“复杂系统的涌现”。因为我们心里很清楚：它之所以能表现得如此整齐划一，是因为背后有一个设计者，有人提前编排好了程序、规划好了轨迹。每个机器人的动作其实都已经被写定了，它们的协调不是自己“长出来”的，而是被外部安排好的。

但鸟群不是这样。鸟群背后没有一个总导演，也没有一个中心控制者。它们完全依靠个体之间的局部相互作用，却依然能形成高度协调的集体行为。更重要的是，这种行为能够应对不断变化的环境：捕食者突然出现了怎么办，天气突然变化了怎么办，群体都能够实时调整。相比之下，那些表演机器人离开预设场景，往往就很难应对真实环境中的复杂变化。

所以，这两种“整齐”显然不能混为一谈。问题在于，光靠刚才那种基于相关性或信息量的计算，其实还分不清它们。因为当你真正去观测时，你看到的只是结果：无论是机器人还是鸟群，表面上都呈现出高度一致的行为序列。于是，单靠信息量或相关性，这样的机器人集群也可能被算出很高的秩序。

这就说明，仅仅观察系统表现出来的秩序，还不足以真正抓住涌现。我们还得再往前走一步，把“因果”也带进来。这是另一把“尺子”。

复杂系统研究者约亨·弗洛姆提出过一个很有启发的看法：所谓涌现，往往是这样一种情况——你先看到了一个结果，但一时找不到一个显而易见、可以直接对应的原因。也就是说，结果是清楚的，但原因不是直接摆在眼前的。在这种意义上，涌现之所以让人着迷，恰恰是因为它让“结果从哪里来”这件事变得不那么直观。

下面是一个比较生活化的例子来说明这一点。比如说，我自己就是一个复杂的生理系统，而我会感冒。感冒这件事，显然是一个宏观层面的事件：我知道自己发烧、咳嗽、喉咙痛，也就是在人的整体层面上出现了症状。但这些症状背后的真正原因，并不是直接在宏观层面上就能一眼看到的。我们知道，它一定和更微观层面的过程有关。我们知道，人是由一个个细胞组成的。一个系统既然是由许多单元构成的，那它出了问题，我们很自然就会想：是不是应该把它拆开，看看究竟是哪一部分出了故障。西医很多时候就是这样的思路——把整体分解，去寻找具体的病灶。

但有些问题并没有这么简单。至少就感冒来说，我们当然知道它和细胞层面的过程有关，可在很多情况下，我们并不能轻易在那个层次上给出一个非常直接、清晰的解释。可与此同时，作为普通人，我们又知道感冒是有原因的。比如，一个人此前受凉了，之后更容易感冒，这就是一种很朴素的因果判断。而且这种判断是可以当因果关系检验的。你完全可以设置随机对照实验：一些人受凉，一些人不受凉，再比较之后谁更容易感冒。做出这个结论时，我们并不需要先把细胞层面的全部机制都解释清楚。也就是说，有些因果关系，是可以在宏观层面上直接被识别出来的。

这就和机器故障很不一样。比如一台收音机坏了，你通常会认为，问题一定出在某个具体零件上。只要把机器拆开，找到坏掉的部件，换掉，再装回去，问题就解决了。这个例子里，宏观故障和微观原因之间有一种非常直接的对应关系。但像感冒这样的现象，情况并不是这样。它不是一个简单的“哪个零件坏了”式的问题。

不过，一旦说到因果，问题很快就会变得复杂。什么才算真正的因果？这是一个本身就有大量哲学和科学讨论的问题。这里我不想把战线拉得太长，而是想尽量直接地说明我所采用的一个出发点。

我这里说的因果，主要来自Judea Pearl以及Donald Rubin等人的研究工作。他们推动的一件很重要的事，就是把“因果”重新带回科学讨论的中心。而在Pearl的框架里，因果通常可以分成三个层次。

最底层是关联，也就是correlation。这是统计学里最常见的一层。我们平时算相关系数、做回归，很多时候都停留在这一层。它当然有用，甚至常常足以帮助我们做出很好的预测，但它本身并不等于因果。因为两个变量相关，背后可能只是因为它们共同受第三个因素影响。

再往上一层，是干预。也就是你不能只被动观察，而是要真正去动系统：把某个变量设成某个值，看看接下来会发生什么。到了这一层，我们谈的就更接近因果了，因为我们开始真正问“如果我去改变它，会带来什么后果”。

但在Pearl看来，这还不是最高层。更高的一层，是反事实推断。也就是不仅要看现实中发生了什么，还要进一步追问：如果刚才那件事没有发生，结果会不会不一样？

我们可以把干预和反事实分别对应因果中的“充分性”和“必要性”。只有两者结合起来，我们才更有资格说，某个事件真的是另一个事件的原因。

所谓充分因，意思是：如果事件c发生了，那么事件e也会发生。因为这里讨论的仍然是概率性的系统，所以可以用条件概率P(e｜c)来表示。这个值越大，就说明c作为e的充分因越强。

但光有这一点还不够。因为我们还要问：如果c不发生，e会不会也不发生？这就是必要因的问题。这个区分其实很重要。比如说，如果有很多人同时打我，那我受伤这件事，并不能简单归因于其中某一个人。因为即便少了那个人，其他人照样会让我受伤。也就是说，单有“它发生时结果会发生”还不够，我们还得看“如果没有它，结果是否就不会发生”。

因此，必要因衡量的是另一件事：把c排除之后，在其他可能原因仍然存在的情况下，e还能以多大概率发生。这个概率越低，就说明c越必要。这样一来，当充分性和必要性都高时，我们才更接近日常直觉中的因果：它发生，结果就发生；它不发生，结果也就不发生。

因果涌现

有了这样的概率定义之后，因果关系就可以真正进入计算框架。于是就有了一个研究方向由Erik Hoel在2013年提出，叫作“因果涌现”。

这个框架使用的“尺子”叫做有效信息（effective information，EI）。它试图比较的是：在不同尺度上，一个系统动力学的因果效应到底有多强。

这里通常会同时考虑两个维度。一个是时间，从过去到未来；另一个是尺度，从微观到宏观。微观层次上，系统有一套微观动力学；宏观层次上，系统则有一套宏观动力学。宏观并不是凭空来的，而是通过某种粗粒化或降维映射，从微观状态压缩上去得到的。

在每一个尺度上，我们算的就是EI。它度量的是：在该尺度下，系统状态从前一时刻到后一时刻的平均因果效应强度。

从最原始的定义来看，EI可以理解为一种特殊条件下的互信息。具体来说，就是把t时刻的输入状态设成最大熵分布——在有限离散情形下，可以近似理解为均匀分布——然后看系统演化到t+1时刻之后，前后两个时刻之间保留了多少信息。写成形式上，就是计算一种干预条件下的互信息：

这里的t时刻变量不是自然发生的分布，而是被人为设定为最大熵输入。这样做的目的，是尽量公平地考察系统本身的因果结构，而不是被某种特殊输入分布“带偏”。

同时，这个量也可以改写成前面所说的充分因和必要因的某种组合，如下式所示。所以，它本质上仍然是在量化一个问题：在这个尺度上，系统状态变化到底有多强的因果约束力。

这里其实不必太纠结EI的具体表达式，因为Hoel后来比较了很多种因果指标，结论大体一致：只要一个指标合理结合了充分性和必要性（论文里会把它叫做“因果元语”），它们在判断因果涌现时给出的方向通常是相近的。不同写法主要影响的是一些更细的数学性质，而不是这个框架的基本思想。

也正因为如此，这套方法的重要意义不在于某一个公式本身，而在于它第一次比较明确地给出了一个方向：我们可以不只停留在“整体大于部分之和”这样的定性说法上，而是能够真正比较不同尺度上的因果强度，并据此讨论，宏观层次是否可能比微观层次更“有解释力”。

这个框架的提出者Erik Hoel是神经科学背景的研究者。虽然它并不是从物理学传统中直接生长出来的，但它确实为“如何量化涌现”打开了一个很有影响力的研究方向，也逐渐成为后来许多相关工作的起点。说到这里，其实还涉及一个很重要的讨论：不同的人对“涌现”的理解，背后常常带着不同的哲学立场。

按照我们前面一路讲下来的思路，涌现并不只是系统内部自带的一种封闭性质，它和“谁在观察、如何观察”是有关系的。也就是说，涌现不仅属于系统本身，也和观察者有关。

这里可以借一个很常见的类比。比如有些图像，近看时你会发现它只是由许多离散的小元素构成（如上图）；但当你拉远距离再看，大脑会非常自然地把它识别成一张人脸。那张“脸”在某种意义上并不是图像里本来就独立存在的实体，而是和观察尺度、观察方式密切相关的结果。这个例子当然只是一个类比，但它至少提醒我们：当我们判断一个系统是否出现了涌现时，这个判断本身往往离不开观察方式。

在哲学上，这样的立场通常更接近“认识论的涌现”——也就是认为涌现与认知框架、观察尺度有关。与之相对的，则是“本体论的涌现”，它强调涌现是系统内部客观存在的性质，独立于任何观察者。

至少从我目前接触到的研究来看，前一种思路正在得到越来越多的重视，尤其是在物理学中。量子力学当然是一个非常典型的例子，它几乎无法完全脱离观察问题来讨论。但不止于此，在更广的物理学语境里，越来越多的研究者也开始意识到，许多看似“客观”的规律，其实都与观察尺度有关。比如热力学第二定律，某种意义上就可以被理解为一种与观察能力相关的效应：如果你真的能无限精确地追踪并记住每一个分子的全部运动，那么宏观上那种清晰的“熵增”描述，就不会以同样的方式出现。它恰恰是在宏观观察层次上才成立得最自然。

这些讨论本身非常有意思，不过这里我不想展开过多的哲学争论。对我来说，更重要的是先沿着这条思路往下走，看看它究竟能带来什么样的研究框架。

这也正好引到我自己的一项代表工作。我的主要思路，其实就是把前面讲过的这些想法，用AI的方式实现出来：我们让AI来承担“观察者”的角色，去学习系统在不同尺度上的表示和动力学。

它和一般神经网络有一个很大的不同：这里的每个模块本身都可以是神经网络，但它们承担的任务不是简单分类或拟合，而是要去学习我们前面讲到的那些关键对象，比如粗粒化函数，也就是从微观到宏观的映射，以及不同尺度下的动力学规律。换句话说，它不仅要学“怎么看”，还要学“怎么把微观组织成宏观”。

更特别的一点在于，它不只学习正向动力学，也要同时学习反向动力学。乍一听这有点反直觉，因为通常我们最关心的是预测未来，也就是正向预测够不够准，似乎没有必要专门去学一个“反过来”的过程。但我们的结果发现，如果让模型同时学习反向动力学，它的泛化能力会明显更好。它更容易抓住那些真正稳定、不随具体环境轻易改变的结构。

基于这个想法，我们搭建了一个框架，可以把各种复杂系统的时间序列数据输入进去，让模型自动判断系统在多大程度上发生了涌现，以及如果确实发生了涌现，那么最合适的粗粒化方式是什么、最优的宏观表示又是什么样子。它的优化目标也很直接：既然我们前面已经找到了一把“尺子”，那就用这把尺子来训练模型——也就是让宏观层次上的因果信息尽可能大。

后来回头看，我越来越觉得这个思路的意义可能比我当时理解得更大。因为在后续交流中我发现，类似“加入反向学习”的想法，正在越来越多地出现在大模型和其他学习框架里。很多人也开始注意到，额外引入一个反向过程，虽然表面上不直接服务于预测任务，却往往能让系统在陌生环境中的泛化表现更好。

当然，这些工作并不是唯一的探索路径。除了最早提出因果涌现框架的研究者之外，后来还有不少人沿着类似方向继续往前推进，也提出了各自不同的定义和方法。它们之间在具体指标上会有差异，所选择的“尺子”也不完全一样，但这些工作有一个非常明显的共同点：它们都不再满足于只在单一尺度上讨论问题，而一定会同时区分微观和宏观，并且把涌现放进一个动力学框架中去比较。也就是说，关键不只是“有没有结构”，而是“在不同尺度上，这个系统如何演化，以及哪一个尺度更能抓住它的因果组织”。

到这里，我们主要回答的是一个基础问题：究竟该如何描述涌现，并尽可能把它量化为一个可以进入科学研究的问题。但仅此还不够，我们想要继续追问：这个世界上为什么会有涌现现象？

涌现的演化论

为了理解这个问题，我们不妨先找一个类比，比如借用生物学来帮助我们思考。通常在生物学里，一开始我们会去研究各种各样的生物现象，会去做解剖、做分类。比如拿眼睛来举例，如果我想知道眼睛是怎么工作的，那么我就可以把它拆开来看，把每一个模块的功能都尽可能弄清楚，从而理解它是如何接收外界的光学信号，再把这些信号转化成大脑能够接受的形式。从这个意义上讲，通过分析眼睛本身，我们当然能够理解它是怎样运作的。

但问题在于，无论你把眼睛分析得多么细致，你依然很难回答另外一个问题：为什么眼睛偏偏长成今天这个样子？如果只是为了完成视觉功能，其实理论上未必只有这一种设计，它也可能采取别的结构，也可能长成别的样子。那么，为什么最后偏偏是这样一种形态被保留下来？如果要回答这个问题，我们就不得不进入达尔文的演化论、进化论的视角。就像演化生物学家杜布赞斯基所说的那样：若无进化之光，生物学毫无道理。意思并不是说解剖和分析不重要，而是说，如果没有达尔文的那套理论作为启发，那么你分析得再详细，也仍然只是描述。你知道它是什么，却并不知道它为什么会变成这样。

所以，如果把这个思路放回到“涌现”这个问题上，我们真正要找的，其实也是一种类似的解释框架。这和一般的建模工作不同。我们可以给蚂蚁之间的交互作用进行建模，从而解释蚁群在宏观上为什么会有社会组织的现象，但我们还想知道，为什么蚂蚁和其他物种不同，要如此互相交流；这种高度分工的蚁群组织是不是也是生物史上演化的结果。也就是说，涌现背后有没有某种属于它自己的“演化论”？事实上，这样的工作是有的，而且开始得很早。

接下来我们可以把视线拉回到历史中去，大概回到上世纪七十到八十年代。那个时候AI还没有真正兴起，深度学习更谈不上普及，但已经有很多学者，尤其是横跨物理和计算机两个领域的人，开始思考这类很根本的问题。而这些工作里，有很大一部分都和圣塔菲研究所有关。这个地方可以说是复杂科学研究的圣地，当年在那里诞生了大量非常关键的工作。

其中有一条很重要的研究路径——由James Crutchfield提出的计算力学。这个名字在中文语境里有时候容易和别的工程概念混在一起，但它其实是一个非常理论的研究方向。这个方向的整体思路，实际上和达尔文演化论有深刻的渊源。

我们可以先想象这样一个世界：里面有很多很多agent，可以叫主体，也可以叫智能体。它可以是生物，也可以是某种机器。如果你站在一个上帝视角去看这个世界，那么你会觉得所有动力学都是确定的，没有什么不清楚的地方。但如果你站在主体自己的视角去看，情况就完全不一样了。因为它的观察能力一定是受限的，它只能看到自己周围的一部分环境，只能接收到局部的信号和变化。

那么，这样一个主体是由什么构成的？从底层来说，它当然有物质上的构成。假如它是一个生物体，那么它会由细胞构成，内部会有各种各样的化学反应，这些都属于更底层的物质结构。但在此之上，还有一个相对更“虚拟”的层次。在这个层次上，它首先需要有某种传感器，帮助自己把外界的信号接收进来；同时它还需要有某种效应器，使自己能够对外界作出反应。而在这两者之间，还有一个非常关键的东西，就是它必须要有一个内部模型，用来对环境进行建模，并对环境作出预测。

如果用今天更流行的说法来讲，这其实就已经很接近我们现在说的world model，也就是“世界模型”。当然，在那个年代，他们还没有今天这样的术语，但基本思想其实已经很明确了：一个生物体或者一个一般意义上的主体，它的内部一定要有一个模型，能够在持续接收外界信息的同时，不断地模拟和预测周围环境正在发生什么。

那生物体为什么需要这样做？一个最直接的回答就是，为了生存。如果一个生物体能够更好地预测环境，它往往就能够作出更好的决策，从而更有机会活下来。但仅仅“预测准确”还不够，因为模型本身也是有代价的。模型越复杂，就意味着要消耗更多资源，要花费更多能量去维持。也就是说，一个生物体内部的模型不能无限膨胀，它除了要尽量准确，还必须足够简洁。于是，对一般的agent来说，就会形成一个很重要的平衡：一方面，它希望自己的模型尽可能准确；另一方面，它又必须让这个模型尽可能简洁、经济。只有这样，它才能在有限资源下维持长期的生存。

所以从这个角度看，所谓演化，其实可以被理解为这样一个过程：一个系统不断在预测能力和模型压缩之间寻找新的平衡方式。也正是在这样的过程中，它会不断形成新的结构、新的层次、新的组织方式。

这个想法本身并不难理解，真正关键的问题在于，怎样把它落实到一个数学框架中。按照这一思路，行动者就必须不断调整自己的内部模型。更准确地说，这其实就是我们前面提到的粗粒化过程（详见第一篇文章）：它需要不断压缩自己的模型，而压缩的标准，就是在尽量保留预测能力的前提下，减少冗余。

图中，环境（E）始终在变化，主体（X）不断接收来自环境的信息。这些信息可以表示为字符序列或者时间序列，比如图中底部那些01011010一类的输入，都是对环境信号的模拟。当系统停留在某个状态时，它就需要判断未来可能发生什么，于是会形成一个关于未来的条件概率分布。图中的箭头形状，表示的正是这种概率分布的样子。

如果有些状态对应的未来预测完全相同，即它们给出的条件概率分布一模一样，那么这些状态就满足预测等价性，可以被合并为同一个状态，打包处理。这样一来，模型的负担就会大大减轻，同时又不会损失预测能力。

沿着这条思路，我们可以把主体的模型理解为一个不断升级的过程。最初级的模型非常笨拙，只会把遇到的每一条信息都原封不动地记下来。可随着观测越来越多，这种做法会迅速积累出难以承受的冗余。到某个阶段，系统就不得不进行新的压缩和重组，也就是不得不发生一种“创新”。

这项研究一个很有意思的地方在于给“创新”下了定义。所谓创新，就是跳出原来那套机器假设，改用一种新的机器类型，去完成同样的预测任务。比如，当你发现某个序列总是周期性出现时，就没有必要再逐项死记硬背，而可以引入新的树结构来描述这种规律，并在这个树结构上进一步优化。再往上，还可以发展出更高层次的自动机结构。今天我们当然可以直接用人工智能，但在当时还没有这些工具，所以他们只能用一些相对朴素的机器模型来表达。不过它的核心意思已经很明确了：就是不断把底层信息重新组织和打包，让机器在保持预测能力的同时变得更加简洁。

在我最近看的《千脑智能》里，千脑智能理论提出者霍金斯的团队恰好从生物学角度为这个框架提供了一些支持。我们也许真的能在生物的解剖结构中，找到类似这种“预测机器”的东西。

比如，大脑皮层中的皮质柱就可以被看作这样的预测机器。大脑中有大量皮质柱，而每一个皮质柱都可以承担局部预测的功能。研究者进一步分析了神经元在执行预测任务时的活动方式，并认为当大脑进行整体预测时，本质上就是把不同皮质柱的预测结果汇聚起来，投票形成一个总体判断。

在他们看来，皮质柱本身并不和具体的输入输出内容绑定，而是一个通用模块，专门承担预测功能。之所以会区分出视觉区、听觉区，并不是因为这些区域在结构上本质不同，而是因为不同的皮质柱分别连接到了不同的感觉通道：连接视觉系统的，就表现为视觉区；连接听觉系统的，就表现为听觉区。按照这种设想，这个模块本身是通用的，理论上甚至可以通过一种感觉去补偿另一种感觉的功能。

复杂性的度量

再往下，计算力学理论还有回答一个问题：如果按照这个框架来理解系统，那么我们怎样去衡量一个系统到底有多复杂？我们常说“复杂系统”，但复杂的程度到底能不能计算？当然是可以的。

如果看过梅拉妮·米歇尔的《复杂》，大家就会知道书中列举过很多种复杂度的计算方法，有十几种之多。这里我不打算全部展开，只想讲其中一种常被引用的指标，也就是计算力学里的“统计复杂度”。

在理解统计复杂度之前，我们还得回到前面这套思想，尤其是其中绕不开的“图灵机”概念。因为如果要理解二十世纪七八十年代这些研究者的工作，图灵机是一个非常关键的背景。

所谓图灵机，其实是一种概念模型。我们今天的计算机，本质上都是图灵机：它接收输入，按照程序一步一步执行操作，再产生输出。正因为这个概念足够抽象、足够通用，所以它非常适合拿来讨论各种不同类型的系统。它不一定非得是硅基计算机，很多别的对象（比如生物系统）也可以被理解成某种图灵机。

当我们要衡量复杂度时，最著名的一种标准其实是柯尔莫哥洛夫复杂度。用图灵机的语言来说：如果有一台图灵机能够重构某个对象，那么描述这台图灵机所需要的最短长度，就是这个对象的复杂度。这个定义很符合直觉。一个对象如果可以用很短的一段描述就生成出来，那它显然就不算太复杂。

统计复杂度和前面那种复杂度概念的不同之处在于，它不要求一台图灵机对对象进行完全、精确的重构。相反，它允许模型带有一定随机性，也就是说，不必逐字逐句、一模一样地重现原始序列。对应的机器可以叫作伯努利图灵机，统计复杂度关心的，就是这样一台机器所需要的长度。

为什么要这样设计？看几个简单例子就能明白。如果我们把随机性和复杂度放在一起考虑，首先有一种情况是没有争议的：一个系统如果完全没有随机性，比如只是不断重复同一个符号，那么它显然不复杂，无论采用哪种复杂度度量，结果都应该很低。

但另一种极端情况也值得注意。比如不断抛硬币，用抛硬币的结果生成一串序列，这个序列前后没有任何关联，完全随机。按照柯氏复杂度定义，它会显得非常复杂，因为你无法压缩它，想要完整重构，就只能把每一个结果都原样记住。可这其实并不符合我们的直觉。纯粹的随机过程未必就是复杂过程，抛硬币当然随机，但其实是相当简单的过程。

从这个角度看，更合理的做法不是要求模型把每个序列都精确预测出来，而是允许它在不可预测的地方承认不可预测。如果面对的是一段完全无规律的序列，那么最好的预测方式，恰恰就是给出一个随机分布。比如问下一个符号是什么，0还是1，模型只能回答：大约各有一半概率。这样一来，模型本身就不需要承担额外的结构负担，因为序列里本来也没有更多可利用的确定性结构。

也正因为如此，我们才需要像统计复杂度这样的指标。这个指标关心的，不是你能否把每个细节都逐一复原，而是你能否在保留预测能力的前提下，对系统进行有效压缩。所以统计复杂度的定义和计算也必然离不开前面所讲的多尺度建模和粗粒化。要算出统计复杂度，需要主体先找到最佳粗粒化，也就是平衡预测和简洁的最优模型，然后直接度量这个最优模型的大小即可。

人工生命：元胞自动机

不过，前面这些讨论仍然比较抽象。要验证这套理论是否成立，最终还得回到实验。也就是说，我们需要找到一个合适的对象，去观察这种“机器”是如何在演化中产生和变化的。只有这样，才能检验这套理论到底能不能真正描述复杂系统的形成过程。也就是说，我们需要图灵机的演化试验场。

也正是在这样的背景下，很多学者开始把目光投向元胞自动机。它既可以看成一种游戏，也可以看成一种极其简洁的玩具模型。在初等元胞自动机研究中，最有影响的一位学者是斯蒂芬·沃尔夫勒姆。他把这些最简单的元胞自动机分成了四类。

所谓初等元胞自动机，可以想象一排格子，每个格子只有两种状态：0和1，也可以理解为“死”和“活”。系统的规则很简单：一个格子在下一时刻的状态，由它自己和左右两个邻居在当前时刻的状态共同决定。于是，我们就可以列出一张规则表，规定每一种三格组合在下一步会产生0还是1。有了这张规则表，再给定一个初始条件，系统就可以一步一步演化下去。画出来之后，纵向表示时间推进，横向表示空间位置，于是就形成了一幅时空图案。

不同规则下的元胞自动机，呈现出的图案差别很大。最简单的一类，很快就收敛到全0或全1；第二类会出现周期结构，虽然有变化，但规律非常简单，基本完全可预测；第三类看上去则杂乱无章，像是彻底随机的混沌图案。

真正有意思的是第四类。它既不像前两类那样过于简单，也不像第三类那样完全无序，而是处在两者之间。它的图案中往往会出现一些局部而稳定的模式，比如某些特殊结构会在背景中持续传播和演化。你未必能精确预测整个系统最终会变成什么样子，但可以把这些局部模式当作更高层次的单元来理解，并据此在宏观上把握系统的行为。这正是复杂性最有代表性的特征：既不是纯粹秩序，也不是纯粹混乱，而是在两者之间形成可识别、可组织、又不完全封闭的结构。

这个例子之所以重要，还因为它不只是一个游戏。沃尔夫勒姆后来提出“万物皆计算”的观点，认为整个世界本身也可以从计算的角度来理解。这个立场很有争议，但它确实提供了一种有启发性的视角：我们可以把许多原本看起来完全不同的系统，重新当作某种计算过程来审视。这样一来，复杂性、结构生成以及涌现现象，也就能够放到一个更统一的框架里重新理解。

在生物演化里，环境是非常重要的，那对于元胞自动机来说，什么是它的环境？这实际上就是我们给它布置的下游任务。比如Norman Packard最早提出了密度分类这一任务：如果初始空间里大多数元胞都是1，那么最终就要演化成全1的状态；反之亦然，如果大多数元胞一开始是0，最终就要全0。如果把全1看作输出宏观态1，全0看作输出宏观态0，这实际上就是一个二分类任务。我们现在让AI做的图像分类任务看起来远比这个二分类任务复杂得多，本质上还是一样的。我们会对各种规则的元胞自动机根据输出的表现打分，分数低的规则就要淘汰掉。

那在算法上如何实现这个淘汰过程呢？如果只是初等元胞自动机的话还好说，总共就256个规则的可能性，但如果是更复杂的元胞自动机或者其他种类的模型，这搜索空间可就太大了，那个年代还没有训练AI典型使用的梯度反传算法。这时候，约翰·霍兰德提出的遗传算法就起了重要作用。他正是把生物演化的思想转化为一种可操作的计算方法。

遗传算法曾是极其常用的方法。它的基本思路很直接：把规则表示成字符串，让这些字符串发生交叉、变异，生成新的候选规则；然后根据外部任务给出的评分，保留表现更好的规则，淘汰较差的规则。这样一来，系统就可以通过不断选择，逐渐找到更适合特定任务的策略。

即使在今天，这类方法仍然有人在使用。而在更早的一段历史中，它几乎是主流工具。它尤其适合用来筛选适应某类任务的元胞自动机规则。不同任务会筛出不同的规则，而这一过程本身就很像生物演化：不断生成变体，再通过环境压力进行保留和淘汰。梅拉妮·米歇尔等人后来又用遗传算法在元胞自动机演化的方向上做了大量的工作。

如果说元胞自动机提供的是一个纯粹虚拟的计算世界，那么更早的时候，科学家已经在真实的生物系统中发现了这种精确计算的过程。大约在上世纪六七十年代，一些重要的生物学研究让人们意识到，生物体内部并不只是杂乱的化学反应，其中有些过程具有高度的精确性，几乎像是在执行某种计算任务。

站在今天的视角看，这件事似乎并不奇怪。我们已经非常习惯用计算的语言描述生物，比如分子马达、马达蛋白，甚至会说大脑“宕机”。但在当时，这种描述方式并不是理所当然的。它有一个明确的历史起点：人们是在具体实验中，逐渐发现生物体内确实存在某些近乎机器般的精密机制。

乳糖操纵子的例子就是其中非常典型的一个。在细胞所处的环境中，如果没有足够的乳糖，乳糖操纵子就会停留在特定位置，阻止转录发生；而当周围乳糖浓度升高到一定程度后，它们与乳糖结合，离开原先的位置，转录过程随之启动。宏观上看，系统需要根据环境中的乳糖浓度，决定是否开启某种功能。换句话说，它完成的是一种分类任务，甚至可以说是一种二元决策。对于当时的研究者来说，生物体内竟然存在这样精确的调控机制，是极具冲击力的。也正是从这些工作开始，后来逐渐形成了系统生物学这一领域。

系统生物学虽然属于生物学，但它在方法上却和计算、逻辑以及动力学联系得非常紧密。当然，今天也有人会反思与批判这种“把生命理解为计算”的思路，认为它未必能覆盖生物现象的全部。但至少在当时，这条路径极大强化了“万物皆可计算”这一观念的影响力。

不仅如此，这种思路甚至还可以扩展到一般物理系统中。一个很典型的例子就是贝纳德对流。在一定条件下，一层受热流体会自发形成规则的对流结构。若用一种拟人化的方式去描述，可以说系统“发现”单靠分子的无序运动还不足以高效散热，于是自发形成了新的宏观结构，以更高效率把热量排出去。当然，这种说法本身带有明显的拟人化色彩，它并不是在说系统真的有意识，而只是提供了一种更直观的理解方式。

混沌边缘

1990年，克里斯托弗·朗顿的一篇著名文章，把前面这些线索群英荟萃般地集中到了一起。其中最重要的一个观点是：复杂性往往既不出现在最有序的区域，也不出现在最无序的区域，而是出现在两者之间。

如果把随机性作为横轴，就会发现，无论是过于规则还是过于混乱，系统的复杂度都不高。真正高复杂度的状态，往往出现在中间地带，这是我们之前在讨论统计复杂度时讨论到的。而简单的香农熵和互信息也可以反映秩序的程度（详见上一篇文章），只不过在中间地带上，互信息计算出来的数值相当发散。与之相对应，在元胞自动机的分类中，最左边是有序区，也就是前面说的第一类和第二类规则；最右边是无序区，也就是混沌型规则；而真正复杂的规则，只占中间一小段区域。它既没有收敛成简单的重复，也没有坍缩成彻底的混乱，而是在两者之间维持着某种微妙的平衡。

其他研究者从不同模型出发，也得到了类似的结果：当系统过于有序时，复杂度很低；当系统过于混乱时，复杂度同样很低；只有在两者之间，复杂度才会达到峰值。也正是在这样的背景下，这篇文章让“混沌边缘”这个概念流行开来。它指的正是这样一个区域：系统既没有落入僵死的秩序，也没有滑向彻底的无序，而是处在一种最容易产生复杂结构和丰富行为的临界地带。

这个概念最初是由Norman Packard首先提出的，但正是因为朗顿的工作，它才被广泛传播，并成为复杂系统研究中最有代表性的观念之一。

计算力学的应用

前面两部分主要是在讨论这些理论本身，但更重要的问题是，当我们理解了这些理论之后，怎样把它们真正用起来。一个理论不能只停留在“有趣”这个层面，它还需要进入现实世界，产生实际价值。

一个很有意思的应用方向，是把信息论和复杂性度量用于地外生命研究。研究者可以收集行星的光谱等天文数据，再用统计复杂度等信息论指标对这些数据进行分析，从而判断一个星球是否具有适合生命存在的特征。这里的关键在于，面对地外生命问题，传统生物学的标准未必仍然适用，因为我们无法预设外星生命一定和地球生命拥有相同的化学组成。但信息论关注的不是具体成分，而是系统是否呈现出类似生命的复杂行为和组织方式。因此，这类研究天然需要跨学科合作，需要天文学、信息论和复杂系统研究共同参与，去提出新的生命判定框架。

再往下就是AI领域。最近有一个比较新的概念叫“认知复杂度”。它的核心想法和前面讲到的统计复杂度其实非常接近：过于规则的对象和完全随机的对象，都不能算真正意义上的复杂。真正有价值的复杂性，往往出现在两者之间。具体来说，如果训练数据特别有规律，模型的loss会很快收敛；如果数据完全无序，loss则很难下降。但如果数据处在一种介于规则与随机之间的状态，模型就会经历一个逐步学习、缓慢收敛的过程。于是，研究者就可以用loss曲线下方面积的比例，来度量这种“认知复杂度”。

这个度量之所以重要，是因为它和AI的分布外泛化能力密切相关。对于今天的AI来说，训练集上的loss很低并不算真正的本事，因为那些数据本来就是我们提供给它的。真正关键的是，当环境发生变化、任务形式略有不同的时候，它还能不能把事情做好。这个能力才是当前AI最重要、也最难提升的能力之一。因为它要求模型真正抓住问题背后的规律，而不是只记住一些表面的、虚假的相关性。只要模型学到的是伪规律，它在测试环境中的表现就一定会迅速下降。

因果涌现与意识

沿着这个方向继续推进，我们还可以把因果涌现的框架和AI结合起来，用于研究意识问题。现在就有一些工作把这套方法应用到小鼠实验中，观察它们从清醒、麻醉到恢复的过程中，意识水平如何变化，并进一步分析在这一过程中，背后的神经结构是如何发生变化的。

之所以要做这类研究，不只是因为意识问题在哲学上很吸引人，更因为它具有明确的临床价值。现实中，一个长期无反应的患者，到底有没有意识，其实并不总是能够通过传统临床手段准确判断。很多患者无法做出语言或动作反应，但这并不意味着他们内部完全没有体验。一个人可能无法表达，却依然能够感知外界，依然保有某种意识状态。正因为如此，我们才需要一套更可靠的理论和测量框架，去帮助判断一个人是否仍然具有意识。这也是为什么意识科学不仅是一个理论问题，更是一个非常现实的问题。

大模型的可解释性

接下来把视角完全转向AI大模型本身，来看这些理论可以在哪些具体方向上发挥作用。其中一个非常重要的方向，就是大模型的可解释性问题。这里可以举一个典型工作——Anthropic团队在这方面的研究。他们其实很早就开始关注大模型的可解释性，在AI还没有像今天这样火热的几年之前，就已经在做相关探索。直到最近一两年，这些工作才逐渐受到广泛关注，因为他们确实给出了一些非常令人惊讶的成果。

他们的核心思路，是把大模型当作一种类似“大脑”的系统来研究。也就是说，不再只是把它当成一个输入输出的工具，而是试图打开这个黑箱，去理解内部到底发生了什么。他们做的事情，本质上是在寻找模型内部的结构化计算过程。

一个典型发现，是对多语言能力的解释。我们知道，大语言模型可以同时掌握多种语言，而且往往在一种语言上训练之后，学习另一种语言会变得更容易。这说明模型内部存在某种与具体语言无关的“通用模块”。Anthropic的工作，就是试图把这些模块真正找出来。他们发现，对于相同的问题，无论使用哪种语言输入，模型在内部都会经过类似的计算路径，再转化为对应语言的输出。这意味着模型内部确实存在与语言无关的抽象概念层。

类似的现象也出现在算术能力上。模型在进行简单计算时，并不是按照我们直觉中的单一路径推理，而是同时走两条不同的计算路径：一条路径给出一个大致的数值范围，另一条路径专注于局部精确计算，比如个位数处理，最后再将两者结合得到结果。这种机制与模型对外呈现的“思考过程”并不完全一致，说明我们看到的解释，并不等同于模型真实的内部计算。

在生成诗歌时，也可以观察到类似结构。模型往往是先确定韵脚，再反向补全整句内容。这种生成过程并不是线性逐词生成，而是带有明显结构约束的规划过程。更重要的是，这些内部过程是可以被干预的。研究者可以直接修改模型内部对应“韵脚”的特征表示，从而改变最终生成的诗句风格，甚至强行让其不押韵。这说明模型内部的计算不仅可以被观察，还可以被操作，从而具备一定的因果可控性。

他们还进一步研究了模型在越狱、安全绕过等行为中的内部机制，试图理解这些行为是如何在模型中产生的。为了做到这一点，他们引入了一种“代理模型”的方法。由于原始大模型是一个高度复杂的黑箱，很难直接分析，他们通过训练一个新的模型，在更高维空间中对原模型进行编码。这一过程本质上是一个升维映射，把原本难以解释的表示，转化为一个更稀疏、更结构化的表示空间。

在这个新的特征空间中，每个特征与具体输出之间的关系被约束为尽可能稀疏，同时整体预测效果又要与原模型保持一致。这样一来，就可以在不显著降低性能的前提下，获得一个更“白箱”的近似模型，从而分析模型内部的计算结构。

之所以需要这样的方法，是因为原始神经元具有一个关键性质——多义性。也就是说，同一个神经元在不同任务中可能承担完全不同的功能，因此无法简单地为其赋予明确含义。这一点和生物中的基因非常类似：有些基因可以对应明确的表型变化，但也有一些基因会同时影响多个看似无关的特征，使得它们难以被单一功能定义。

要让模型变得可解释，就需要对这种多义性进行约束。一种可行的路径，是构造一个“高维但稀疏”的表示空间。在足够高维的空间中，可以用更少的激活单元表达复杂功能；而通过稀疏约束，可以让每个特征尽可能只对应少量语义或功能。当这些特征之间的关系接近线性，并且激活模式足够简单时，就可以建立“特征—语义”的对应关系，从而实现可解释性。

换句话说，可解释性的关键，不在于直接分析原模型，而在于找到一种新的表示方式：在这个表示中，结构是清晰的、稀疏的，并且与模型行为保持一致。Anthropic的工作，本质上就是沿着这个方向，尝试把大模型从一个不可理解的黑箱，转化为一个可以被分析、甚至被干预的系统。

当然，这类工作本身也存在明显的问题。首先，代理模型究竟能不能真实代表原始大模型的内部思考过程，这件事本身就是存疑的。其次，还会引出一个更直接的问题：既然代理模型更容易解释，为什么不干脆直接使用代理模型，而是还要继续依赖那个原本不可解释的大模型？答案在于，代理模型虽然更清晰，但效率通常很低。也就是说，计算效率和可解释性本身就是一种张力关系，很多时候很难同时做到最好。

如果希望一个大模型拥有足够大的容量，能够处理大量任务、吸收海量数据、维持很强的性能，那么就不能同时期待它在结构上也对人类完全透明。反过来，如果希望模型高度可解释，就往往需要在计算效率上做出妥协。这也是当前很多可解释性研究面对的现实平衡：性能和解释性之间，并不存在轻易两全的方案。

之所以特别拿这类工作出来讨论，是因为它在结构上和前面谈到的因果涌现框架很接近。我们一直希望，在解释一个复杂系统时，能够找到一个最合适的尺度。在这个尺度上，系统内部的因果关系应该足够清晰，清晰到既可以从过去推到未来，也可以从结果追溯原因；既能预测，也能回溯。这样的结构本身就意味着较强的可解释性。无论是研究大模型，还是研究其他复杂系统，我们真正想找到的，都是这种因果关系最清楚、结构最稳定的层次。

大模型作为复杂系统

前面提到的那些可解释性工作，主要是在回答一个问题：模型已经具备某种能力之后，它内部到底是怎么实现的。也就是说，它关注的是“能力如何运作”。但除此之外，还有另一个同样重要的问题，那就是“能力是怎么来的”。比如我们一开始讨论的大模型涌现现象，本身也需要解释：为什么某种能力偏偏会在某个规模上突然出现，而在更小的规模下却完全看不到？究竟是什么发生了变化？而且，大模型中并不只有这一个现象，很多随着模型规模扩大才出现的特殊行为，都值得从复杂系统的角度重新理解。

如果把这些现象做一个粗略总结，最常被提到的首先还是缩放定律。它描述的是：在对数坐标下，模型能力会随着资源投入呈现近似线性的提升。也就是说，只要不断增加参数、数据和算力，模型性能就会持续上升，看起来似乎没有明显天花板。某种意义上，这也是为什么早期OpenAI愿意坚定投入巨额资源，因为他们相信这条规律会继续成立，而后来的结果也部分证明了这种判断。

但问题在于，大模型的表现又并不完全服从缩放定律。研究者在实验中观察到，某些能力并不是平滑增长的，而是会在跨过某个门槛之后突然跃升。这就是后来被广泛讨论的“涌现能力”。更早的时候，谷歌在构建大规模基准测试时，其实已经观察到类似现象，只是当时没有使用“涌现”这个词，而是称之为“突破”。两者描述的其实是同一类现象：模型规模达到某个临界点之后，会出现一个难以用平滑外推解释的能力跳变。

除了这种随模型规模发生的突变，还有一些现象出现在训练过程本身。比如“顿悟”现象，通常用grokking来描述。它指的是：同一个模型在训练早期，训练集表现已经很好，但测试集表现始终很差，看起来像是只会做见过的题，不会真正泛化。然而继续训练很长时间之后，它会在某个时刻突然学会，测试准确率迅速提升。这种变化并不是缓慢积累后线性显现出来的，而像是一种突然发生的结构性转变。

另外还有“双下降”现象。按照一般直觉，误差应该随着训练或模型增大而单调下降，但实际情况并不总是如此。有时误差会先下降，然后重新升高，之后再继续下降，形成两次下降的曲线形态。这类现象同样说明，大模型的行为并不能完全用最简单的连续扩展逻辑来概括。

这些现象在不同研究者那里，有些会被归入“涌现”这个概念，有些则不会。总之，大家对“涌现”这种术语的理解以及对大模型现象的直觉感受，都会不一致。

有意思的是，关于“涌现能力”这个说法，后来也出现了很有影响力的质疑。来自谷歌的几位研究者认为，所谓的能力突变，未必真的来自模型内部的结构变化，而可能只是指标选择造成的视觉效果。最典型的例子就是准确率。准确率本身是一个高度非线性的指标，因为一项复杂任务往往要求模型在每个步骤上都不能出错，只要其中某一步失败，最终结果就是错误。在这种情况下，即使模型内部能力是平滑提升的，最终映射到准确率上，也可能表现为突然跨过门槛、成绩猛增。

换句话说，他们的观点是：突变不一定来自模型本身，而可能来自评估方式。如果底层能力是连续变化的，但我们选择了一个门槛很强、非线性很高的指标，那么最终看到的就可能是一个“伪涌现”现象。相关研究甚至进一步做了推导，说明即便底层优化过程是相对平滑的，只要经过某些非线性指标变换，也能得到看起来像突变的结果。

这个质疑是有价值的，因为它提醒我们：面对大模型中的各种惊艳现象，不能只凭图像印象下结论，还必须仔细区分，究竟是系统本身发生了真正的结构跃迁，还是评价指标把连续变化放大成了突变。只有把这两种情况分开，我们才可能真正理解大模型能力演化的机制。

关于“涌现能力”的争论并没有就此结束。一方面，有些现象确实可能只是指标带来的“假象”，并不值得过度解读；但另一方面，也有越来越多的证据表明，并非所有现象都可以用指标非线性来解释。比如，有研究直接在最基础的优化指标——交叉熵（cross entropy）上观察模型行为，依然能够看到明显的非线性变化。这说明，有些结构性变化是存在于模型本身的，而不是简单由评价方式造成的。因此，这一领域仍然有很大的研究空间。

更重要的是，这类争论本身具有积极意义。它提醒我们，需要对各种“惊艳现象”进行筛选，而不是一概接受。真正值得研究的，是那些在不同指标、不同视角下都稳定存在的现象。换句话说，我们需要在热闹的表象中去伪存真，把注意力集中在真正具有解释价值的结构性问题上。

沿着这个思路，就会自然引出一个更实际的问题。当前我们对大模型能力的判断，几乎全部依赖于下游任务。也就是说，我们必须设计具体任务，通过测试结果来判断模型是否具备某种能力。这种方式本质上是“外部评估”，而且高度依赖任务设计。如果换一个任务，甚至只是轻微改变测试方式，得到的结论就可能不同。这也带来一个困难：当同一个模型在不同任务上表现出不同的“涌现特征”时，我们很难给出统一解释。

因此，一个更理想的方向是：是否可以不依赖具体任务，仅通过模型本身的参数或训练状态，就判断它是否已经进入某种能力阶段？如果存在这样的指标，就可以在训练过程中实时监控模型的发展状态，甚至提前预测“能力突变”即将发生的时刻。对于工业界来说，这一点尤为关键，因为它直接关系到资源投入的决策：什么时候继续训练，什么时候停止，是否已经接近某个关键跃迁点。

但这一目标非常困难。首先，这类指标需要具有普适性，能够跨任务、跨模型成立；其次，还需要足够可靠，能够说服研究社区。目前虽然已经有一些尝试，但整体来看还不够成熟，仍然缺乏稳定、可验证的结果。这一方向依然是一个值得深入探索的重要问题。

如果从理论角度继续推进，可以引入物理学中的一套语言来描述这些现象。例如，在统计物理中，有“序参量”（order parameter）的概念，用来刻画系统从无序到有序的转变程度。在相变理论中，系统在临界点附近会表现出特殊性质，比如尺度无关性和自相似结构。这些现象与复杂系统中的涌现、以及AI中的某些突变行为，在本质上是相通的。

从计算机科学的角度，人们更习惯用“复杂性”或“信息结构”来描述这些变化；而在物理学中，则用“相变”“临界现象”等概念来刻画。两套语言不同，但指向的是同一个问题：系统在某些条件下，会从一种状态突然转变为另一种状态，并在这一过程中表现出新的结构和规律。

在具体问题上，这种差异也会体现出来。例如，“涌现能力”通常是随着模型规模变化而观察到的，它对应的是不同模型之间的比较；而像“顿悟”这种现象，则发生在同一个模型的训练过程中，更类似于一个动态系统内部的相变。因此，从理论上看，后者更接近经典的临界现象分析，也更容易引入序参量等工具来刻画。

如果能够在这些过程中找到合适的序参量，就有可能更精确地描述系统何时发生结构变化，从而把原本看似神秘的“突然学会”，转化为可量化、可预测的过程。这不仅是理论上的问题，也具有实际应用价值，比如在训练过程中识别关键阶段，或者优化训练策略。

最后，从更宏观的角度来看，AI与复杂系统科学之间的关系是双向的。一方面，AI的发展本身深受复杂系统和统计物理思想的影响，从早期的玻尔兹曼机到今天的大模型，都可以看到这一脉络。另一方面，AI也正在成为研究复杂系统的重要工具，可以帮助我们分析那些传统方法难以处理的大规模系统。

甚至有一种观点认为，AI真正适合解决的问题，本质上都是复杂性问题。如果一个问题不涉及复杂系统结构，那么未必需要AI来处理；而当问题本身具有高度复杂性时，AI才会展现出独特优势。从这个角度看，AI的未来，很大程度上也会与复杂系统研究进一步融合。

涌现：AI“思考”背后的科学