病毒宇宙：癌细胞、人类语言和数字拷贝-虎嗅网

本文整理自巴塞罗那庞培法布拉大学教授和复杂系统实验室的负责人Ricard Solé，西班牙国家研究委员会（CSIC）教授和进化系统病毒学实验室的负责人Santiago F. Elena合著的复杂系统理论著作《Viruses as Complex Adaptive Systems》，来自微信公众号：SerendipityCamp（ID：SerendipityCamp），作者：徐鸿鹄，头图来自：视觉中国

病毒不可避免吗？

进化病毒学中存在的两个最具争议的问题是：

病毒的起源是什么？
病毒是否存活？

研究者对这两个问题都没有达成一致。

第二个问题可能更具语义性而非真实性，它在很大程度上依赖于第一个问题。科学家之间在病毒起源方面缺乏共识，这反映在为解释病毒起源而提出的许多理论上。

在本文中，我们将回顾最流行和最新的理论，但不倾向支持任何一种理论。相比之下，我们在病毒是活的还是仅仅是大分子复合体的问题上采取了强有力的立场。

寄生生活方式是最具代表性的生命形式之一。寄生虫存在于生物组织的任何层次：从分子到有机体。它们渗透到所有生物学中。

寄生虫感染病毒（是的，也感染病毒！），原核生物可以跨越真核生物的所有复杂程度。因此，寄生虫无疑是地球上最成功的生命策略，无情地利用了每一种已知的生物。同样，寄生虫可以来自各种生物的复杂性：病毒、细菌、古细菌、真菌、原生动物，甚至植物和动物都可以成为寄生虫。

然而，对进化影响最大的寄生虫是所谓的微寄生虫：病毒、细菌、真菌和原生动物可以通过允许某些基因型在感染后存活下来来影响宿主的进化，而其他基因型的适应度则非常低。

例如，就人类而言，这一宿主基因型选择的一个很好的例子来自镰状细胞贫血的杂合等位基因，与野生型等位基因的纯合个体相比，镰状细胞贫血的杂合等位基因对疟疾寄生虫的感染更具抗药性。

尽管在上个世纪见证了抗菌治疗的巨大进步，但这种选择在今天仍在发生。例如，HIV-1和结核病正在推动我们基因组部分的进化变化，如免疫系统基因。

显然，宿主和寄生虫之间的进化关系是双向的：宿主也可以影响其寄生虫的进化。例如，需要直接接触传播的疾病通常会演变为不那么致命的疾病，例如众所周知的粘瘤病毒感染兔子的案例，确保宿主至少能活得足够长，从而将其传播下去。

流感等病毒与我们的免疫系统也展开了激烈的军备竞赛。每年都会有新的逃逸突变体从我们的免疫系统（和疫苗）中逃逸出来。

寄生虫还可以在更基本的水平上推动宿主基因组的进化。例如，被称为转座子的DNA寄生片段可以在整个宿主基因组中切割和移动，可以转化为新基因，改变其他基因的表达，或者有利于固定新的突变和染色体重排，从而增加宿主群体的遗传变异。

最后，同样有趣的是，寄生甚至与性的起源有关，因为它们可能推动了机制的选择，以产生新的遗传变异，这可能有助于宿主远离寄生的困扰。

病毒起源三假说

病毒感染所有形式的生命，可能从第一个细胞出现时就存在，甚至可能在它们之前就存在。

追溯病毒的起源是一项艰巨的、几乎不可能的工作，因为它们不会形成化石，唯一的信息来源是分子系统发育学和比较技术，这些技术已被广泛用于比较当今病毒的DNA或RNA基因组，并向后重建其进化历史，这有望研究其起源。

人们经常说，病毒是多系的，即不同的病毒谱系独立起源，因此它们没有单一起源。特别是，RNA和DNA病毒被认为在进化上不相关。然而，形成包膜和衣壳的病毒蛋白质之间的整体结构相似性表明，它们的出现至少有一个共同的机制。在这里，我们提出了三个主要假设来解释病毒的起源。

1. 回归假说

这也称为简并假设或约化假设。回归假设表明，病毒可能曾经是寄生在较大细胞上的小细胞。随着时间的推移，寄生虫越来越依赖宿主细胞来走完其生命周期，对其获得性寄生来说，非严格和必要的基因丢失了。

这一假设基于这样的观察，即立克次体（一群严格的细胞内寄生生命体。虽然是细菌，但许多生态特征和病毒一样）、衣原体和布氏杆菌等细菌是活细胞，与病毒一样，只能在宿主细胞内繁殖，它们对细胞内生命的依赖导致使它们能够在细胞外生存的基因丢失。

然而，由于两个主要缺点，使得这一假设受到了质疑：

（i）细胞和病毒之间的中间形式未知；

（ii）来自生命三个领域的细胞的寄生虫（例如，细菌中的支原体、真核生物中的微孢子虫和古生菌中的纳太古代）尽管作为寄生虫进行了广泛的进化，但仍保留了其细胞特征。

2. 细胞起源假说

这有时被称为流浪假说或逃跑假说。

关于病毒起源的第二个经典假设是，一些病毒可能是从细胞基因组“逃逸”的DNA或RNA片段进化而来的。逃逸的DNA可能来自质粒（可以在细胞之间移动的裸DNA片段）或转座子（在细胞基因组中复制并移动到不同位置的DNA分子）。

20世纪50年代，Barbara McClintock在玉米中发现了一种称为跳跃基因的转座子，它是一类广泛的移动遗传因子，寄生在宿主的基因组中，编码极少数蛋白质，主要是负责其能够移动的转座酶。

这一假设在某种程度上流行起来，有多种原因：

部分原因是，对其他解释的不满；

部分原因是，目前的病毒可以将细胞基因整合到自己的基因组中。例如，插入植物克隆病毒基因组中的热休克蛋白70同源基因，或插入杆状病毒基因组中的宿主转座子；

部分原因是，一类特殊的转座子，即反转录转座子，在结构上与反转录病毒非常相似，尽管在这种特殊情况下，可以从相反的角度来看，并将反转录转座子视为很久以前插入的反转录病毒，它已经失去了一些功能，尤其是细胞间包裹和传递的能力。

然而，细胞起源假说也有几个缺点：

（i）它没有具体说明游离核酸是如何募集衣壳的，以及在宿主细胞内传递其内容物所需的复杂机制。在这方面，值得注意的是，病毒衣壳与细胞成分没有任何结构或序列相似性。

（ii）该假设预测，感染细胞生命三个域的病毒将起源于每个域，即噬菌体将起源于细菌基因组，而真核病毒的起源将是真核细胞的基因组。因此，人们可能期望发现来自一个域的病毒编码的病毒蛋白质与其在该域中的细胞同源物之间的相似性，但不能期望来自不同域的病毒之间的同源性。

事实与这个假设相反：来自不同领域的病毒基因之间的相似性大于病毒基因及其相应宿主细胞基因之间的相似性。

当然，在少数情况下，病毒蛋白类似于其宿主编码的同源蛋白，表明这些蛋白最近从细胞转移到病毒。从这一观察结果来看，逃逸假说的研究者认为，所有病毒蛋白质都必须具有细胞起源，由于病毒基因组显示的进化速度很快，它们的“祖先”只是系统发育方法产生的人工制品。

显然，这种解释无法解释绝大多数没有细胞同源物的病毒蛋白质。

3. 原生生物假说

这也被称为病毒第一假说，表明病毒可能是在细胞首次出现在地球上的同时，从蛋白质和核糖核酸的复杂分子进化而来，从一开始就依赖于细胞生命。

在原始的“细胞汤”中，就像在任何其他复制系统中一样，寄生虫也会进化，以其他更复杂的分子系统为代价开始生长。

当细胞膜首次出现时，复杂的复制超循环通过获取膜将自己与环境隔离开来，这些创新将分子寄生虫推向强大的进化选择，以获得穿越原始膜的能力。数学和计算机模型支持这样一种观点，即复杂的空间结构（不一定是囊泡）可以产生很大的差异。

在这里，我们展示了一个二分图，包括不同类别的病毒基因组（左）及其潜在的宿主（右）。线条表示已知的相互作用，它们的粗细提供了强度的相对度量，细和粗的链接分别对应于罕见和常见的病毒-宿主相互作用。

这一假设长期以来被否定，因为当今所有病毒必需寄生，需要细胞内发育阶段才能繁殖。这种“古代病毒世界”假设意味着，不同病毒复制表达策略的原始起源与其相应宿主的复杂性增加共同进化。

正链RNA病毒被认为是最古老的类型（“正”意味着被包裹的分子可以直接被细胞机器翻译，而“负”意味着被包裹的分子必须首先被转录成补体），与原始RNA细胞一起在原始汤中进化。

在病毒粒子内携带复制机制的双链RNA和负链ssRNA病毒很可能是后来进化而来的，衍生自正链ssRNA病毒。事实上，负链ssRNA病毒可能起源于原始节肢动物，随后会跳转到这些节肢动物赖以生存的植物上。

在这种观点下，正链ssRNA病毒确实是原始RNA蛋白质世界的直接后代，而反向转录病毒为向DNA世界的过渡提供了可能的中间产物。

因此，关于病毒起源的讨论中的中心争论点，在于它们是古老的，是在最后一个通用细胞祖先（LUCA）之前首次出现，还是最近进化，以至于它们的祖先是从其细胞宿主的基因组中逃逸出来的基因。

在过去二十年中，两个显著的观察结果支持了对病毒起源的研究：巨型病毒的发现和基因组测序，以及病毒衣壳结构之间的明显同源性的报告，这些衣壳结构没有一级序列相似性。正如Patrick Forterre所指出的那样，我们不能假装从现代生物圈的角度理解病毒的起源（即现代病毒感染现代细胞；现代细胞无法回归到病毒形式；游离DNA无法招募蛋白质进行包埋等）。

因此，考虑到病毒起源于LUCA之前，必须重新审视这三个假设。

这里有代表生命的三个领域（从 LUCA 进化而来）以及带有衣壳的病毒。新定义的病毒有衣壳但没有核糖体。

RNA病毒的概念，甚至更清楚的类病毒的概念，在RNA世界理论的背景下很容易被接受。一些作者令人信服地认为，RNA病毒和类病毒可能是前DNA世界的遗迹，在这个世界中，生物体，甚至原始细胞，RNA是唯一的遗传信息载体，蛋白质是确保信息传递的机器。

逆转录病毒将是RNA到DNA世界转变的遗迹。在生命史中，RNA病毒先于细胞的想法可能听起来很奇怪，因为它们最常见于感染真核细胞，尽管ssRNA和dsRNA病毒都感染细菌。

更有趣的是，感染细菌的dsRNA病毒和感染真核生物的dsRNA病毒具有很强的结构相似性和生命周期，因此在两个细胞域分离之前，可能有一个共同的起源。

Forterre基于噬菌体T4 II型DNA拓扑异构酶与细菌环化酶和真核生物II型DNA拓扑异构酶之间的序列相似性（或缺失），也假设了DNA病毒的细胞前起源。

同样，人类腺病毒和亚杆菌噬菌体φ29使用类似的非典型蛋白启动机制复制其DNA（细胞世界中不存在），并编码一种独特类型的DNA聚合酶，该聚合酶可以使用这种模板启动自身复制。

这些蛋白质显然既非细菌来源，也非真核来源，但代表了三个细胞结构域分离之前存在的一个新结构域。

类病毒是RNA分子，由于缺乏蛋白质外壳而未被归类为病毒。

然而，它们具有几种病毒所共有的特征，通常被称为亚病毒制剂。其他亚病毒制剂是卫星RNA，即寄生RNA病毒的超寄生虫。虽然卫星RNA在植物RNA病毒中比在动物RNA病毒中更常见，但这类卫星的一个特别著名的案例是人类的三角型肝炎病毒，该病毒的RNA基因组类似于类病毒，但其蛋白质外壳来自其辅助病毒HBV，并且不能产生自己的病毒。

因此，它是一种有缺陷的病毒，没有乙肝病毒的帮助就无法复制。

卫星DNA的一个特别有趣的例子是病毒噬菌体，它感染巨大的阿米巴病毒，阿米巴病毒是阿米巴的寄生虫；其原型是寄生巨大棘阿米巴多噬性拟态病毒的Sputnik virophage（参考《病毒宇宙：探寻最小生命形式的物理边界》）。

Sputnik有一个约18 kb的环状双链DNA基因组，就像一个巨大的质粒，令人惊讶的是，它编码的蛋白质与三个细胞结构域同源，以及与噬菌体和真核病毒的ATP酶同源。卫星可能代表类病毒和病毒之间的进化中间产物，更可能是RNA世界的其他残余物。

随着巨型病毒的发现，病毒的基因组较小，与细胞生命相比相对简单的范例被推翻，巨型病毒比一些最小的细菌（例如My-coplasma genitalium）更大。

十多年前，Raoult等人对第一种MIMI病毒的1.8GB基因组进行了表征。该基因组包含900多个假定基因，其中一些研究涉及翻译和蛋白质生产的非病毒基因。为了解释这些基因的起源，人们提出了两个相互争论的假设。

首先，它们可能是从它们的细胞宿主上获得的。

其次，模拟病毒可能是从一个自由生活的细胞中进化而来，该细胞在成为寄生虫时逐渐失去了大部分基因（根据细胞起源假说）。

这种模拟病毒前体可能代表生命树的一个新分支，早于三个主要分支（细菌、古细菌和真核生物）的出现。

自从发现第一种拟态病毒以来，巨型病毒的家族不断扩大，其成员的基因组越来越大，迄今为止描述的最大的一种病毒是巨型潘多拉病毒（之所以这样命名，是因为它们的双孔形状及其给人类带来的惊喜）。它们的基因和外观与其他病毒截然不同。

比较拟态病毒和潘多拉病毒的细胞进入、脱壳和细胞工厂形成机制的电子显微照片。两类巨型病毒在这些步骤和结构上大不相同。

在十九世纪末被发现后，病毒很快被降级为惰性粒子——它们太简单了，不可能是生物：只不过是一个蛋白质包，包着一种没有任何代谢能力的微小遗传物质。

然而，巨型病毒摧毁了这种对病毒世界天真的看法。

因此，巨病毒可以被视为介于真细胞和病毒之间的中间形式。事实上，拟态病毒基因组编码几种蛋白质，这些蛋白质也存在于生命的三个领域中，系统发育树将拟态病毒蛋白质组置于古细菌和真核生物之间，正如预期的那样，第四个领域的存在，不再是自由生命的代表。在以下几节中，我们将讨论这些新的巨型病毒对真核细胞进化的一些进化意义。

如前所述，关于病毒起源的所有假设都存在问题：

回归假设没有解释为什么即使是最小的细胞寄生虫在任何方面都与病毒不相似。逃逸假说不能解释病毒颗粒上的复杂衣壳和其他结构。

病毒第一假说违背了病毒的定义，因为它们需要宿主细胞。

尽管如此，病毒现在被认为是古老的，其起源早于生命三个领域的分化。

这一发现促使现代病毒学家重新考虑和评估这三个经典假设。RNA细胞祖先的证据以及对病毒和宿主DNA序列的计算机分析正在更好地理解不同病毒之间的进化关系，并可能有助于识别现代病毒的祖先。

迄今为止，此类分析尚未证明这些假设中的哪一个是正确的。目前已知的所有病毒似乎不太可能有一个共同的祖先，而且病毒可能在非常遥远的过去通过一种或多种机制出现过多次。

病毒和细胞起源

RNA世界假说提出的一个问题是，DNA来自何处。

Forterre提出，DNA是一种病毒的发明，用于获得对当时可能在RNA宿主细胞中进化的RNA特异性防御机制的抵抗力。

通过将这种化学修饰纳入其遗传密码，新出现的DNA病毒具有明显的选择优势。这一点得到了以下事实的支持：大多数现代DNA病毒编码产生DNA前体所需的核糖核苷酸还原酶和胸苷酸合成酶酶活性。

为了解释DNA如何取代原始细胞中的RNA染色体，Forterre认为，持续感染（非裂解）的DNA病毒失去了编码其衣壳蛋白和裂解功能的基因，从而成为类似于RNA细胞中DNA质粒的东西。然后，这些质粒可以通过逆转录酶的作用获得宿主RNA基因而增大大小。

如果DNA质粒的复制效率更高、更稳定，那么将其所有基因转移到这个新的DNA染色体中，从而缓慢地用DNA染色体取代RNA染色体，将有利于RNA细胞。

与RNA分子相比，DNA分子具有更大的稳定性，这为将染色体的大小增加到原始RNA染色体无法达到的水平打开了大门，从而为增加复杂性打开了可能性。

此外，Forterre认为，鉴于细菌、古细菌和真核生物在复制和翻译机制上的差异，可能在大型DNA病毒和RNA细胞之间发生了三个独立的关联事件。这三个共生事件导致了我们现在知道的生命的三个领域，所有这三个过程都发生在相对较短的时间内或孤立的情况下，因此它们超越了它们周围的RNA细胞祖先。因此，其他可能的域现在没有幸存下来（或尚未发现…）。

关于为什么只有三个细胞域的另一种解释是，上一段中描述的事件非常罕见和复杂，导致产生额外细胞域的概率太低。

上述理论解释了DNA作为细胞当代遗传物质的起源，但没有解释真核细胞核的起源。Bell提出了病毒真核形成理论，解释了复杂真核细胞核的起源，这是由提供细胞质的古细菌细胞、提供线粒体的细菌和提供细胞核的大型DNA病毒（可能类似模拟病毒）联合而成的。

在与前一段中描述的过程类似的过程中，DNA病毒基因组从细菌和古细菌中获取基因，并接管了共同体的信息存储角色。将相关基因转移到病毒染色体后，宿主保留了其基因翻译和一般代谢功能；这种细菌保留了厌氧产生能量（ATP）的能力，并将其大部分功能转移到病毒染色体上。

Bell还提出，有丝分裂、减数分裂和性周期是由于对溶酶原病毒施加选择压力，使其自身保持在低拷贝数（不破坏联合体），同时仍然能够传播到群体中的结果。

病毒是进化新颖性的来源

应该清楚的是，病毒在生命的早期进化和真核细胞的起源中起着至关重要的作用。然而，病毒对进化的影响不仅仅是因为有害的寄生超越了生命的细胞域的起源，并扩展到许多持续进化的新事物。

例如，在真核生物中，来自转座子和内源性逆转录病毒的序列可以占哺乳动物基因组的至少50%和植物基因组的高达90%。

尽管整合的转座子是真核生物功能抑制的对象，但它们可能是新细胞基因的来源。影响细胞进化的病毒基因的例子包括细菌噬菌体，它们为细菌宿主提供了强大的毒素，细菌可能最初用于对抗捕食者原生生物。

茧状病毒在黄蜂基因组中的整合使幼虫能够以节肢动物宿主为食，使用病毒编码的蛋白质操纵其宿主。另一个很好的例子是真核生物对RNA干扰和甲基化失活系统的扩展，这些系统现已成为基于RNA的细胞先天免疫防御机制的基础。

哺乳动物细胞中有一项非常有趣且经过充分研究的创新：将逆转录病毒包膜蛋白扩展为今天的合胞素，参与胎盘形成过程中滋养层细胞的融合，这可以解释为什么胚胎受到保护，不受他们母亲的免疫系统的影响，因为这些病毒蛋白的最初作用是干扰宿主免疫。

在哺乳动物大脑的起源和发育中，研究者还研究了一种特殊类型的逆转录元件SINE的重要作用。人们可能会推测，黑猩猩和我们之间的主要差异源于我们两个谱系分离时病毒整合的差异——即激活或失活不同的基因。

但是，什么是病毒？

大多数真核病毒都有一个有趣的特性：在感染过程中，它们会构建复杂且专门的细胞内结构，这些结构与取自网状结构的膜（有时靠近细胞器）相关。在这些囊泡内，病毒基因组被转录、翻译成蛋白质并复制。

这些结构被称为“病毒工厂”，它们提供了一个受保护的环境，基因组可以在其中暴露，同时仍然受到保护，免受多种细胞质因子的影响，这些细胞质因子是细胞作为抗病毒防御系统激活的，以降解它们。

病毒工厂可与专性细胞内寄生细菌相媲美：它们被内质网衍生的膜包围，含有核糖体和细胞骨架元素，并招募线粒体并从中吸取ATP。与细胞质细菌寄生虫的相似之处将变得很明显，特别是如果将这些微小的细菌与巨大的拟病毒进行比较。

这是关于病毒是什么以及它们是否存活的最后反思：将病毒粒子视为真正的病毒相当于将花粉粒视为红木或胚珠视为人类。

病毒粒子将等同于病毒的生殖系，而病毒工厂将等同于体细胞系。病毒工厂必须被视为真正的病毒。考虑到这一解释，病毒的生命本质将不再讨论。病毒工厂有自己的代谢，包含核糖体，所有信息处理过程都与环境隔离。

病毒工厂作为一个整体而不是单个病毒基因组，将代表真核细胞起源中那些祖先寄生虫的活化石。是的，我们认为病毒是活的，毕竟，我们认为它们是从寄生实体进化而来的，这些寄生实体自发地与细胞前RNA蛋白复制子（超循环）结合在一起。

一旦膜结合细胞进化，这些寄生虫就进入其中，并从那时起共同进化成我们现在所说的病毒。

病毒学的外延

我们考虑了病毒的多个方面，它们的结构和进化，以及它们如何探索其适应性景观（见《病毒宇宙：适应度景观与生物军备竞赛》），对生物圈和我们作为物种的进化产生了强烈影响。

病毒本身的概念，作为一种能够在生命系统内部和之间传播，并通过复制和感染过程自我保存其信息的寄生实体，可能比我们想象的更广泛。随着文化进化理论的发展，定义没有遗传物质支持的传播思想、概念或符号的一般形式的可能性变得非常诱人。在这里，我们想探索与病毒动力学相关的关键概念在其他领域的应用，并看看隐喻可以延伸到多大程度。

正如我们指出的那样，基因组的流动性使病毒很容易出现。基因组包括一个完整的分子工具包，它提供了创建广泛的病毒样实体的原材料和规则。这是在进化框架下发生的，病毒可以作为复制子在其世界内传播，推动生物复杂性的边界，帮助生物系统克服选择障碍，甚至获得新的属性。

但这不仅仅是病毒。如果我们从更抽象的角度考虑这一点，我们现在可以看看其他复杂系统，在这些系统中，病毒的性质和动力学可以提供一些关于其起源和进化的见解。

正如哲学家丹尼尔·丹尼特（Daniel Dennett）所指出的那样，我们可以将进化理解为一个导致给定结果的过程，与计算机科学家所称的算法没有太大区别。对于Dennett来说，达尔文的发现不过是一个定义良好的算法的发现。

算法正确地提供了一个形式化框架来定义一组操作，这些操作从一组边界条件（计算机程序的数据集）开始，产生一个动态的事件序列（例如程序执行的操作），最终形成某种“解”（程序输出）。这是我们下面讨论的一个相关部分，以及成功的进化创新是如何传播的。

我们将考虑三个不同的案例研究：

计算机病毒的起源和进化
癌细胞群体的进化
人类语言的出现

在每种情况下，比较病毒和这些显然不相关的系统将不仅仅是一组有趣的类比。

计算机病毒的出现

根据冯·诺依曼关于自我复制机器的猜想，我们使用理论工具将病毒描述为使用宿主的分子机器复制自身的程序。主要结论之一是，寄生虫是一组允许复制、剪切和粘贴（有错误）信息的灵活规则的必然结果。

IT革命开始几十年后，也出现了类似的情况。软件成为IT的驱动力，数百万用户可以使用更小的个人电脑，以及新的磁存储介质，特别是软盘。此时，计算机病毒（CV）传播的所有要求都已到位。

计算机病毒与信息技术的兴起。两大创新，即个人电脑（a）和软盘（b），极大地促进了计算机病毒的出现和传播。这两项创新似乎在早期显著增长。

我们选择计算机病毒Computer Viruses——CVs作为案例研究有两个原因。

一方面，它有力地支持了必然性假设：无论是生物还是技术，有利的先决条件都会导致CVs出现。

第二个原因是，CVs进化过程中发生的事件序列与生物对应物表现出强烈的相似性，它们具有明显的人为（故意）性质。

虽然计算机病毒一词是在1985年引入的，但在1971年就可以发现CVs的起源，当时第一个计算机错误被创建。它仅限于使用本地服务器网络在其他机器上复制自身的简单代码。第一个bug相当无害，用于说明计算机环境中的复制原理。但不久之后就出现了虚拟破坏行为。20世纪80年代，电脑屏幕上出现类似磁盘错误的警告信息，预示着灾难即将来临。CV的多样性以非常快的速度增加。

1990年存在的少数CVs以指数级速度快速增长。1996年，估计已经创建了10000多个基于DOS的CVs。这种日益增长的复杂性是程序员反应的副产品——他们开始开发能够检测和摧毁虚拟寄生的系统。

加载DOS操作系统（a），允许读取给定的程序（b），但它也为计算机病毒的进入提供了大门（c）。

同样可以预见的是，计算机病毒的流行引发了军备竞赛。杀毒软件正在进行一场轰轰烈烈的竞争和交易，这些商业项目使用了各种各样的技巧，截任何企图干扰敏感系统内存区域的行为，并警告用户。实际上有些病毒是用特定的、已知的和命名的病毒写的。

在我们的故事开始时，防病毒软件主要基于检测特定的字节序列，这些字节在某种程度上定义了给定病毒的特征。这些早期的程序涉及通过在被审查的整个程序中搜索给定字符串来查找给定字符串。随着潜在病毒数量的增加，这种方法变得越来越复杂，效率也越来越低。新病毒变得更难检测和清除。旧把戏最终必须被一项伟大的发明所取代：多态性。

多态变异包含了一种强大的武器——突变。与真实病毒一样，不断逃避免疫反应、检测和清除策略施加的选择压力是基因组变异的主要驱动力。正如我们已经讨论过的那样，RNA病毒通过一种易于出错的分子机制来逃避免疫系统的压力，而多态病毒能够保持其基本功能完好无损，但对受感染的机器来说却会偶有“不同”。

我们可以很容易地识别两种类型计算机病毒携带的信息：“保守的”——正确复制和感染所需的，和“可变的”——扮演更容易改变的基因组可变域的角色。新的反病毒软件应对了新的挑战，但军备竞赛仍在进行。

计算机病毒的出现构成了文化进化中一个非常有趣的部分。它很好地说明了生物变化和人工（设计）变化之间的一些关键相似性，例如，突变是有意识地认识到变化是一种需求的结果。

因此，这是一种投资，一种相当有意的投资，与生活中不断发生的固有的、不可避免的错误相反。

此外，我们知道影响病毒基因组的大多数突变是有害的，阻碍或威胁其复制潜力。人造基因中有多少突变是致命的？——一个都没有。

与变化相关的程序部分与其他部分之间存在着明显的分离。不允许发生影响功能特性的交互作用。突变实际上是对突变事件的模拟，而不是复制机制故障的结果。这里不能定义真正的准种概念。

此外，许多研究者认为，由于病毒生命周期的性质，图灵的形式主义可能会不足——这需要与其他机器进行交互，从而导致进一步的程序传播。

除了CVs的感染和传播动力学之外，我们还对其进化的许多其他方面感兴趣，将其与生物对应物进行比较。特别是特洛伊木马——它可以将自己集成到主机的软件中，从而导致危害较小的感染。

由于用户看不见，除了占用一些内存块和可能的处理能力之外不会造成损害——它们提醒我们慢病毒（如HIV-1）也会整合到宿主基因组中，并在多年来一直保持沉默。

特洛伊木马和其他设计的漏洞可以利用计算机作为对其他机器的攻击源，作为垃圾信息的生成器，甚至是作为协同工作的从机的并行网络。随着社交网络在计算机和电子邮件网络上的扩展，新的威胁不断出现。

计算机病毒和反病毒程序之间进化军备竞赛的进一步发展，是创造一个能够适应不断变化的感染程序的人工免疫系统（AIS）的可能性。

这种观点受到了自然免疫反应的启发，这种免疫反应可以对抗我们体内的病原体。在《病毒宇宙：适应度景观与生物军备竞赛》中列出的一些简单的模型讨论了其中的一些反应，特别是在高度可变的逆转录病毒的背景下。

这些人工智能的设计方式是，它们借鉴了免疫反应的一些关键方面，将其作为计算机程序运行。人工智能的一个特别有趣的组成部分是学习区分自我和非自我的潜力：当自然免疫反应发生时，对CVs的适应性反应必须识别入侵模式，例如未经授权使用计算机帐户。

这需要算法检测外来活动，同时学习识别要保护的稳定代码串。来自免疫系统多样性研究的一些数学结果帮助我们得出了有关这些人工智能的效率和成本的理论界限。此外，实验设计（在本地计算机网络上实现）也证实了，这些自适应人工网络的可行性和可靠功能。

数字进化的证据

学者们研究了一些理论和计算方法，来建模病毒动力学，以及病毒如何与其潜在宿主共同进化。在所有这些模型中，病毒（寄生虫）及其宿主从一开始就已经存在。

然而，我们应该在寄生虫可能出现的更一般的框架下考虑这些模型。这里可以表述的一个相关问题是，类病毒制剂是否可以在不同于生物学的其他环境中出现。一个例子是计算机病毒。它们可以被视为自20世纪70年代末开始的个人计算机革命以来计算机兴起和扩张的负面影响。

尽管IT革命始于20世纪50年代，但信息基础设施的一个关键组成部分，是存在正确的信息存储系统，更重要的是，一个连接计算机的网络。正如在流行病传播场景中一样，除非个体相互作用，使病原体的有效传播成为可能，否则不会发生感染。

从对进化中的人工生命系统的分析中，可以再次获得对病毒起源的一些见解。尼尔斯·巴里切利（Niles Barricelli）是一位挪威—意大利研究员，曾接受过病毒遗传学培训，具有一定的物理学背景，他曾受约翰·冯·诺依曼John von Neumann邀请，在高等研究所工作，他在早期尝试创建数字有机体。

当时最大的计算机ENIAC为迈向人工生命的第一步提供了一个意想不到的舞台。巴里切利以一种出人意料的富有远见的方式，通过提供一个比特虚拟世界来探索进化，在这个虚拟世界中，第一批数字生物从模拟中诞生。

Barricelli的程序仅限于ENIAC的低内存领域，但即使有这些限制，他也能够证明虚拟进化实验可以产生多么复杂的交互和创新。模拟涉及一个一维世界，与Stanislaw Ulam和von Neumann几年前（1940年）发明的细胞自动机模型没有太大区别。

“宇宙”被限制为512个“基因”行，可以采用一系列整数值。通过定义一组简单的变异和繁殖规则，就会产生新的数字，这个过程会一次又一次地重复。Barricelli的发现之一是出现了作为寄生实体的简单代码，这些代码有时呈指数级传播，最终填满了所有可用的内存空间，随后整个生态系统灭绝。

在计算机中进化虚拟生物的想法及其潜在影响一直沉寂了几十年，直到20世纪90年代，生态学家汤姆·雷发现，寄生程序是数字生态学的必然结果。

在多样性生态系统如何出现和持续的问题的驱动下，他设计了一个进化物种的数字模型，该模型基于一组计算机程序竞争计算机内存，并在复制自身以存储在可用内存位置的同时显示错误。在有限计算机资源的约束下，所谓的Tierra模型能够显示一些进化创新是如何自发发展的。特别是，当开始竞争时，一些重大的转变就发生了。

早期的一个事件是基因组缩减创新，与“较短的程序”可以比“较大的程序”更快地复制这一事实有关。当编码程序的某些部分可以被删除，而不产生任何后果时，就会发生这种情况。在这方面，可以删除多余的代码片段而不会造成任何伤害。后来，出现了无法自我复制的较短程序。

换句话说，寄生虫进入了（数字）生活。超级寄生虫，即能够使用寄生虫执行的代码片段进行复制的程序，后来，一些程序开发了交换部分代码的能力，主要是作为逃离寄生虫的反应，从而定义了一种创新——我们可以将其标记为原始版本的性。

最终，一组复制速度较慢的程序能够通过合作更快地复制。

自这些早期工作以来，许多其他研究致力于研究人工宿主-寄生系统的进化。这些模型大多假设这两类病原体之间存在差异，但没有那么多研究寄生虫的出现。Paulien Hogeweg及其同事的工作提供了一个优雅的模型示例，旨在解释病毒实体的出现。

一个特别简单的例子是，智能体（Agent）在二维晶格中进化合作。智能体一方面共享公共产品并将其用于复制，另一方面竞争现有可用位点。繁殖伴随着突变而发生，这个过程的结果是一个合作兼自私的物种形成。

具体来说，这些研究者使用L×L平方格Ω = {r=（i，j）|1≤i、 j≤L} ，其中每个位点f∈Ω可以由单个S(r)=1或空S(r)=0构成。每个个体在每个时间步长上以速率φ(r) 生产一个产品，该产品与邻域 Γ(r) 中的所有q个邻居共享。

假设邻域内存在空位点，则每个被占用位点的复制概率定义了个体的适应度f(r)。效益B(r)由公用物品的可用性提供，即：

其中b是单位公共物品的收益，原始研究中使用了q=8个最近邻。每个生产公共产品的位点都有一个成本ρ(r)，它与生产成正比，即ρ(r) = c φ(r)。与给定（占用）位点相关的适应度f(r)将是成本和收益之间的差异，即：

其中Θ (z) = z ，对于z > 0，否则为零。一组m个相邻个体竞争给定空位点的总适应度为：

并且 S (r) = 1 的给定位点将以（复制的）概率占据相邻的空位点。

在这里，括号中的术语提供了至少一个位点复制的概率。这符合这样一种直觉，即复制更可能发生在公共物品可用性较高的位点附近。

该模型通过引入变化的特定规则来完成：每次从位点进行复制时r ∈ Ω，新位点k∈ Γ(r)将具有不同的φ(k)值。这以概率 μ发生，新值为φ(k)=P(r)+ξ， ξ为区间内的随机数[−δ/2， δ/2]。

该模型由移动和死亡规则完成：个体可以移动到最近的位置，也可以分别以kmov和kd的概率死亡。

该模型及其变体的一般结果是，两类复制子之间始终存在进化分歧。

公共产品生产模型中复制器和病毒的演变。在这里，个体在二维网格上进化，在那里他们共享公共物品并争夺可用的位点。个体以p的速率生产公共物品，该比率均匀地分布在其邻居身上，从而使所有受影响的位点受益。个体也为公共产品的生产付出了代价。随着突变和一些随机效应，合作者和寄生者都以特征分叉进化（a）。在 (b-g) 中显示了系统的几个快照，显示了合作者如何传播，而寄生者则紧随其后。这里 b = 10，μ = 0.05，δ = 0.1，kmov = 0.02，kd = 0.2。

上分支和下分支分别与生产大量公共产品的合作者和利用合作者的寄生有关（因此显示出较低的生产水平）。灰度提供了个体规模的估计值。该系统的空间动力学以快照序列为例，当两个种群共同进化时，复杂的空间结构出现，合作者形成相干波，然后是将利用公共利益的寄生虫（波周围的暗边界）。

这些寄生虫聚集在合作集群的边缘，其稳定性受到合作成本的影响。尽管维持合作的成本很高，但该模型表明，合作者和寄生者都出现了，后者有利于前者合作的增加。

这是一个高度简化的模型，但有力地说明了突变和局部扩散之间的交互所起的作用，局部扩散被认为是早期细胞和病毒进化的关键组成部分。

癌症，语言和思维

计算机病毒显示出令人惊讶的逼真特征，这并非偶然。有与病毒实体相关的普遍模式，它们对宿主（活的或人造的）的共同进化影响支持了这一观点。

RNA病毒表现出的一个特别吸引人的特征，是它们在突变复制空间中的特殊位置：它们生活在灾难的边缘，就在达尔文进化操作阶段和随机阶段之间的边界上。

在第一阶段，信息可以保留，而在第二阶段，信息会丢失。

病毒达到的临界点说明了一种更为普遍的模式，这种模式似乎存在于各种处于临界状态的复杂生物系统中。因此，病毒准种表现出的一些特征也可能在其他进化环境中出现。

传染病，特别是由病毒制剂携带的传染病，在整个人类历史上已造成数百万人死亡。同样致命的是癌症，我们也知道，自从多细胞系统出现以来，癌症就一直存在。癌症是一种由细胞协作障碍引起的疾病。

在我们体内，许多生态过程在生长和再生以及定义增殖抑制和限制的过程之间建立适当的平衡。然而，有一种过程需要避免：进化。如果变异细胞能够逃离检查，它们可能会开始以更快的速度生长，让达尔文选择的过程开始运作。

复制器速度越快，获胜的可能性就越大。因此，癌症需要作为一个不断发展的生态系统来看待。

通常癌症不是一种传染病，因此它可能与病毒世界脱节。然而，大多数癌症有一个特殊的特征，这让我们能够定义一些真正有趣的相似之处：遗传不稳定性。

与健康组织中有序、可预测的细胞组织形成鲜明对比的是，对癌细胞群的观察展示了一个明显无序的基因组。最早的研究表明，这些细胞的染色体在显微镜下呈现为一个恐怖的图景——在那里可以看到各种杂乱的染色体排列。这怎么可能？从我们之前关于RNA病毒如何适应不断变化的环境的讨论中，我们已经知道的一件事是，高突变率在一定程度上为适应提供了强大的支持。

癌细胞面临着类似的情况——为了躲避过多的专门用于防止组织破坏的控制机制，癌细胞最大程度地利用了其进化潜力。

似乎有理由认为，较小程度的不稳定性可能是一个优势：特定的变化可以增强增殖，减少对其他细胞抑制的反应，或避免物理约束。但也有理由认为，过高的不稳定性必然会引发细胞死亡。那么，是否存在不稳定率？

我们可以从RNA病毒和癌细胞之间的几个相似之处获得启发。比如，从包括遗传不稳定性在内的癌症—正常组织竞争模型中，我们可以期望什么类型的种群动态？

有人提出，不稳定的癌细胞群也可能进化到接近灾难的程度——由于阻止不稳定的机制的失败导致更高的不稳定性，在这种情况下，数学模型表明，与癌细胞群相关的不稳定性的性质，可以利用“灾难性变化的存在”，来促进不稳定肿瘤的崩溃。

人类语言也提供了一个非常不同的准种的相关性示例。

达尔文本人将语言视为一类进化系统，并清楚地意识到语言所揭示的许多物种共有的特征。在《人类的起源》中，达尔文明确指出：

奇怪的是，不同语言和不同物种的形成，以及通过渐进过程发展起来的证据，都是平行的。

事实上，语言表现出物种的共同属性，并表现出巨大的多样性——比如今天仍然存在的约6000种语言。而且，基因和语言之间存在着显著的联系，在全球（Cavalli-Sforza，Cavalli-Sforza）和局部（Lansing）地理尺度上似乎都是相关的。

由于一系列过程（从生词的产生到与影响相关的社会因素），语言一直在变化。一个相关的问题是，它们如何保持其内部结构，以及如何在长时间尺度上保持如此大的多样性？

事实上，语言多样性的长期进化表明，与语言进化相关的几个特征与准种动力学模式是一致的。语言的基本组成部分，包括单词和单词使用规则，随着时间的推移而变化。这些变化可以从外部理解为某种“突变”。

我们可以推测，由于某种原因，给定的语言比另一种语言更容易学习，从而为适应度度量的潜在定义奠定了基础。当语言进化模型根据字符串的景观定义时，每个字符串代表一种给定的语言（每个位将是一个“词”）。

如果允许通过突变选择过程在语言之间流动，就会出现两个主要阶段：单一语言阶段和多种语言阶段——其中多种语言共存。该模型表明，语言进化的一些动态特性与复制子种群所表现的动态特性相差不远。

人类语言的例子，已经通过许多不同的方式得到了检验。语言定义了人类进化的转折点，是我们作为一个物种取得成功的关键。但是，发展一种能够解释其起源、普遍性质和进化的语言理论仍然是一个开放的问题。

语言一直与我们的大脑共同进化，是人类如此独特的基本特征之一。但是，语言作为一种非遗传形式的可传递信息，需要一个儿童与父母互动的习得过程。有人认为，由于语言需要“感染”未来用户的大脑，它可以被视为某种有益的寄生虫。

这个想法很有道理，因为语言就像一个非义务共生实体，它为人类宿主提供了明显的优势，没有人类宿主，它就无法生存。

然而，种种解释之外，我们仍然需要开发更好的语言进化模型——将认知、文化和生物方面结合起来。只有这样，“语言作为病毒”理念的真正价值才能得到恰当的解决。在诸如“病毒式”新闻传播，或谣言传播等多种语境中，流行病传播模型非常善于描述文化主题在社交网络中的传播。

数学模型在解释这些过程方面的成功表明，病毒的隐喻是成功的——它涉及某种能够通过网络传播并感染底层个体并改变其行为的智能体。

本文来自微信公众号：SerendipityCamp（ID：SerendipityCamp），作者：徐鸿鹄

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

病毒宇宙：癌细胞、人类语言和数字拷贝

大 家 都 在 搜

大家都在搜