扫码打开虎嗅APP
本文来自微信公众号: 范阳 ,编辑:范阳,作者:范阳,原文标题:《仅 1.25 MB 的生命蓝图:人类难以设计出的极简机制,和“非人类工程学”的启示。》
昨天在苏州河边跑步拉伸的时候,低下头看到的一朵坐标系上的花。
我在上上一篇文章里提到:“一个优雅而简单被设计出来的“最小可自我运转的生命”,也让我着迷,这会是一种哲学。”今天分享的这篇文章,就让我们聊聊为什么我们能从“极简的生命”当中,学到许多有关于“生命的未来”,还有“AI和机器的未来”。它们都会更像生命的形态,而不只是机器的形态。而这些秘密,很多还隐藏在生命起初的样子里。就像我们人生许多复杂的命题抽丝剥茧以后,你会发现源头都隐藏在你的孩童时期,简单纯粹,但是强大。
我也喜欢在我的公众号分享那些有趣的人,尤其是不受到科班和标签限制的独立写作者和拥有独特洞见的“智识分子”,他们的观点往往一开始是“反模因”(anti-memetic)的,因为需要足够的上下文去理解和消化,然后才能复制和传播。但是就像生命体的基因一样,一旦这些“浓缩信息”进入到合适的”宿主“和”环境”,它们就会获得生命力自我复制和进化下去。
延伸阅读:科技媒体进化:博客圈、播客矩阵与“智识共同体”
这篇文章给了我很多启发,来自作者Malmesbury(笔名)的博客Telescopic Turnip(伸缩式芜菁),在之后还会分享他的好文章。

简单即神迹,在今天这个信息熵和维度连接都非常高的世界里,我们应该承认许多事物背后的复杂性超出我们的理解,但是也应该相信在复杂世界里总存在优雅和更有趣的解法,这可能是“简单生命”教给我们和机器的一课。总有一天人类会学到这种超越理性设计(beyond rational design)的能力,而在现在我们只需要保持谦逊和进取心就好。
希望今天的文章对你有启发。

Mechanisms too simple for humans to design
作者:Malmesbury(笔名)
编辑:范阳
发表日期:2025年1月23日
免责声明(Disclaimer):本文讨论的是生物体(living organisms)及其如何被演化(evolution)所塑造。文中对数学的任何使用都是比喻性的,而非字面意义上的—只是为了给人一种规模感。对于那些被我那些毫不严谨、含糊其辞地提及柯氏复杂性(Kolmogorov complexity)所合理激怒的人,我在此表示歉意。
众所周知,人类在制造蝴蝶方面糟透了。我们能制造出许多客观上很酷的东西,比如核反应堆(nuclear reactors)和微芯片(microchips),但我们仍然无法制造出一个真正的人造昆虫(artificial insect),能飞行、觅食,并产卵孵化出更多的蝴蝶。这似乎表明,蝴蝶是极其复杂的机器—肯定比核电站还要复杂。
同样,当你在谷歌(Google)上搜索“宇宙中最复杂的物体”时,第一个结果通常不是人类发明的某种东西。相反,人们觉得最令人印象深刻的似乎是“人脑(human brain)”。
随着我们越来越接近制造出超越人类的AI(super-human AIs),人们好奇这些机器会想出什么样难以言表的、超越人类的发明。而在大多数情况下,人们能想到的最可怕的技术往往是“能自我复制的自主纳米机器人(self-replicating autonomous nano-robots)”,换句话说,就是细菌(bacteria)。
人类在面对自然世界(Natural World)时总是感到自身的渺小,并且我们很乐意承认,我们那些蹩脚的技术尝试与生命复杂性(Complexity of Life)相比根本不值一提。这很合理,直到今天,自然的生物体仍然是我们能够观察和研究的最主要的非人类技术(non-human technology)集合。究竟是什么让这些生物体与人类制造的技术如此不同(What makes these organisms so different from human-made technology)?
我的论点是这样的:人类无法制造出一只功能完备的蝴蝶,其真正原因并不是因为蝴蝶太复杂了。相反,是因为蝴蝶太简单了(the real reason why humans cannot build a fully-functional butterfly is not because butterflies are too complex.Instead,it's because butterflies are too simple)。
正如我将要论证的,人类经常设计出比蝴蝶、细菌或大脑复杂得多的系统—如果你看看房间里所有的物体,你的大脑可能甚至排不进前五名。
事实证明,生物体的复杂性存在着一些相当严格的基本极限(fundamental limits),这些极限是进化本质的直接结果。
但在深入讨论之前,让我们先来审视一下像你我这样的生物体究竟有多复杂。
You are simpler than Microsoft Word™
这里的“复杂性”,我指的是柯氏复杂性(Kolmogorov complexity)意义上的复杂性:即完整描述某个事物所需的信息量(how much information you need to completely describe something)。这个定义对两样东西尤其方便:软件,以及生物体(living organisms)。
例如,俄罗斯方块(Tetris)游戏可以装进一个6.5 kB的文件里,因此俄罗斯方块的柯氏复杂性至多为6.5 kB。它是一个相当简单的系统。相比之下,完整的微软Word™软件则要复杂得多,它需要2.1 GB的存储空间。
我们可以对生物体做同样的比较。人类基因组(human genome)包含约62亿个核苷酸(nucleotides)。由于有4种核苷酸(A、T、G、C),每个需要2个比特来表示,而1个字节有8个比特(8 bits in a byte),这样算下来大约就是1.55 GB的数据。
换句话说,所有控制你面部形状、骨骼、器官以及其中每一个酶的信息—所有这些占用的存储空间(storage space),比微软Word™还要小。
我们还可以更进一步:人类基因组中只有10%是真正有用的,这里的“有用”指的是受到自然选择维护的部分(it's maintained by natural selection)。剩下的90%似乎只是随机漂变(randomly drifting),没有明显的影响。仅这一下,就把你的复杂性降到了155 MB—连一张CD-ROM的存储容量都不到。
(关于基因组是否真的包含了描述一个物种所需的全部信息,目前仍有争论。由于每个细胞都是由另一个细胞分裂而来的,物理细胞结构中可能存在额外的信息。我的推测是,既然这些非DNA信息不像DNA那样作为进化的底层基质,它们可能对整体复杂性的贡献并不显著。)
我喜欢生物体/软件(organism/software)的这个比较,因为它能说明,与人造软件相比,生物体的压缩程度已经到了令人难以置信的地步(how insanely compressed living organisms are compared to human-made software)。请注意下图中的对数坐标:

花点时间来体会一下细菌有多么简单。大肠杆菌(Escherichia coli)的基因组大约有500万个核苷酸,也就是1.25 MB—小到可以装进一张1.44 MB的软盘里。
(写给各位年轻朋友:软盘(floppy disk)是直到2000年代初期都很流行的一种存储设备—💾这个保存图标画的正是它。写下这句话的时候,我感觉自己的骨头正在像古老遗迹一样腐朽坍塌。)
在这种语境下,“简单”并不等同于“无能”(being simple is very different from being capable)—我们讨论的可是能自我复制的微型机器人(self-replicating micro-robots)。大肠杆菌可以部署一个小马达游向营养物质;它拥有可伸缩的小触手(retractile arms)(菌毛)、一套能自我修复的外壳(a self-repairing envelope)、长达5年的“电池寿命”、复杂的集体策略(complicated collective tactics),以及一套极其精妙的免疫系统(CRISPR),以至于当我们发现它时,直接促成了人类技术的巨大跨越。



所有这一切,都被编码在一个只有Microsoft Word千分之一大小的基因组里。
(平心而论,并非所有细菌都能装进一张软盘。例如,黄色黏球菌(Myxococcus xanthus)的基因组有2.5 MB,就太大了。你得投入更先进的存储技术,比如40 MB的Iomega®1999款Clik™PocketZip。)
(话说回来,黄色黏球菌是一种捕食性细菌,以能够窃听猎物的化学信号而闻名,所以它基本上算是一种恶意软件(malware)。反正你也不会想把这种东西装进软盘里。)
我认为,这种令人目眩的压缩水平(compression),才是真正区分自然选择(natural selection)塑造的设计与人类制造的技术的关键所在。
比如说,你的身体里有一个精巧的小结构叫做肾单位(nephron)。它是你肾脏的基本过滤装置,能在清除有害废物分子的同时,把身体想要保留的宝贵物质留下来。

没错,肾单位看起来确实很复杂,但它并不比人类用来处理废水的设施复杂多少。事实上,人类工程师完全有能力造出运行良好的人工肾脏。
注:The Kidney Project
https://pharm.ucsf.edu/kidney
肾单位真正令人惊叹的地方,不在于其运作方式具备某种“超人般”的复杂性。真正令人震撼的是:你的每个肾脏中都有100万个肾单位副本(you have one million copies of the nephron in each of your kidneys),而且这整个系统是从单个细胞开始自发组装而成的(the entire thing spontaneously assembles starting from a single cell)。更不可思议的是,这一切的编码信息在基因组中仅占150 MB。这甚至还不到一张CD-ROM容量的四分之一。
一个水处理设施的完整设计规范能塞进一张CD-ROM吗?我觉得光是相关的监管文件恐怕都塞不下。
这种简单程度超越了人类迄今为止所创造的一切。这就是我所说的“对人类来说过于简约以至于无法设计出的机制(mechanisms too simple for humans to design)”。
当然,这种级别的压缩彻底改变了设计规则(this level of compression completely changes the design rules)。为了在“进化适应度”的市场中保持竞争力(To be competitive on the fitness market),生物体必须想出极其聪明的方法,用极少量的组件来完成非常复杂的操作。正如我们将看到的,它们在这方面表现得简直超越了人类的极限(they are super-humanely good at it)。
但问题是:为什么生物体从一开始就必须如此简单呢?
Blood for the Information Theory God
进化的运作方式是在突变(mutation)和自然选择(natural selection)之间交替进行。这对基因组的信息含量(the information content of a genome)有什么影响?用一个极其粗略的方式来说:
突变会降解信息(Mutations degrade information)。一个核苷酸编码2比特的信息,因此一次随机突变会引入2比特的“不确定性”(熵)。
自然选择会积累信息(Natural selection accumulates information)。如果你从一个包含所有可能序列的混合体(a mix of all possible sequences)出发,而只有适存度最高的比例P的种群存活下来(only the fittest fraction P of the population survives),你就获得了-log₂(P)比特的信息。注意,如果在某个位置上A、T、G、C是均匀混合的,那么选出“最适”的核苷酸就相当于选出了种群中最优的25%,因此信息增益为-log₂(0.25)=2比特,这正是一个核苷酸所包含的信息量。
我的本意只是把这个当作一个帮助直觉理解的工具(an intuition pump),不过你也可以用更精确的数学语言来表达这一点。因此,维持一个功能正常的基因组是一种永久的负担:在每一代中,随着我们不完美的DNA聚合酶(DNA-polymerase)引入新的随机突变,我们基因组中的一部分信息含量就会丢失。为了维持物种的延续,这些丢失的信息必须通过自然选择重新获得回来。

这伴随着巨大的代价:积累更多信息的唯一途径是进行更“高效”的选择(more "efficient" selection)—也就是说,每一代中必须有更大比例的种群成员在留下后代之前死亡(a larger fraction of the population must die without offspring in each generation)。信息论之神(The Information Theory God)想要鲜血。
为了理解这在现实中意味着什么,让我们做一个思想实验。
想象一下X(原Twitter)社交网络,但做一点小改动:推文是通过自然选择生成的(tweets are generated by natural selection)。在这个版本中,你不能写新推文,相反,每当有人按下“转发”(retweet)键时,推文会被不完美地复制,其中几个字符可能会被随机更改。
随着每一次转发,都有很小的概率让改动后的推文变得稍好一点。更好的推文更有可能被转发,如此反复,直到这条推文进化成有史以来最病毒式传播、最势不可挡的引战热帖(until the tweet evolves into the most viral,unstoppable incendiary hot take ever)。
(欢迎你去开发这个网站。建议命名为:X-染色体X-chromosome)
但现实情况是,在推文中引入随机改动,极大概率只会产生毫无意义的错别字,使其不如原作。
这就足以给推文的长度设定一个硬性上限。为了理解原因,让我们考虑两条同样优秀、平均都能被转发10次的推文,每个字符的突变率为1%(with a mutation rate of 1%per character)。
推文1长度为280个字符。那么94%的转发在某处都有突变,只有6%与原件相同。因此,大多数时候,这条推文的所有后代都会带有一个或多个随机字母替换,而这几乎总是件坏事。这条推文的后代在每一代中都变得“不那么带感”(less dank),其诅咒的王朝很快就消失在黑暗中。
推文2长度为140个字符。现在突变体的比例下降到了约75%。这意味着每一代后代中,你仍能得到2到3个原始推文的副本。如果它们每个又被转发10次,你就拥有了一个自给自足的种群(a self-sustaining population)。
诚然,推文1的某个突变体可能会靠运气变得异常“带感”,但在该谱系灭绝之前,它很难有足够的机会找到这样好的突变。与此同时,较短的推文2拥有潜在无限次的尝试机会,因此它最终有很大的机会找到有益的突变。
所以,我们在几个参数之间达成了一种权衡(a trade-off between a few parameters):
转推率(retweet rate)T,也就是“适存度(fitness)”
每个字符的突变概率(mutation probability per character)μ
推文的长度(length of the tweet)L
随着推文被转推T次,其后代中与原文相同的副本的期望数量为T×(1−μ)^L。这个数字代表了你传播出去的、未发生突变的推文副本数量——本质上就是原版推文的备份副本。为了使推文能够可持续地复制和进化,同时保持其信息,这个数字应至少为1。因此,推文的长度被限制为L≤−log(T)/log(1−μ)。

这样我们就得出了结论:一条推文能承载多少信息是存在一个硬性上限的(there's a hard limit on how much information you can fit in a tweet)。
当然,这个关于推文的比喻与现实生活中的DNA信息有很大不同,但其基本思路是一致的(生物学家们已经提出了各种粗糙的、不那么严谨的数学近似方法来将其形式化)(all kinds of dirty ghetto mathematical approximations to formalize it)。无论如何表述,一个不可避免的核心点是:不发生突变的转推所占的比例随L呈指数级下降。要想让推文的长度增加一倍,转推次数需要变为原来的平方(to make the tweet twice as long,the number of retweets would have to be squared)。
这就是为什么你不应该把进化看作是在可能的基因组空间中的一次“随机行走”(you shouldn't see evolution as a "random walk" through the space of possible genomes)。相反,自然选择的大部分工作仅仅是为了清除有害的突变体并维持一个核心的功能种群(most of the work of natural selection is simply to purge the bad mutants and maintain a core functional population)。只有在此基础之上,当种群能够世世代代延续下去时,进化才有机会进行一些微调,并尝试做出改进。
在实践中,信息的积累慢得惊人—在20世纪60年代的一篇论文中,木村资生(Motoo Kimura)估计,自寒武纪以来,我们平均每年仅获得约0.2比特的信息(we've gained about 0.2 bits of information per year since the Cambrian)。

The Barrier
那么突变率μ呢?难道我们不能通过降低突变率,让生物变得任意复杂吗(arbitrarily complex)?毕竟,DNA复制机制的精度又不存在数学上的极限,对吧?
嗯,事实上,DNA复制机制的精度确实存在数学上的极限(there is,in fact,a mathematical limit to the accuracy of DNA replication machinery)。
这并不是说不存在更优秀的聚合酶(polymerase)。问题是,进化的精度不足以发现它们。其原因被称为漂变屏障(Drift Barrier)—它是遗传漂变(genetic drift)的直接后果。遗传漂变指的是由于生命中的随机偶然事件导致的等位基因频率的变化(the change in allele frequencies due to the random happenstance of life)。
遗传漂变的强度与1/N成正比,其中N是种群规模(population size)。(为了直观理解其原因,想象一个赢家通吃的场景:一开始有N个个体。这N个初始个体中的每一个,都恰好有1/N的概率成为赢家—这纯粹是随机的。因此,一个中性突变也必然有1/N的概率被偶然选中。)这本质上就是进化的“分辨率极限”(essentially the "resolution limit" of evolution)。如果某个突变带来的相对改进小于1/N,那么这个改进就会被随机性淹没,自然选择无法可靠地选中它。
现在,降低突变率会带来边际收益递减(diminishing returns)。即使是在每一个突变都100%致命(因此存在对更低突变率的最大选择压)的情况下,将每代的突变数从10%降到1%可以挽救9%的后代,但从1%降到0.1%只能挽救0.9%,以此类推。最终,这种效果会变得非常小,以至于触及1/N的漂变屏障(Drift Barrier)。此时,进化就无法再将其进一步降低了。
而且,如果你纵观整个生命之树(tree of life),突变率确实与种群规模成反比。这是一个罕见而宝贵的案例:人们试图用数学来描述生物学,并且它确实奏效了:

范阳注:
细菌(种群规模N极大):它们的漂变屏障极低,因此进化可以将它们的突变率压得很低,从而在极小的基因组里塞进极高密度的功能。
人类(种群规模N较小):我们的漂变屏障很高。这意味着即便存在能让我们基因组更完美的变异,由于我们种群数量相对较小(从进化史尺度看),这些微小的改进也会被随机性淹没。我们注定是“多瑕疵”的。
人类工程师设计系统时,可以追求10^-9甚至更高的精度(如芯片制造)。但进化受限于1/N。这意味着自然界的所有设计都必须在“允许一定错误率”的前提下运行。这也是为什么生物系统具有惊人的鲁棒性(Robustness),既然无法消灭错误,就必须学会与错误共存。所以从这个视角推论,上文中提到蝴蝶之所以简单,是因为在它的种群规模和进化精度下,150 MB的有效信息已经是它能维持的极限了。再复杂一点,信息的流失速度就会超过自然选择的修复速度,导致物种崩溃。
当然,体型最大、结构最复杂的生物体,其种群规模往往也最小,所以这成了一个无解的死结:复杂性受限于突变率,突变率受限于种群规模,而种群规模本身又受限于复杂性(complexity is limited by mutation rate,which is limited by population size,which is itself limited by complexity)。
毋庸置疑,这些限制没有一个适用于人类的发明。这就是为什么你手机里的网络浏览器可以比你复杂好几个数量级。
Implications for Pokémon(SPECULATIVE)
如果一个物种无法维持其基因组的信息含量,这些信息就会随之挥发。在现实中这看起来像什么?生物学中有许多名字很酷的理论场景来描述这种后果,比如误差灾变(Error Catastrophes)、突变崩坏(Mutational Meltdowns)和灭绝涡旋(Extinction Vortex)。
为了说明这一点,让我们设想一下利用基因工程将你最喜欢的宝可梦(Pokémon)带进现实的可能性。

假设你想让皮卡丘降临世间(to immanentize Pikachu)。利用某种假想的先进AI技术,你生成了一个能编码出完美皮卡丘的完整基因组。接着,你合成出这段基因,并将其注入合适的宿主胚胎中。
这里有一个关键点:现实生活中的动物代表了某种“特殊情况”(real-life animals represent special cases)。它们的身体构型源于相对简单的规则,这些规则可以被编码在一个足够小的基因组中,并根据它们的种群规模得以维持。将一只动物编码进基因组,是一个极度“超定”(Over-determined)的问题。
但“完美的皮卡丘”几乎肯定不是那样的。并没有一个简单的“皮卡丘生成函数”(no simple Pikachu-generating function)。为了让它的形状和颜色分毫不差,你可能需要添加无数个基因回路和形态发生素,来精确调节每个特征的位置(you likely need to add numerous genetic circuits and morphogens to precisely adjust the position of each feature)。而这需要赋予你的皮卡丘一个极其庞大的基因组。
问题始于第一代皮卡丘开始繁殖的时候。即使它们一开始拥有近乎完美的DNA聚合酶(DNA-polymerases),漂变屏障(Drift Barrier)意味着聚合酶本身的突变无法被清除,因此突变率不可避免地会上升。由于皮卡丘的基因组如此巨大,所有后代中都会出现新的突变,所以你无法阻止它们积累畸形。
随着种群数量下降,自然选择的效率变得越来越低,一切都变得越来越糟。在恶劣的情况下,即便没有任何竞争对手,该物种也会螺旋式地走向灭绝。
你甚至无法通过育种让它们变回原本的形状,因为一旦信息丢失,原始等位基因在隔离状态下重新出现的概率微乎其微(once you've lost the information,the chances of the original alleles ever reoccurring in isolation are vanishingly small)。
(至于“猫娘”catgirls的相关推论太令人伤感,就不展开讨论了。)
Seeing like a 1.25 MB genome
信息约束主要影响的是那些种群规模较小、体型庞大且复杂的宏观生物(The information constraints are mostly relevant for large,complex,macroscopic animals with small population sizes)。
但我们也可以向另一个方向观察。在权衡曲线的另一端,你会发现细菌。它们选择的策略是:用数量庞大到恐怖、结构极其简单的个体席卷全球(who decided instead to swarm the world with huge populations of absurdly simple creatures)。
为了强调这两种策略之间的巨大鸿沟,让我们来看看它们的基因组。请记住,人类基因组中只有10%的有用信息,夹杂在90%的无意义“废土”之中。而另一方面,这是肠道大肠杆菌(Escherichia coli)的基因组。彩色区块代表编码具体内容的部分。只有区块之间那些极小的间隙是非编码区,而且其中大部分都具有重要的调控作用:

注:上图的可缩放尺度版本在这里
https://biocyc.org/genbro/genbro.shtml?orgid=ECOLI&replicon=COLI-K12
范阳注:如果把人类基因组比作一本1000页的大部头“天书”,里面塞满了废话、修改意见和各种过期的备注,而大肠杆菌的基因组就像一段被顶尖黑客压缩过的C语言代码,总共才1.25 MB,几乎看不到一行浪费的代码。这种“高信息密度编码”意味着什么呢?
1.每一比特的信息都必须经受高频率的自然选择(因为种群大,N值极大,漂变屏障极低)。2.任何无用的DNA都会因为增加复制负担而在几代之内被剔除出去。
更进一步来讲,既然人类的biology无法通过自然选择精准地清理每一个错别字(受限于1/N),“人类的生物策略”索性在有用的代码之间留出大量的“缓冲区”(即那90%的“废土“遗传代码)。这样即便发生了随机突变,大概率也只是落在废土里。
而细菌的策略是:它们直接挑战极限。因为它们有数以亿计的个体在同时进行“并行计算”,即便突变率高,只要有一个个体产生了最优解,它就能迅速占领种群。
也许我们在优化人类自己的“生物系统”,和设计未来的生物学(future of life)的时候,应该减少“不计成本堆砌复杂度”的低效工程思维,减少用复杂系统去研究复杂系统的惯性,而从生命最简单的结构和底层原理出发,最终我们也会学会一种简洁优雅的“大设计”。
细菌(以及其它原核生物)的基因组,看起来像是九龙城寨(walled city of Kowloon)。相比之下,动物(以及其它真核生物)的基因组则更像是哈萨克斯坦(Kazakhstan)的大草原。
你可能会好奇,生命为何会分化为这两个极端(why life would diverge to these two antipodes)。仿佛有一股不可抗拒的力量将这两个世界拉扯向相反的方向。事实也的确如此。
实际上,考虑到上述信息论(the information-theory)的论点,细菌本可以拥有大得多的基因组而不会陷入误差灾难。它们自我复制的精度高得惊人—如果一个细菌分裂1000次,那么999个后代子细胞会与其母细胞完全一致,在全部1500万个碱基中,没有一个错误。
但是,还有其他因素在拉低细菌基因组的大小。我听说有三个原因:
1.膜/细胞质比例(The membrane/cytoplasm ratio):在人类体内,与呼吸作用相关的化学反应是由线粒体(mitochondria)来完成的。但细菌没有线粒体。相反,它们的呼吸作用是由嵌入细菌细胞膜中的酶来完成的。问题在于:如果你将一个细胞的大小增加一倍,其体积会增加到原来的8倍,但表面积只增加到原来的4倍。因此,如果你试图在细胞内部添加更多精妙的机制,你很快就会因为没有足够的细胞膜“地盘”来产生驱动这些机制所需的能量而陷入困境(if you try to add more cool mechanisms inside a cell,you will soon run out of membrane real estate to generate the energy to power these mechanisms)。

这正是线粒体如此不可或缺的核心原因之一:它们让细胞膜的面积(即产能上限)(energy-production capacity)能够随体积同步增长,从而打破了细胞尺寸的物理限制。
2.与臃肿的真核生物相比,细菌的演化显得极其精细(Bacteria's evolution is more precise):制造几百个核苷酸的成本与制造整个细胞的总成本相比,前者简直微不足道。但由于细菌的种群规模极其庞大,它们的漂变屏障(Drift Barrier)极低。这意味着,哪怕只是通过删除100 bp的无用DNA来节省那么一点点能量,演化的精度也足以捕捉到这种极其微弱的优势,并将其推行到整个群体中(If they can save a little bit of energy by removing 100 bp of useless DNA,evolution is precise enough to get rid of it)。

相比之下,真核生物拥有庞大的基因组和微小的种群规模,演化系统根本“看”不到这点细微的差别。于是,垃圾DNA(Junk DNA)就像家里舍不得扔的旧报纸一样,越攒越多。
3.而且细菌本身就喜欢删东西(Bacteria just like to delete stuff)。细菌在突变的时候,就算没有选择压力,它们删掉核苷酸的概率也比插入高出10倍。原因还不是很清楚(真核生物不这么干),但后果很明确:基因组里任何不那么有用的序列,都会自然而然地随着时间被压缩掉。

以上只是从机制层面进行的解释。如果你想探讨这背后的形而上学,我强烈推荐阅读Aysja发表在Seeds of Science上的文章—《为什么细菌如此简单》。
注:Why Are Bacteria So Simple?
https://www.theseedsofscience.pub/p/why-are-bacteria-so-simple
总之,细菌身上的一切似乎都为了极致的简约而优化。这种策略让它们拥有了海量的种群规模和惊人的进化速度(everything about bacteria seems to be optimized for minimalism,allowing for immense populations and rapid evolution)。这就是为什么最终我们观察到的,是这种基因组能塞进1.44 MB软盘的、堪称奇迹的“自我复制纳米机器人”(how you end up with self-replicating nanobots whose genomes fit on a floppy disk)。
Mechanisms too simple for humans to design
明白了这些限制之后,我们才能真正体会到自然界那些机制的朴素之美,它们简单得令人叹服(the magnificent simplicity of natural mechanisms)。
举一个我最喜欢的例子。这是枯草芽孢杆菌(Bacillus subtilis)用来在环境中导航的一个极其聪明的机制。
枯草芽孢杆菌是一种杆状细菌,生活在土壤深处、靠近植物根部的地方。它的生长方式是这样的:
哈哈,老实说,我也不确定那是不是真的是枯草芽孢杆菌,那只是我随手找的一张动图。
对于土壤中的细菌来说,典型的一天大概是这样的:逃过致命真菌的追杀,找到美味的营养物质,以及——也许最重要的——找到氧气来呼吸。这么小一个生物,到底要怎么找到那些能让它生长最快的地方,并朝它们移动呢(How can such a small creature find the places where it can grow the fastest,and move towards them)?
从人类工程师的角度来想这个问题很有意思:如果你想造一个微型机器人,让它朝着生长速率最快的方向移动,你会怎么做?你能想到的最简单的解决方案是什么?
我随便想一个“人类风格”的笨办法(a naive "human-style" solution):在细胞表面到处装上氧气传感器,然后想办法测出两个相对侧面之间的氧气浓度差。一旦探测到梯度,就在氧气少的那一侧启动一堆微型螺旋桨,这样细菌就能朝着氧气游过去。然后对每一种营养物质都重复这套设计(put some oxygen sensors everywhere on the surface of the cell,then somehow measure the difference between two opposite sides.If you detect a gradient,you activate a bunch of tiny propellers on the least oxygenated side,so the bacteria swim towards the oxygen.Repeat this for every possible nutrient)。
这方案成本高、容易坏,而且极难通过进化产生。说实话,我也想不出什么更好的法子。(如果你愿意花点时间思考一下,不妨暂停阅读,在评论区写下你最好的方案!)
那么,枯草芽孢杆菌实际是怎么做的呢?它的策略结合了两种现象:
注:Bacterial biofilms use chiral branches to escape crowded environments by tracking oxygen gradient
https://arxiv.org/pdf/2208.09730
第一,枯草芽孢杆菌并不是直线生长(B.subtilis doesn't grow straight)。它的生长带有扭转(It grows twisting),大概是这样的:

范阳注:本来在物理性上看似是一种“缺陷”,但是这个缺陷打破了对称性,让生物体通过旋转和扭曲,这样一个“单点传感器”就能在移动过程中覆盖不同方位的环境信号,它不需要复杂的空间协同算法,而在“探索和体验中”找到最佳路径。
(如果你觉得这很难想象,改天请我喝杯啤酒,我当面比划给你看。)
第二,当这些细胞处于饥饿状态时,它们倾向于聚集成包含数千个相互缠绕的细胞团块,即“生物膜(Biofilm)”。在这个过程中,它们通常会持续伸长,但停止完全分裂,从而形成长长的丝状体(forming long filaments)。
仅仅凭借这两个简单的特性,就足以让这些细胞顺着梯度向上爬升。你能猜到这会产生什么涌现属性(Emergent Property)吗?
...
...
...
注意,如果一个细胞丝体与其他细胞缠绕在一起,那么它的两极就被固定住了,无法自由旋转。随着细胞继续以这种“扭曲”的方式生长,最终会发生这种情况:
范阳注:这是生命体不需要“大脑”的“智能”。它没有传感器阵列,一个细菌整个“身体”就是传感器。它没有计算单元,细胞的生长速率本身就是计算逻辑。它不需要特定的“推进器”,靠细胞本身的“扭曲生长应力”和细胞之间形成的“物理推力”就是“推进器”。

于是,我们这一团紧紧附着在表面的细菌,现在拥有了像触手一样的结构,它们可以向外延伸去获取氧气,就仿佛被一圈“呼吸管”(snorkels)所环绕。这是一张真实的图片:
现在,如果某一侧的氧气更充足,获得氧气最多的细胞就会长得更快,因此新的“触手”会主要出现在菌落氧气充足的那一侧。换句话说,菌落会优先向氧气源的方向抛出它的“触手”(the colony throws its tentacles preferentially in the direction of the oxygen source)。
处于触手末端的链状细胞随后可以完成分裂,从而在新的位置重新开始这一过程。论文作者表示,这就是枯草芽孢杆菌(B.subtilis)的生物膜如何通过追踪氧气梯度来逃离拥挤环境的。它基本上是在执行“梯度下降(Gradient Descent)”算法,而实现方式仅仅是结合了扭转生长、链化和物理缠绕(just by combining twisted cell growth,chaining and entanglement)。
论文仅针对氧气证明了这一点,但这种“丝状触手”并不显式地依赖任何氧气探测器(the filament tentacles don't explicitly rely on any oxygen detector)。我推测,它在追踪食物、逃避抗生素或寻找更适宜的温度时也同样有效。这就是最优雅的地方:它是一个纯粹的“生长最大化器”,而驱动力正是生长本身(it's a pure growth-maximizer that is driven by growth itself)。地图即疆域。
这就是为什么我觉得研究细菌如此有趣。细菌总是能搞出这类名堂。当你的基因组只能存储1.25 MB的信息时,你根本无法将其浪费在清晰、理性、易懂的机制上。
相反,细菌的工程学思路是:拼凑出一个诡异的动力系统,以看似不可能之少的活动部件,将你想要最大化的那个东西与能够实现最大化的行为耦合在一起(bacteria's engineering approach is to throw together some spooky dynamical system that somehow couples the thing you want to maximize to the behavior that maximizes it,with fewer moving parts than what seems possible)。
(如果你还想看另一个例子,这里有一个完全建立在纯数学基础上的案例。)

The future of non-human design
回到我在开头提出的那个问题,这一切,是否能让我们对未来的超级智能AI会发明出什么样的东西有所预见呢(does this tell us anything about what kind of inventions the super-intelligent AIs of the future will come up with)?
显而易见的是,生命体是某些非常特殊的约束条件下的产物,其中一些约束直接源于进化过程本身(living organisms are the product of some very peculiar constraints,including constraints that directly emanate from the very process of evolution)。而AI辅助的理性设计(AI-assisted design)不会受到这些约束的限制,因此它的设计空间要大得多。我有时会听到类似这样的说法:“[某种可怕的东西]在自然界中不存在,所以[这种可怕的东西]不可能实现。”这种说法显然站不住脚,进化所受到的特定约束,只适用于进化过程中的事物。所有自然界的流行病都受制于这些约束,但人造的生物武器可能就不会。

但另一方面,生物界包含了一些世界上最令人着迷的机制,通过“智能设计”很难凭空构思出它们。设计空间中最精彩的部分可能实在太诡异、太离谱太天马行空,以至于理性的智能体根本无法触及(It's possible that the best parts of the design space are simply too strange,too far-fetched,to be explored by a rational agent)。也许有些设计只能通过不懈的现实世界实验才能被发现(Maybe some designs can only be found by relentless real-world experimentation)。
机器或许已经在博士水平的数学上击败了我们,但要完全驾驭“偶然发现(Accidental Discovery)”那波澜壮阔的力量,它们还需要更长的时间。唯有到了那时,它们才算真正拥有了足以与自然抗衡的实力(Only then will they be able to truly rival Nature)。
延伸阅读:蛋白质打印机:与自然进化较较劲,设计一种比特/分子机器。
范阳注:细菌对于大众一直是个“负面词”,但作为世界上最简单的生命体之一,就能教给人类很多知识(其实人类的生物技术已经从细菌学习到太多拯救人类生命和健康的技术)。细菌作为个体和群落,这种“扭转生长+物理缠绕到定向导航”的逻辑是非理性的、是动态耦合的,甚至在人类看来是“不整洁的工程”,也没有合理的数学指导。如果未来的AI只是在模拟人类的理性逻辑,它可能永远无法造出类似细菌这样精妙的机制,更别说超越进化路径的新的生物学。