扫码打开虎嗅APP
本文来自微信公众号: 范阳 ,编辑:范阳,作者:范阳,原文标题:《AI 时代,生物学还需要理论吗?— 从虚拟细胞 (AIVC) 说起》
以下信件由哈佛大学保尔森实验室(Paulsson laboratory)的科学家诺亚·奥斯曼(Noah Olsman)撰写。这些信件原本无意发表,许多细节也可进一步完善。经诺亚许可,我在此将其发表,希望它们能成为更多讨论的起点。如有反馈意见,请发送邮件至noah.olsman@gmail.com。
理论在科学中扮演着怎样的角色?我认为,这个问题所包含的微妙细节远比大多数人想象的要多,而且在过去的一个世纪里,其答案已经发生了改变。
存在一种广泛存在却未经明言的假设—通常在教科书中被传授—即理论是科学的终极目标(theory is the end goal of science)。实验被用来构建理论,而当一个理论能够正确预测实验结果时,它就通过了检验。在这种框架下,实验扮演着从属于理论的次要角色。这种观点在教学上固然有用,但我们有必要暂时将理论请下神坛,把它仅仅视作科学推理的另一种工具。
从这个视角来看,理论在科学中的角色可以归纳为三个范畴:解释(explanation)、内插(interpolation)和外推(extrapolate)(注1)。
解释,意味着理论能够通过推导模型的通用特性,来阐明或解释其行为背后的本质逻辑(例如:该系统在何时处于稳定状态?是否存在守恒量?)。
内插,是理论与建模的结合(Interpolation is the marriage of theory and modeling),它让我们能够尝试寻找一种简约的框架,将众多数据点以某种统一的方式联系起来(例如:爱因斯坦统一惯性质量与引力质量,或者诺特定理将守恒定律与对称性紧密相连)。
外推,则是理论带来的核心回报(the big payoff);它让理论能够对尚未发生、且不存在于现有数据中的事物做出预测(theory making predictions about things that have not yet happened and do not exist in current data)。
注1:这虽然是一种简化,但需要注意的是,理论其实并不直接作用于数据,而是作用于模型(theory doesn’t really operate on data directly,but rather on models)。现行科学课程体系的一个重大缺失,就是完全没有对“如何构建数学模型”这一问题进行过严肃的探讨。在我上过的每一门课里,模型几乎都是被直接塞给你的。你能看到模型是如何拟合数据的,但这些模型就像是一组从虚无中凭空抓出来的方程或形式化体系。我们经常将“建模”与“理论”混为一谈,但实际上,理论是以模型为操作对象的。
顺便提一句,我认为这也部分回答了你关于“生物学中的理论”那个问题:如果你的模型本身不够好,理论也就没有多少可供加工的原材料。
长期以来,“外推”一直被用来证明理论的合理性,而且理论构想也确实带来过巨大的概念性突破。但发展到今天,许多理论都存在于象牙塔(或孤岛)之中,对更广泛的科学与工程生态系统仅能产生微乎其微的影响(注2)(a lot of theory exists in a bubble,with only marginal impact on the broader science and engineering ecosystem)。
注2:在控制理论领域,有一个经常被引用的统计数据:工业中超过95%的控制器都是PID控制器,尽管PID已经有一百多年的历史,而且现在还有许多更先进的技术。这个说法总是被当作一个有点幽默的自嘲式轶事来提及,但它凸显了理论的理想化版本与理论家的工作在现实世界中实际发挥作用的方式之间的差距。理论工作之所以能够持续存在,是因为有足够多有实际用途的产出在支撑着它。
我怀疑这种转变始于20世纪中叶,当时计算机开始在“外推”能力上与理论展开竞争:原子弹是基于理论建造出来的,但氢弹结构过于复杂,在很大程度上依赖于数值模拟(注3)。
注3:冯·诺依曼和他的妻子为此做了编程工作。这也是“蒙特卡洛模拟”(Monte Carlo simulation)这一术语的起源。
在过去,理论的合理性是自证的:它是进行预测的唯一工具;且由于当时的数据有限且成本高昂,模型无论如何都必须足够简单,以便进行理论分析。而随着计算机的接管,人们开始质疑:当模拟可以做到更精确时,理论抽象本身是否还有价值(whether theoretical abstractions were intrinsically worthwhile when simulation could be more precise)?
如果我们快进到今天,我认为机器学习再次改变了这一范式。如果我们能够收集海量数据,而我们对这些数据建构的最佳模型,又是些庞大且不可解释的统计模型,那么理论该往何处安放?你或许可以争辩说,理论仍然能对现实提供更深层的洞察(theory will still offer deeper insight into reality),但这也正是我想带入我们所处的生物学世界的地方,而且我认为系统生物学(systems biology)的发展史就是一个很好的案例研究。
当系统生物学作为一个领域刚刚兴起时,其愿景是:我们终于能够将数据驱动的生物过程模型整合在一起,并在这些模型中揭示出生物系统简单且普适的设计原理(we could finally put together data-driven models of biological processes,and that within these models we would uncover simple and universal design principles for biological systems)(注4)。
注4:参见乌里·阿隆(Uri Alon)在2000年代初的研究工作。
但看看过去二十年里这个领域发生了什么!这一愿景基本上已经被束之高阁(或被淘汰)了。该领域在2000年代和2010年代的许多领军人物都转向了方法开发;那些理性的行动者意识到,该领域的数据本质上过于粗粒度,根本无法用来生成第一性原理模型(first-principles models),因此他们围绕解决这些问题调整了自己的研究方向。
直到不久前,数据生成还遵循着一种“只要你建好,自然会有人来”(if you build it,they will come)的思路。认为只要生成足够多的数据,我们就能回归到那些简单的理论模型,实现该领域早期所设想的图景。但现在,游戏规则已经改变,驱动方向转向了统计模型。就连系统生物学早期许多最杰出的理论家,也已用脚投票。许多顶尖的定量生物学系已经偏离了理论,转而支持以方法为导向的研究(moved away from theory in favor of methods-oriented research)。
是时候重新评估理论在科学和工程中的角色了。在生物学内部,我们需要深刻反思:理论到底为这个领域贡献了什么?我之所以这样说,是因为我是非常重视理论的人,并且我的工作也是围绕理论来构建的!我并不认为理论已经走入死胡同,但我认为理论家们需要认真思考:他们究竟为自己的领域贡献了什么(注5)。
注5:这方面的一个正面例子是控制理论家们发起了“动力学与控制学习”(Learning for Dynamics and Control,简称L4DC)学术会议,其唯一目的就是让控制理论家与机器学习领域的人坐在一起,共同探讨这两个领域如何才能开展建设性的互动。
诺亚,你是否认为在生物学中,有哪些东西是我们只能通过经典理论获取,而无法从大型统计模型中得到的(do you reckon there are things in biology we can only get from classical theory,and not from large statistical models)?
思考这个问题的一个有效框架或许是“虚拟细胞”(virtual cell)。构建虚拟细胞基本上有两种路径:自上而下(top-down)或自下而下(bottom-up)。
自下而上或称“机制性”的方法(mechanistic”approach),其最佳代表或许是斯坦福大学的马库斯·科弗特(Markus Covert)。该路径旨在依据方程和第一性原理来构建一个全细胞模型(a whole-cell model from equations and first principles)。它给人的感觉比自上而下的尝试更为优雅,因为它构建出了一个可解释的“知识库”。基本上,模型会提出预测,实验揭示其中的差异,每一个不匹配之处都会告诉你你的理解哪里出了错,以及哪个实验可能有助于填补这一空白。这是一种增长知识(grow knowledge)的途径。
同时,似乎有些东西是我们只能从机制性模型中学习到的,而无法从纯粹的统计模型中获取。马库斯·科弗特曾给我讲过发现海王星的故事,这个发现源于数据集中的偏差。天文学家们拥有关于已知行星的牛顿模型,他们注意到天王星的轨道行为与预测不符,便推断出这些扰动是由一颗当时未知的行星—海王星—施加的引力引起的。科弗特的观点是:今天你可以用同样的数据训练一个统计模型来预测行星运动,但这个模型不太可能做出这种性质的概念性飞跃,推断出一颗缺失行星的存在。有些发现似乎仍然需要人类推理,在一个机制性框架上运作,至少目前是这样(There are some discoveries that seem to require human reasoning,operating on a mechanistic framework—at least for now)(注6)。
注6:阿尔文·贾贾迪克塔(Alvin Djajadikerta)在Asimov Press上也阐述过类似的观点。可以参考他在该平台上发表的文章《为颠覆性科学而设计的人工智能》(AI for Disruptive Science)
https://www.asimov.press/p/ai-science
每当我坐下来撰写关于生物学理论的文章,并试图阐明我对统计模型的批判时,我总会担心读者会轻描淡写地回一句:“得了吧,我们可以构建稀疏自编码器(sparse autoencoders)来解释那些原本不透明的模型(opaque models)所做出的预测。”(注7)
注7:Adam Green(亚当·格林)在Markov.bio平台上对此多有论述。可参阅他的文章《如同隔着一块暗色玻璃:机制可解释性作为通向端到端生物学的桥梁》(Through a Glass Darkly:Mechanistic Interpretability as the Bridge to End-to-End Biology)。
https://www.markov.bio/research/mech-interp-path-to-e2e-biology
也许他们是对的。但随后我想到马库斯以及海王星的例子,我便不再确定这些可解释性工具是否真的能解决更深层次的问题(not sure interpretability tools actually solve the deeper problem)。
我个人对纯数据驱动模型的担忧在于,我们可能会失去一些科学本身所固有的、极其独特的东西。如果我们探究一个模型的目的,仅仅局限于做出有用的预测,或者为某种疾病寻找治疗方法,我们是否还能真正提出正确的问题,去理解一个细胞最根本的本质?如果我们从头到尾都只采用这种自上而下的路径,我们甚至还知道该如何去驾驭这些稀疏自编码器吗?又或者,我们还会知道该向它们提出什么样的问题吗?
我同意,理论带来的最大好处之一,就是提供了一种将我们对某个系统的信念(认知)形式化、做出预测、然后观察数据与之是否匹配的方法。但在我看来,问题在于,我们只有在两种情况下才能满怀信心地去识别那些“不匹配”之处。
第一种情况,我们可以利用理论试图去证明“不可能性的结果”(impossibility results)。例如,我们可以论证:任何包含XYZ相互作用元件的系统,都绝不可能实现某种特定行为(比如振荡或将噪声控制在特定水平以下)。这种理论的优势在于,你不需要关于整个系统的详细模型,而只需要了解某个特定子系统的信息。
有一篇论文给出了反馈系统抑制噪声能力的四次方根标度律:要将噪声降低10倍,就需要将信号速率提高10,000倍。这种理论的局限性在于,它从未真正具有建设性。它最多能告诉你,一个给定的系统何时触及了某个基本极限。如果你确实超过了这个极限,那么(假设你的理论结果是正确的)就意味着你对系统中受限部分的理解是错误的。

第二种情况,我们可以尝试对系统进行显式建模(explicit modeling)。显而易见,这能带来精确得多的结果,但这些结果的有效性,与模型结构以及模型参数的正确性高度绑定。我认为,这正是自下而上的细胞模型驶入危险水域的地方。如果你想对整个细胞进行显式建模,在对其进行严密分析并将数据与理论进行对比之前,你必须对注入模型之中的成百上千个方程抱有极其异乎寻常的信心。
坦率地说,这也是为什么我对这整个尝试持怀疑态度。诚然,你确实可以把它做出来,也许你还能展示你的全细胞模型在某种均方误差(MSE)意义上表现良好;但如果你想用这个模型做点别的事情,你要么需要极其确信这个模型在机理上是完全正确的,要么必须对“哪些参数对特定的预测结果影响最深”有非常扎实的底层理解。而当你所观测的输出结果,仅仅是你真正关心的核心指标的一个间接替代变量(indirect proxy)时,这种建模方式就会变得更加不靠谱(sketchy)(注8)。
注8:如今,我们最常作为输出结果(观测指标)的是转录组测序(RNA-seq)。而且我认为,我们(定量生物学界)在这上面投入了太多信念,潜意识里觉得:既然我们能以如此高效且经济的方式进行RNA-seq,它就一定能为我们提供关于细胞状态的可靠信息。这在宏观上或许大致正确,但不妨考虑这样一个思想实验:
想象在未来的某个时刻,我们已经彻底完善了单细胞蛋白质组学(single-cell proteomics),并且能够获取细胞中每种蛋白质状态的完整读数。一旦这一天到来,我们对RNA-seq这种分析手段还能保留多少信任?我的猜测是,相比之下,转录组学(transcriptomics)届时看起来会显得极其粗粒度且原始。
眼下,RNA-seq是我们所能写出的最优解,所以我们多多少少必须去信任它。可一旦下一代技术席卷而来,我们就会纳闷,当年自己为什么会对它寄予如此厚望——正像当年微阵列芯片(microarrays)、定量PCR(qPCR)以及许多其他技术曾历过的宿命一样。
如果我们想开始真正对细胞进行建模,我认为我们需要从简单的过程做起,并开展那些真正艰难的工作:确切搞清楚我们测量参数的精度究竟有多高、预测新数据的能力有多强、对实验施加扰动后我们的预测是否依然准确。而一个反直觉的事实是,这样的努力实际上会把我们推离纯粹的“机理模型”(mechanistic models),转而推向更具“现象学意义的模型”(phenomenological models)。
我之所以这么说,是因为即便在我们完全知晓系统内部机理的情况下,如果我们仔细推演报告基因(reporters)实际上能告诉我们什么,往往会发现某些参数组合是退化的(degenerate),无法通过任何实验来唯一识别。
举个简单的例子:如果你手中唯一的观测数据是稳态基因表达量,你是无法分别推断出基因的产生速率(kp)和降解速率(kd)的,因为稳态仅仅是这两者比值(kp/kd)的一个函数。因此,我们不能一脑股地把所有已知的生物学知识都塞进模型里,相反,我们必须深思熟虑地去简化模型,使得模型的参数在给定的实验数据集下是可识别的(注9)。
注9:这类介于底层机理与全系统数值模拟之间的建模方式,有时会招致批评,因为物理学家往往倾向于提出模型并推导其理论特性,却止步于将其与数据进行映射(对接)的下一步。真正值得追求的中间地带(当然,这是基于我个人工作所带有的偏见)是:模型既要足够简单以适应理论推导,同时又能得到数据的严格证实。
这是我非常喜欢的一个思想实验。想象一下,有人邀请你登上一架全新研发的飞机。当你询问安全问题时,他们告诉你,他们在飞机的每一个零部件上都安装了传感器,并将所有数据喂给了一个庞大的模型,而模型显示这架飞机可以安全飞行。你敢上去吗?大概率不敢。
现在,假设他们把整架飞机的机理模型(机制模型)输入到了一台超级计算机中进行模拟。你敢上去吗?我的答案依然倾向于不敢,因为信任这种模拟,需要对建模时的种种假设抱有极其巨大的信念。
现实情况是,我们构建复杂系统的方式,是通过不断验证各个子系统的模型、将它们整合、测试这些整合后的性能,一步步推进的(we build up complex systems by validating models of various subsystems,integrating them,testing those integrations)。这虽然不是某个宏伟的统一框架,但却是做出可靠预测的路径。
也许目前最前沿的细胞模型已经做到了这一点,但在我的感觉中,现有的文献看起来更像是一个把数据和假设强行缝合在一起的“科学怪人”(Frankenstein)。它确实能产生一些结果,但绝对还不是一架能让你心甘情愿坐上去的飞机(注10)。
注10:我认为这非常能说明问题:尽管缩放定律(scaling laws)和通用大模型取得了巨大的成功,但作为首个对安全有着极苛刻要求的机器学习系统—自动驾驶汽车,依然是以渐进、增量的方式研发出来的(developed incrementally)。
也许这种情况未来会发生改变,但我认为,我们仍然需要老派的工程学(old-school engineering)来足够深刻地理解这些复杂系统,从而能够对它们进行工程化改造,无论这些系统是汽车,还是CAR-T细胞。
我脑子里又冒出了几个后续的想法,觉得还是得在它们色散消退之前发给你。我最近在听一个(非常小众的)由控制理论家主持的播客,节目里他讲述了该领域最核心的一项理论成果的历史—奈奎斯特稳定判据(Nyquist stability criterion)。

范阳注:此播客的链接
https://www.incontrolpodcast.com/1632769/episodes/18850371-ep42-incontrol-guide-to-the-nyquist-criterion
在19世纪(如麦克斯韦或劳斯的方法),你想知道一个蒸汽机或一个动力系统会不会失控爆炸,你必须把这个系统的每一个物理零件、每一颗螺丝的质量、摩擦力全部写成微分方程。这就像马库斯·科弗特试图把细胞里的每一个分子都写进方程一样。但你也可以用“外在数据”锚定系统的“内在边界”:哈里·奈奎斯特(Harry Nyquist,一位同样来自贝尔实验室的传奇人物)在1932年发现:你根本不需要知道这个黑盒系统内部是怎么连线的,也不需要知道里面有几百个未知参数。你只需要对这个系统输入不同频率的正弦波信号(扰动),测量它输出的幅度和相位(这就是纯粹的实验数据,即频域响应),在复平面上画出一条曲线(奈奎斯特图),你就能以100%的数学确定性确信:这个系统是绝对稳定的。
不用展开太多细节,简而言之,这是每一门控制理论入门课都会讲到的成果。它是首批允许工程师预测反馈系统何时稳定、何时不稳定的实用方法之一。尽管在19世纪就已经有了许多可以用来证明给定微分方程组稳定性的成果,但它们都有一个共同的前提:你必须在事前就拥有一个高度参数化的系统模型。
而奈奎斯特判据的精妙之处在于:尽管在拥有模型的情况下它确实能用来证明系统的稳定性,但它同样可以纯粹基于实验数据来做到这一点(注11)。
注11:其基本思路是:你对一个开环(Open-loop)输入/输出系统(比如一个电子管放大器)进行一次标准化的实验。实验中,你输入振幅恒定、但频率逐渐增高的正弦波信号(扫频)。
如果该系统是线性的,那么输出也必然是一个相同频率的正弦波,但其振幅和相位(即波峰错开的时间)不一定保持原样。利用这些实验数据,你可以绘制出输入信号的频率与输出信号的振幅及相位之间的关系图。这一对图表,在工程上被称为波特图(Bode plot)。
现在关键的问题来了:你能够仅仅依靠这种“开环”的测试特性,去准确预测该系统在“闭环”(引入反馈)状态下的稳定性吗?奈奎斯特所意识到的正是:你可以基于动力学系统底层深奥的数学特性,推导出一套完备的理论。这便诞生了著名的奈奎斯特稳定判据(Nyquist stability criterion)。
从最基础的层面来说,该判据表明:你可以将上述波特图中的相位和幅值数据提取出来,将它们合并并绘制成复平面上的一条运动轨迹(即奈奎斯特图),然后数一数这条轨迹围绕“-1”这个点圈了多少次。这个绕圈的次数,将直接对应并决定该系统究竟是稳定还是不稳定。如果你觉得上述讨论过于抽象,这里还有一个用Claude制作的交互式小教程。
我之所以提起这个,是因为它是一个非常优美的历史范例,展示了理论究竟是如何真正进入一门学科的(how theory actually enters a discipline)。
一个领域首先会发现某种出人意料且极具实用价值的新现象(在当下这个案例中,即电子系统的反馈控制),随后便利用它构建出日益复杂的底层技术,并凭借着工程直觉一路高歌猛进—直到他们撞上那些单凭“试错法”(trial and error)根本无法解决的死胡同。在这个关头,如果我们足够幸运,理论就会挺身而出并大放异彩。
在奈奎斯特的案例中,电话公司发现长距离网络因其反馈放大器而出现不稳定性,但却没有系统的方法来解决。奈奎斯特找到了如何利用现有实验数据来破解核心问题的方法,他的工作为控制理论成为一门严谨的学科奠定了基础。你可以讲一个结构完全相同的故事,关于香农与信息论,或者麦克斯韦与电磁学(注12)。
注12:如果你没读过《原子弹秘史》(The Making of the Atomic Bomb),强烈推荐,这本书精彩极了,前半部分全是关于这段科学史的。
范阳注:目前的AI生物学研究到大部分的AI4Science研究都还在电磁学被整合发明之前的时期,要么是“堆砌数据的纯AI黑盒”,要么是人类科学家陷入到不同细节和局域的无限复杂性当中,又缺少坚实的数理基础。
我尽量不把篇幅拉得太长,但我认为今天有三个独特且有趣的领域非常值得对照思考(three idiosyncratic but interesting juxtapositions),那就是:经济学、机器学习和生物学(economics,machine learning,and biology)。这三个学科构成了一个关于理论的金发姑娘故事。
在光谱的一端是经济学,其理论在过去数十年里远远跑在了数据前面(theory outpaced data for decades)。那些理论曾是如此优美且数学上精确,但随着数据收集技术的提升,事实证明它们的预测能力相当糟糕,导致整个领域目前已经转向了更加务实的实证主义(the field has shifted to be more empirical)。
在光谱的另一端则是生物学,几十年来一直坚定地保持实证传统,抵制全面的理论化处理(resisted comprehensive theoretical treatment)。这导致实验技术爆炸式增长,但人们对理论的普遍持怀疑态度。似乎把理论搞对是如此困难,以至于我们基本上认定,不如一门心思埋头做实验更简单。
而在这两者之间的,则是机器学习。在这里,理论与实验进入了一种狂热且高效的良性飞轮:每一个边际上的概念突破,似乎都能立即转化为工程实践上的改进,并驱动全新的工程落地。为了让这个飞轮不停运转,顶尖的研究人员在市场上被赋予了天文数字般的身价。这至少在某种程度上是个泡沫,但劳动力市场告诉我们,在理想条件下研究人员可以有多么高效。
也许生物学永远不会迎来那样的拐点,但我怀疑,即便它迎来了,也必须经历与其他领域成功案例一模一样的阵痛。我的意思是,我们必须承认,这个领域注定要走完它该走的轨迹。这条路上大概率没有捷径可走,但如果我们能意识到这个“模板”的存在,就能试着去加速这一进程。也许这在元科学(metascience,关于科学自身的科学)领域已经是陈词滥调了,但我认为,通过这种对其他领域成功经验的历史剖析,去观察有哪些东西可以映射到那些尚未迎来拐点的领域,是一件具有极高实用价值的事。
我们需要对“我们当下在生物学中究竟想达成什么”开展某种严肃的智力审视(serious intellectual investigation of what we are trying to accomplish in biology now)。尽管人们对AI在生物学未来中所扮演的角色感到由衷且巨大的兴奋,但我担心,我们大大低估了在这些工具能够兑现其承诺之前,究竟还有多少底座性的开创工作(foundational work)需要去完成。看到这么多学界教职人员为了吸引资助者,将人工智能生硬地贴到自己工作上,而没有对更大的图景进行认真思考,这让我感到有些悲哀(It has been a bit sad seeing so many faculty staple AI onto their own work to appeal to funders,without much serious engagement with the bigger picture)。
这让我想起了库尔特·冯内古特(Kurt Vonnegut)在《上帝保佑你,罗斯瓦特先生》中的开篇第一句话:
“在这个关于人的故事里,一笔金钱成为了主角;正如同在一个关于蜜蜂的故事里,一包蜂蜜理所当然地会成为主角一样(A sum of money is a leading character in this tale about people,just as a sum of honey might properly be a leading character in a tale about bees)。”
原文链接:
https://nikomc.com/essays/theory