从理解疾病到药物发现，科技巨头们押注的“虚拟细胞”究竟是什么？-虎嗅网

过去一年，「虚拟细胞」（Virtual Cell）成为了生命科学和AI交汇处最热门的词汇。全世界的科研机构和科技巨头都纷纷押注，共同推动着一场「虚拟细胞革命」。

DeepMind CEO诺奖得主Demis Hassabis在多次采访中说「虚拟细胞」将是DeepMind重要的研究方向，他将致力于构建能够模拟整个细胞的AI系统。马克·扎克伯格与妻子普莉希拉·陈共同发起的科研机构Chan Zuckerberg Initiative（CZI）也是在今年高调宣布，他们将要在未来十年在虚拟细胞上投入数亿美元，开发开放数据集与计算工具。就在上个月，NVIDIA宣布了与CZI的合作，通过提供AI基础设施，共同推动虚拟细胞的开发和应用。

究竟什么是「虚拟细胞」？我们要如何将细胞数字化?以及虚拟细胞将如何改变疾病治疗、药物研发，甚至我们理解生命的方式？围绕着这些关键问题，我们整理了本期节目的文字版内容，方便大家阅读和分享。

焦点内容：

AI在生物学中的革命性应用
生物学中的复杂性与AI的挑战
大厂与药企的虚拟细胞竞争与合作
虚拟细胞推动药物研发的数字化转型
数据量与算法的突破：虚拟细胞的未来

施老师，您好！非常感谢您做客我们的节目。首先能否给我们简单介绍一下自己，并分享一下您的研究领域？

施威扬

大家好，我是施威扬，目前担任上海交通大学医学院的教授，同时也是万乘基因的创始人之一。我的研究方向主要集中在单细胞测序技术和生物信息学分析上，很高兴可以和大家分享对虚拟细胞的一些理解。

Yaxian

施老师在生物学领域创业的时候，AI还没有真正地兴起，但是虚拟细胞这个词听起来就很新，能否为我们科普一下，什么是虚拟细胞？它将如何影响生物医学领域？

施威扬

虚拟细胞，英文全称Artificial Intelligence Virtual Cell，简单来说，就是将生物学细胞的功能和行为通过AI建模并数字化。在硅基芯片上，我们可以模拟细胞在不同环境下的变化，帮助我们理解细胞的生物学机制，预测药物对细胞的影响，甚至设计全新的生物学过程。最终，虚拟细胞将成为一个全面理解和模拟细胞行为的工具，对药物研发、疾病治疗以及个性化医学都有深远的影响。

Yaxian

听起来虚拟细胞的本质就是一个大模型。那我们为什么要推动虚拟细胞的研究？它能带来哪些改变？

施威扬

虚拟细胞的研究有多重目的。首先，它能够帮助我们深入理解细胞的生物学原理，尤其是癌细胞与正常细胞的差异。通过数字化建模，虚拟细胞不仅能够预测药物对细胞的影响，还能优化药物的组合与筛选过程，进而推动药物研发的进步。

我们之前学的分子生物学、细胞生物化学，实际上是通过物理和化学的方法来解释细胞中的信息传递和功能实现。虚拟细胞的一个重要目标，就是通过构建一个数字化模型，帮助我们更好地理解这些复杂的生物学过程。它能够让我们从系统的角度看到细胞如何发挥功能，并且可以帮助我们理解当某些因子发生变化时，细胞会如何反应和变化。虚拟细胞也特别有助于理解癌细胞与正常细胞之间的差异。这不仅仅是靶点基因的变化，也不仅仅是突变，而是突变后整个细胞系统的差异。通过这个模型，我们可以更清楚地看到这些差异，从而为癌症的治疗提供新的思路。

有了虚拟细胞模型的预测功能，我们也可以在药物研发中进行创新设计。通过模拟药物对细胞的作用，我们可以提前预测药物的效果，评估现有药物的组合效果，甚至发现潜在的新药物和新通路。这使得药物研发变得更加高效和精准。 更进一步，虚拟细胞还能帮助我们设计全新的生物学过程，推动合成生物学的发展。 比如，我们可以设计细胞中以前没有的通路，或者是自然界中未进化出来的、尚未探索过的基因组合，创造出全新的细胞功能和行为。这种创新的能力正是合成生物学的核心内容。

以前我们常常认为生物学不像物理和化学那样有明确的规律。生物学是一个复杂的系统，充满了大量相互作用，因此我们当时觉得，物理和化学的概念很难解释这么复杂的现象。我们感到无力，认为这些传统的科学概念无法应对生物学的复杂性。但现在有了AI技术和相关的模型，我们真的可以用这些工具来模拟生物学的复杂系统。虚拟细胞就是一个很好的例子，它可以帮助我们更好地理解细胞如何运作，甚至预测细胞在不同条件下的行为。这就是虚拟细胞能够做到的事情，也是它未来可以实现的目标。

施老师，您刚提到虚拟细胞的预测能力。那么，虚拟细胞与大语言模型之间有联系吗？因为你提到DNA序列和氨基酸序列，其实它们也可以看作是一种语言、或一种文本。而且现在很多生物学的模型也都是基于Transformer架构的，所以我在想这两者之间有没有什么可比性？

施威扬

最近十年AI的发展，正如您所说，主要体现在这些大模型的进展，尤其是Transformer模型的发展，以及它在处理自然语言等领域中的强大功能和作用。那么在生物学领域，虽然我们并不是直接做算法研究，但实际上我们是将这些神经网络算法应用到生物学中。生物学的数据本身也有很多形式，比如AlphaFold实际上是一种语言或者序列模。

AlphaFold实际上都是基于蛋白质的氨基酸序列进行的，所以它与语言模型非常相似。因此采用这些模型的效果非常好，而且现在这种功能的创造力也非常强大。然而在细胞层面，细胞的信息维度远远超出了单一的序列。DNA序列确实很重要，但基因组中的信息并不仅仅是碱基序列，还包含了很多其他维度。例如，表观遗传学修饰是DNA序列之上的一个重要层次，光有序列本身并不能预测基因的实际功能，必须与这些表观修饰相结合才能进行准确预测。

此外，细胞内还有基因表达、蛋白质合成、代谢等众多复杂过程。因此，细胞的模型目前仍在不断探索中，科学家们在尝试找出哪种算法更加接近或适合用于虚拟细胞的模型。最近一两年来，关于虚拟细胞的模拟，各种模型都在进行尝试， 每种方法在某些方面有优势，但在其他方面也存在局限。 因此，虽然生物学家正在全面拥抱这些算法，但目前仍处于探索的早期阶段，大家都在尝试和探索那些可能更适合细胞模型的算法，或者是适用的神经网络模型，这一过程还在不断发展和创新。

Yaxian

好的，那关于模型和数据我们稍后再聊。

关于虚拟细胞的应用爆发，许多科技大厂和科研机构纷纷入局， 为什么在这两年突然出现了这样一个在生物医学应用领域的投资热潮呢？

施威扬

在我看来首先是因为需求的存在，生命体的复杂性是客观且真实的。正如我们之前提到的——生物体非常复杂，单纯依靠物理化学的原理、生化反应或分子生物学的中心定律，我们无法解释细胞的行为。即便我们有了基因组数据，也无法解释为什么同样的基因在不同细胞中会呈现出不同的状态和基因表达。生物医学的研究一直以来处于一个相对随机的状态。很多实验室和研究人员的工作往往依赖运气，偶尔会有人发现一个重要的通路，获得认可并写进教科书，而另一个人可能也做了同样的努力，但发现的是一个较不重要的通路，结果可能就没有那么显著。因此，生物学领域常常提到各种偶然性（Contingency）。

另外，生物学实验涉及太多变量，很多实验结果是不可重复的。同样的实验在不同实验室可能得出不同的解释，甚至同一个实验室中的不同人员也可能得到不同的结果，极端情况下，实验结果可能无法重复，导致论文被撤稿。即使没有撤稿，很多顶刊上的研究工作也未必能被其他实验室复现。

正是由于这种随机性和不确定性，生物学的研究效率非常低。大多数时候，我们只能探索我们认为有潜力的几个方向，其他可能性和维度根本没有得到充分探索。 因此，我们对生物学的理解通常非常有限，可能只能做1/1000或1/10000的实验尝试。 有了AI之后，首先从理论和算法的角度来看，它不需要我们一个一个地去探索所有方向。只要收集大量的数据，就能从中发现规律，而这些规律是我们在做实验或读文献时可能遗漏的，或者根本无法在实验中探索到的那些几百种可能性。

其次，生物医学的研究模式本身效率较低，尤其在生物技术和生物制药领域，探索人类生命和健康问题的传统方式效率非常低。因此，大公司看到算法的进步和更多数据的产生，能够从根本上颠覆这些传统的研究模式。十年后，生物学的实验室和研究生将不再像现在一样，从做Western、DNA分析、PCR等实验开始，可能更多的是学习如何在计算机上进行虚拟实验。因此，我认为生物学正处于这样一个交叉点，正迎来一场巨大的变革。

您提到的这些大厂，像DeepMind和美国的几大AI巨头，确实处于一个非常有利的位置。过去，生物医学的研究主要由大型制药公司主导，它们有资金和资源来推动相关研究，但如今这些AI大厂已经意识到，他们的计算能力和算法专业知识可以帮助他们在生物医学领域弯道超车。因为强大的计算资源和最先进的算法团队，这使得他们能够在生物医学领域开展创新研究，甚至有可能超过传统的制药公司。这些公司不仅能够投入巨额资金去雇佣顶级的科学家，还能够提供庞大的计算基础设施，推动虚拟细胞等技术的发展。这也使得他们在这个领域处于非常有竞争力的地位。

当然，传统的制药公司也不甘示弱，已经开始加大对AI在制药领域的投入，尤其是在虚拟细胞这一方面。未来我们可能会看到AI大厂与传统制药公司之间的竞争和合作，共同推动生物医学领域的发展。

Yaxian

话又说回来，除了计算资源和算法，其实对于生物学的理解同样很重要。

施威扬

这一点很对。做好一个虚拟细胞的模型到底需要怎样的人？很多生物学家在进行AI应用时，实际上是使用别人已经开发好的模型，这些模型可能最初是在语言处理或图像领域取得了成功，后来被稍微改动后用来适应生物学的需求。有时，这些模型并不完全适用生物学的具体问题，但在没有更好的选择时，生物学家往往会强行将其应用上。这种方式在一定程度上能够解决问题，但并没有从根本上解决生物学中数据的特殊性和复杂性。

反过来，很多计算领域的人，虽然在算法上有丰富的经验，但他们可能对生物学的理解并不深入，往往直接将模型应用到生物学问题上，而忽视了生物学数据的特殊形式以及生物学模型的需求。这就导致了算法的应用有时并没有真正适应生物学的实际需求。

不过，大型AI公司通常「有钱任性」，能够投入巨额资金来组建跨学科的团队。例如，DeepMind最初专注于蛋白质结构预测，主要做的是基于氨基酸序列的模型。然而，随着生物医学研究的深入，他们也开始组建虚拟细胞的团队，甚至拥有自己的实验团队。这些大厂的跨界合作能够更好地结合生物学和计算科学，推动虚拟细胞等技术的发展。

那接下来我还有一个与之相关的问题——对于研究虚拟细胞来说，这种大厂和虚拟细胞分别有什么优势和短板呢？

施威扬

这个问题确实非常有意思。实际上这涉及到虚拟细胞到底想做成什么样的东西，或者说，什么是可行的，什么又只是一个理想化的设想。生物学的最大特点就是其复杂性和多样性。在一个机体内部，细胞的种类繁多，不同类型的细胞还存在不同的状态。正常的细胞有年轻的状态，也有衰老的状态，疾病细胞则有许多不同的过渡状态。

此外。不同物种之间的基因功能差异，也使得同一种类型的细胞在不同物种中表现出很大的差异。例如最近在衰老研究领域，像鲸鱼和裸鼹鼠这些物种，由于某些通路中的蛋白质功能不同，它们的细胞能力也大不相同。因此，虚拟细胞到底是一个「包罗万象」的模型，能够覆盖所有的生物学现象？还是说，它应该更专注于针对某个特定疾病、特定药物开发的应用模型呢？这个问题值得深思。

很多大厂的目标非常宏大，他们希望构建一个通用的、基础的模型，像ChatGPT或DeepMind这样的平台，希望能够「什么都做」，覆盖各类生物学现象。然而从生物医学领域的应用角度来看，药厂可能更关注的是针对他们具体研究的疾病、药物或疗法的专用模型。这类模型更加专注于某个特定领域，能够在该领域内进行精准的模拟和预测。比如如果我正在研究某种疾病，我希望有一个专门的模型，能够帮助我模拟该疾病的各种细胞行为，这样我就能基于这个模型进行药物筛选和开发。

所以，从短期来看，大厂和药厂的关注点是不同的。 大厂倾向于构建一个基础性、通用性的虚拟细胞模型，而药厂更需要的是针对他们研究的疾病、药物管线，拥有强预测能力和高度针对性的模型。 这两者的目标和需求是存在差异的，但也有可能随着技术的成熟，逐步向更精准和专用的方向发展。

Yaxian

我感觉这个原则其实不仅适用于生物医学领域，实际上在许多行业中都可以看到类似的趋势。比如在通用领域，大厂往往希望构建一个最大的基础模型，能够覆盖所有的功能，例如Gemini和ChatGPT等。而对于一些小型创业公司或细分领域的公司，无论是法律还是金融，他们可能会专注于开发自己的专有模型，或者是针对具体应用的上层模型。这种策略似乎适用于所有行业。

虽然虚拟细胞这个概念现在听起来可能挺新的，但实际上人类对数字细胞的探索从未停止过，甚至可以追溯到上世纪六七十年代。我不知道施老师能否给我们介绍一下，人类是如何开始探索虚拟细胞，或者说数字细胞的？

施威扬

60年代，分子生物学取得了非常迅速的进展，之前的生物化学主要集中在确定规律的现象上，基于反应动力学和化学公式进行描述。分子生物学则更像是一个二进制、逻辑开关网络的结构。例如，一个基因通过转录因子与另一个基因结合，就会启动该基因的转录，最终通过基因表达产生蛋白质，蛋白质再去激活下一个过程。

最早，科学家们对细胞的构建理解为蛋白质相互作用网络、酶网络，或者基因开关网络的调控模式。因此，最初的数字细胞模型是基于这些确定规律的模型来构建的。这些模型的复杂性较低，参数也较少。例如，在21世纪初，研究者开始尝试模拟一些非常简单的生命形式，如支原体（一个没有细胞壁、基因组极其小的细胞），通过模拟其几百个基因来预测蛋白质表达和代谢物的生成。更早的时候，噬菌体的研究获得了诺贝尔奖，这些研究对象包含一些简单的机制，如复制控制和膜结构的形成，构成了病毒模型的基本单元。因此，早期的模型通常是基于原理构建的，但这种原理型模型无法处理复杂的真核细胞或细胞集成体。

然而，在20世纪末至21世纪初，科学家们逐渐认识到，基于原理的模型无法应对细胞的复杂性，数字化的实现似乎还遥遥无期。然而，最近两年，随着技术的发展，基于数据的模拟模型开始出现，并且能够更接近真实状态。这些模型不再局限于原理性的推理，而是通过大量数据来模拟细胞的实际行为，从而使数字细胞的实现变得可行。

Yaxian

刚才提到，最早的时候我们对像支原体这样的物种进行建模，因为它的基因较少、结构相对简单，比较容易基于规律来建模。然而，现在我们面对的是更加复杂的细胞。以人类为例，人类体内有大约40万亿个细胞，每个细胞包含几万个基因。相比于较为简单的生物，细胞的复杂性在多个方面体现得更加明显。

施威扬

细胞的复杂性其实主要体现在信息的表征和维度上。作为功能单位的细胞，其核心机制可以通过中心法则来描述：信息从DNA序列及其表观遗传学修饰开始，经过基因表达（如mRNA的转录和修饰），最终转化为蛋白质。蛋白质通过相互作用形成网络，这些网络会直接影响细胞的行为。

此外，细胞还有一个动态维度。细胞的状态并不是固定不变的，每个正常细胞内部都有一定的变异。例如，某些基因的表达水平可能有所波动，但这些波动通常不会影响细胞的基本功能或状态。因此，细胞的信息是一个多维度的集合，涵盖了基因表达、修饰、蛋白质交互等多个方面。要构建一个有效的模型，这个模型必须能够整合细胞内部所有的这些信息，只有这样，它才能具备解释能力和预测能力，成为真正有效的虚拟细胞模型。

Yaxian

所以我们所说的「高维」，其实就是要把这些无论是时间上、空间上静止的和动态的所有这些数据，都能够在模型里得到复现。

施威扬

对的。尤其是细胞，它的最终表型行为，包括基因表达，最终会影响细胞的形态和功能。这些表型特征决定了细胞是方形的还是圆形的，是成纤维细胞还是干细胞，这些都是细胞行为的终极结果。

那为什么现在大家觉得虚拟细胞变得可行了？然后现在是不是实际已经成熟了？这一点施教授也可以展开来聊聊。

施威扬

现在，虚拟细胞的可行性已经变得越来越明显，可以说「黎明前的曙光已经到来」。 原因可以归结为三个方面：算法、算力和数据。

首先，算法方面，生物学领域如今得到了AI领域的帮助，尤其是数学家、计算机科学家和统计学家们为AI构建了高效的算法，这些算法在语言处理和图像领域取得了很大成功，生物学也因此获得了适用的、可行的算法。

其次，算力的成熟同样至关重要。在没有大量GPU和计算中心的支持下，许多实验室无法接触到或负担得起如此强大的计算能力。但随着技术的进步，算力的提升使得这些强大的计算资源变得触手可及，尤其是像NVIDIA等公司提供的大规模GPU，使得虚拟细胞的研究成为可能。

第三点就是数据的积累，尤其是单细胞测序技术的出现。过去，数据往往来自于一大群细胞的平均数据，这些平均值无法反映每个细胞的真实状态，导致我们无法准确建模细胞。而单细胞测序技术的出现，改变了这一局面。单细胞测序通过高通量测量单个细胞的多维信息，使得细胞的表征数据变得更加精准。这项技术大概自2010年左右开始发展，并在2016年、2017年随着商用平台的出现逐渐普及。如今，积累了亿级别的单细胞数据，使得我们可以对细胞建立更加精准的模型，但对于完整的模型，依然有很长一段路要走。

Yaxian

那如果已经建立好细胞状态的表征之后，我们之后还需要做些什么呢？

施威扬

其实，建立虚拟细胞模型需要考虑的是模型和算法的问题。现有的很多模型往往不适合处理这样复杂的表征，这些表征既有内部关联关系，又有部分是相对独立的。在AI的其他领域，所谓的多模态模型，其关系通常比较简单，集合起来相对容易。但在生物学中，不同组学之间的相关性非常复杂，许多规律我们并没有完全理解。

在这种情况下，如果我们简单地将不同的组学信息堆积在一起，并认为这就是一个细胞的组学信息，然后直接将这些信息放入模型中，就会面临一个问题：每个模型的关键在于参数。每个encoder、每个模块都需要大量的参数。那么，如何调节这些参数？给每种组学信息分配什么样的权重？最终才能最好地模拟细胞的状态？我个人认为，对于生物学来说，不可能有一个统一的表征权重。相反，每一种具体的细胞类型，或者每一类大类的细胞类型，可能会有一种特定的表征关系或参数群体。

Yaxian

那现在有没有什么已经比较成熟的模型可以应用了呢？

施威扬

恰恰这就是目前虚拟细胞模型不尽人意的地方。现在的模型基本上都是基于单一维度信息的，背后的原因其实也很简单：绝大部分可用的数据都是单维度的。细胞的数据要么是DNA数据，要么是基因表达数据，要么是蛋白质的质谱数据，缺乏系统性的多组学数据，且大多数数据集还是来自于少量细胞。因此，这使得现有的模型无法充分捕捉到细胞的复杂性，无法建立起更好的多维度模型。生物学中关于细胞的模型可以大致分为两类：一类是基于DNA序列、蛋白质序列或RNA序列的大语言模型；另一类则是基于基因表达的模型。

Yaxian

我还有一个挺好奇的问题。我们身体里有这么多细胞，40万亿个细胞。如果让我来想象一个虚拟细胞，它是不是应该涵盖所有细胞类型，比如肝细胞、脑细胞、皮肤细胞等？我们会把所有细胞类型的特征汇总到一个模型里吗？还是说我们需要分阶段进行，比如今天有一个肝细胞的模型，明天有一个皮肤细胞的模型？我其实还是对虚拟细胞这个宏大概念有些模糊。

施威扬

您这个问题问得很好。一个大模型，或者说基础模型，实际上是将不同细胞类型的数据和模型整合在一起，提取出它们的共性，最终形成一个基础模型。因此，基础模型在任何一个具体细胞上的能力，可能不会比专属模型更强。它的优势在于更强的泛化能力，也就是说，它能够从某些细胞（比如干细胞）中学习到的规律，可能会在其他细胞类型中也有所应用，并具备一定的泛化能力。

但总体来说，一个包罗万象的模型，其准确性和预测能力通常不如针对每种细胞或每个具体问题量身定制的专属模型。专属模型能够更加精确地模拟和预测特定细胞类型的行为，而基础模型则更适用于跨细胞类型的广泛应用。

Yaxian

看来模型的构建也需要很长的一个时间，那您对于虚拟细胞落地的时间线有没有一个预期？

施威扬

从垂直模型的角度来看，其实国外一些大厂已经在内部运行和应用这些模型，例如Genentech与Recursion的合作。Genentech已经将大量单细胞表征数据引入模型，并发现其在药物发现和靶点筛选方面的潜力。近年来，一些新兴AI公司也在内部生成大量的扰动数据，并利用这些数据进行模型开发和应用。

药企的研发部门，实际上一直在使用现有的数据和模型进行预测和筛选。他们不会等待一个完美的模型才开始应用，而是根据不同的预测工具和方法，快速生成大量的候选分子，然后通过他们的研发流程进行筛选和验证。药企的工作方式更多是通过不断试探和迭代，在各种预测和实验的基础上快速推进，而不是等到模型完全成熟后再开始使用。

Yaxian

那我们说的具体的垂直模型都包括一些什么呢？

施威扬

垂直模型指的是针对一个具体的生物学过程或实验体系进行的模型化。 例如，在药企的药物开发中，如果我在做肿瘤药物的开发，我的研究对象可能是肿瘤细胞系、肿瘤类器官，甚至是元代的肿瘤组织。在这种情况下，我希望通过模型发现新的靶点，或者探索药物组合或联合用药的效果，是否能产生更好的疗效。

过去，药企通常通过实际的高通量药物筛选，或者进行一些简单的组学研究和数据挖掘来进行探索。而现在，这些工作可能通过建立一个模型，进行虚拟筛选，模拟和分析不同药物组合或靶点的效果。这样，虚拟筛选可以作为一种高效的工具，帮助加速药物发现过程。这些工作其实就是垂直模型的应用，它关注的是特定领域或特定生物学问题，通过构建专门的模型来进行研究和预测。

Yaxian

我们还会关心（虚拟细胞）模型的可解释性，因为大模型常被认为是一个黑箱。虽然生物学的规律很多时候并不是完全被理解，而这个模型得出的结果，我们会需要去理解它中间的过程吗？

施威扬

这也是目前单细胞模型中的一个大问题——可解释性。可解释模型的好处在于，一旦理解了模型的解释，我们就可以根据这些规律进行逻辑设计或干预。如果模型不可解释，那我们只能依赖相关性，仍然需要盲目尝试所有的参数空间。

如果我们能够解释模型的变化，知道是哪个基因或哪些基因导致了变化，那么我们可以有针对性地干预这些基因，从而让细胞发生我们预期的变化。然而，为什么目前虚拟细胞模型的可解释性较弱呢？这与它所基于的数据模态有很大关系。目前大部分虚拟细胞模型都是基于单细胞转录组构建的。

为什么基于转录组呢？因为单细胞转录组数据是目前可获得的数据量最大、最易测量的维度。过去的公共数据主要是单细胞转录组数据。但正因为它是转录组数据，这就导致了模型的可解释性较弱。转录组反映的是基因表达的结果，而基因表达实际上是细胞内基因网络的一个表现。真正决定基因表达的是DNA序列，包括启动子、调控子、增强子等，以及表观遗传学信息，如甲基化、组蛋白修饰和染色质结构。染色质的开放性和高级结构决定了基因是否高表达、低表达，或者是否可以被抑制。

因此，转录组只是一个结果，真正决定转录组的，是上游的这些组学信息。如果我们在构建模型时缺乏这些维度的信息，那么构建出的模型就只能表现为一个简单的相关性关系，无法揭示基因间的调控网络关系，也不能知道它们是否受到相同上游因素的调控。这是一个可以解决的问题， 解决的方式就是通过更高维度的细胞表征实验数据来补充这些缺失的信息。

Yaxian

就是说，通过填补从DNA到RNA表达（即转录组数据）之间的这些空白（如基因调控信息、表观遗传学信息等），我们就能增加模型的可解释性。那我还很好奇，虚拟细胞实现之后，会有哪些应用场景呢？

施威扬

工业界目前讨论的虚拟细胞应用潜力，主要集中在以下几个方面：药物发现、合成生物学和细胞基因治疗（CGT）。

首先，在药物发现方面，传统上靶点发现、药物筛选和合成药物等都依赖于高通量实验筛选，或者使用BULK组学数据，通过差异分析和大规模临床样本来找出潜在的药物靶点。这种方法的局限性在于，能够成为药物的靶点往往是某些通路的抑制剂，而这些靶点所涉及的生物学过程，很多时候已经被「用尽」，无法再发现新的东西。而通过虚拟细胞模型，可以在计算上模拟药物的各种组合，并探索不同方向的可能性。这不仅能加速药物的筛选过程，还能在实验室进行快速的大规模验证，从而发现新的靶点和合成药物。

其次，在合成生物学方面，合成生物学通常是通过重新组合已有的生物学元素，甚至设计新的生物学因子（如DNA、RNA和蛋白质序列），创建新的生物学通路，赋予它们新的功能。虽然目前合成生物学主要依赖实验室的高通量方法来测试序列优化，但通过AI算法结合实验数据，可以预测新的生物学因子。尽管单纯的序列预测相对简单，但当这些序列放入细胞中，尤其是组合在一起时，它们的最终效果更复杂。虚拟细胞模型可以更好地预测这些组合的结果，提高合成生物学的效率。

最后，在细胞基因治疗（CGT）方面，虚拟细胞的应用也具有重要意义。无论是CART细胞治疗，还是其他形式的基因治疗，其核心都是在细胞层面上发挥作用。传统的基因治疗通常依赖于理性设计，比如认为加入某个基因可以延长T细胞的存活，或者加入某些因子可以提高免疫耐受性，但这些都基于已有的知识，因此可以测试的可能性非常有限。而通过虚拟细胞的模拟，我们可以进行大规模的筛选，快速找到可能的优化方法，从而推动基因治疗的进一步发展。

Yaxian

听下来，主要有两个方面——首先是加速，以前需要花费很长时间在实验室完成的筛选，现在可以移到数字世界，快速进行合成或通路的预测。其次是处理复杂信息。传统上，由于人脑无法处理如此复杂的信息，很多生物学过程难以理解。而在虚拟细胞中，整个细胞的网络效应可以被复现。当给细胞添加药物时，虚拟细胞能够预测药物在细胞内的复杂反应，从而给出可能在传统实验中难以预见的结果。

最后，我们可以谈谈实现虚拟细胞面临的挑战。主要的问题在于数据。那么现在数据面临的主要瓶颈和挑战是什么呢？

施威扬

实现虚拟细胞的主要挑战体现在三个方面：首先是数据量不足，目前公共可用的单细胞数据仅有2亿个细胞，且很多公司内部的数据并未公开。其次是数据维度不足，仅有转录组数据无法构建具有可解释性的模型，缺乏可解释性会影响模型的预测能力和在药物开发中的应用。第三是数据的专属性不足，许多数据集缺乏专一性，尤其在特定疾病领域，缺乏单中心、统一平台和标准测量方法的大规模数据集，导致数据质量和一致性问题。

另一个挑战是算法的适配性，现有的神经网络和机器学习算法难以完全满足生物学数据的复杂性，因此尽管现有算法无法完美解决所有问题， 虚拟细胞模型的构建仍然是一个渐进的过程，也不能等到有了最完美的算法再去做这个模型。

Yaxian

对，刚才说到数据量不足，那需要多少的数据量才能算是够得上门槛呢？大部分的数据库都有上亿个细胞，但它们不是专属的，是吗？

施威扬

我觉得，真正有价值的疾病数据不仅仅是对样本的测量，还需要对样本进行扰动和其他处理。从这个角度来看，一个专属的样本类型，至少需要达到千万到亿级别的数据量。有的数据库通常都是由几千个实验、甚至至是几万个实验，成千上万种这个组织样本类型这种凑在一起的。

Yaxian

那这些数据的主要来源是哪里呢？

施威扬

大多是科研实验室，因为只有发表论文的实验室才会愿意将数据上传到公共数据库。最近这两年，一些公司开始进入这一领域，例如Heath Therapeutics，它在今年年初发布了大约一亿个肿瘤细胞药物扰动的数据。今年，该公司又融资了几千万美元，计划生成10亿级别的数据。虽然他们的1亿数据是公开的，但未来的10亿数据将成为专属数据，只会授权给药企，而不会免费提供给公众使用。

Yaxian

明白了。最开始提到您创业的公司万乘基因也在做数据相关的工作，也可以和我们简单介绍一下。

施威扬

我刚刚创立公司时，主要做单细胞测序，当时单细胞测序主要是为科研服务，目标是做美国TEX genomics的国产替代，作为科研工具，通量大概是一次1万个细胞，适用于科研实验室，像做十几个样本最后发表论文。但是过去这两年，我们发现单细胞实际上已经进入下一个阶段，作为科研工具，能用的都用了，不能用的技术也满足不了需求。不能用的意思是，很多科研应用场景下，像一次1万个细胞左右的通量，实验成本几千到一万块钱，无法满足数据需求，也无法支撑这么大的数据量。比如说要做一个系统的图谱计划，像人类细胞图谱计划，CZI提出的scope是1亿个细胞，但现在看，这1亿个细胞一个组织通常有百万级细胞，如果只做1%的采样，根本没有办法捕捉细胞的复杂性和有意义的变化。因此，过去的单细胞通量已经无法捕捉生物体细胞之间的差异。

第二点是，对于临床应用，做10个或20个样本，每个样本做1万个细胞，也无法捕捉到疾病的状态，因为疾病状态比正常状态更复杂。过去的科研工具已经无法满足下一代单细胞研究的需求。所以两年前，我们开始做超高通量的单细胞多组学测序技术和平台，目的是为细胞的大数据和虚拟细胞模型提供数据支持。我们需要千万级别的数据，这些数据有几个特点：首先，细胞量非常大，要千万级别；如果一次只做1万个细胞，可能要做1000次实验，所以我们首先做的是能够一次生成千万级别单细胞数据的技术。其次样本也不是一个，而是来自几百到几千个样本，最后得到千万级别的细胞数据，这就需要我们做平行处理，能够同时标记成千上万个样本，然后进行海量细胞测量。这样的数据平台是未来构建虚拟细胞领域的核心资产。

Yaxian

我不知道您对虚拟细胞这个领域有什么展望，无论是从时间线的角度，还是从发展趋势的角度，能否分享一下您的看法？

施威扬

我认为在未来五年内，大多数公司将把AI和虚拟细胞工具作为主流，尤其是在药物开发领域。我们可以看到，许多药厂现在已经大量使用这些模型进行抗体开发和蛋白类药物的研究。基于细胞的药物开发，尤其是虚拟细胞的应用，可能在五年内，甚至更快，成为药物研发的主要平台和工具。未来，这一领域将成为一个所谓的「Lab in the Loop」，即人工智能驱动的自动化实验室，进行药物开发，而不再依赖于几个首席科学家的想法和几个人做实验的传统方式。

因此我们认为，在接下来的几年中，药物开发将会出现许多意想不到的突破。比如今年有一篇文章提到，利用AI设计出了自然界中从未存在过的抗生素和肽，这些肽可以作为抗生素使用。传统的药物开发方法永远无法发现这些新物质，但AI技术为我们打开了新的可能性。

以上内容来自节目「科技早知道」：从理解疾病到药物发现，科技巨头们押注的「虚拟细胞」究竟是什么？|S9E37

5亿美元启动虚拟生物学计划，扎克伯格联合MIT、哈佛与英伟达

叶盛：人工智能的崛起导致了“新手村”的消失#2025年终特辑02

AI创新药的“GPT时刻”还有多远？

中国细胞疗法20年迷途，从诺奖神话到暴利骗局

富豪“不老药”不能打了？最严细胞监管落地

AI和具身太火，“说不馋肯定是假的”

对话Anthropic CEO：少数几个CEO 正在决定全人类下个十年的收益分配

AI 加速药物研发，到底强在哪？

DeepMind 创始人Hassabis 语出惊人：百万token 只是在贴胶带，AGI 在2030年

中国赛博药神变了