2026-06-10 11:02

计算生物学大咖Aviv Regev：超越表象，AI与细胞生物学的未来

本文来自微信公众号：深究科学，作者：深究科学

01 从“细胞普查”到单细胞革命

要理解生命系统的复杂性，就必须在最基本的层面——细胞上研究生命。人体约由37万亿个细胞组成，包含数千种不同类型与动态状态的细胞。尽管同一人体内的细胞拥有几乎相同的DNA指令，但不同细胞会在不同时间、不同环境中，仅表达其中一部分基因，从而执行各自特定的功能。

解析这种复杂的细胞万花筒，对基础科学与医学都至关重要。无论是大脑活动、免疫防御，还是疾病形成，本质上都来源于细胞之间的集体作用。自身免疫疾病意味着免疫细胞错误攻击自身组织；癌症可能起源于一个逃避调控信号的突变细胞；神经退行性疾病则与毒性分子聚集和异常免疫活动有关。因此，理解细胞的分子程序与相互作用，是疾病诊断、药物靶点发现以及治疗设计的基础。

然而，传统分子研究长期以来只能对大量细胞进行平均测量。RNA测量通常来自被“打碎混合”的组织样本，而不是单个细胞。这种“分子奶昔”式的研究方法掩盖了细胞之间的重要差异。例如，肿瘤样本中的少量耐药细胞可能会被平均信号淹没；免疫组织中的关键调控细胞也可能被忽略。

过去十年中，单细胞测序和细胞测量技术的突破，推动生命科学从“总体平均”进入“单细胞分辨率”时代。研究人员现在能够逐个细胞测量其基因组、转录组、蛋白质等信息。早期单细胞RNA测序（scRNA-seq）研究发现，即便是看似均一的细胞群体，也存在惊人的多样性。这些成果推翻了过去过于静态的“细胞类型”概念，并发现了大量新的细胞状态。

这直接催生了2016年启动的人类细胞图谱（Human Cell Atlas，HCA）计划。该计划旨在构建人体所有细胞的参考地图，为理解健康与疾病提供基础。它就好比人体版Google地图，它不仅绘制细胞分布，还整合不同分辨率与多模态信息。

截至2025年，人类18个器官与系统的“1.0版”细胞图谱已接近完成。这意味着，人类已经基本具备绘制“人体细胞普查”的能力。

与此同时，Perturb-seq等技术进一步推动研究从“描述细胞”走向“理解因果”。该技术将CRISPR基因编辑与单细胞RNA测序结合，使研究者能够同时观察数千种基因扰动对细胞的影响，从而系统地建立“基因变化—细胞反应”之间的因果关系。

02 多模态与空间生物学的兴起

早期单细胞技术通常只能测量一种信息层，如RNA表达，并且需要将细胞从组织环境中分离出来。因此，研究者逐渐意识到：要真正理解细胞功能，仅观察单一维度远远不够。

生物系统本质上是多维、多模态且动态的。细胞身份并不由单个基因决定，而是由DNA、表观遗传标记、RNA、蛋白质、代谢物、细胞形态、空间位置以及邻近细胞相互作用共同塑造。

因此，生命科学开始从“单模态快照”走向“多模态整合”。如今，研究人员已经能够在同一个细胞中同时测量转录组与表观基因组，或同时测量RNA和蛋白质。研究者还通过时间追踪、谱系示踪以及分子记录器等方法，逐步恢复细胞动态变化过程。

与此同时，空间生物学革命也正在发生。新的空间转录组技术能够在二维组织切片乃至三维器官中定位分子信息。研究者不仅能知道“哪些细胞存在”，还能知道“它们位于哪里”“与谁相邻”“如何形成组织结构”。

这种空间信息至关重要，因为细胞行为高度依赖其微环境，如位于肿瘤旁边的T细胞，其行为可能与其他位置的T细胞完全不同；神经元的功能也取决于其在神经回路中的位置。

因此，人类细胞图谱的目标已经不仅是“细胞目录”，而是构建一个三维、多尺度的人体细胞地图。

03 AI成为现代生物学的关键伙伴

随着实验数据规模暴增，传统分析方法已经难以处理如此庞大且复杂的数据。人工智能因此成为现代单细胞与空间生物学不可或缺的伙伴。

大规模高维数据推动了AI架构的发展，而更强大的AI工具又反过来促进了更复杂实验设计的出现。表征学习技术能够把成千上万个细胞特征压缩成具有生物学意义的“嵌入表示”，从而发现隐藏的细胞亚群与发育轨迹。

例如，液滴式单细胞RNA测序只能捕获细胞约5%—20%的RNA转录本，数据高度稀疏且噪声巨大。正是表征学习技术，使这些数据变得可解释。

此外，多模态整合框架还能够对齐转录组、蛋白质组、表观基因组与影像数据，消除批次效应与技术噪声，并从部分测量中重建完整细胞状态。

AI还能够进行跨模态预测。例如，通过组织病理图像预测基因表达模式，使普通临床切片也能获得分子层面的信息。

更进一步，AI开始进入预测与生成阶段：它不仅能注释复杂数据，还能够预测细胞在未知条件下的行为，例如预测细胞对药物、基因编辑或外部刺激的响应。

04 细胞生物学中的基础模型

AI与生物学融合过程中最重要的发展之一，是“细胞基础模型”的出现。

在人工智能领域，基础模型是指在海量无标签数据上训练的大模型，它们能够执行远超训练任务本身的多种功能。其核心是“自监督学习”：模型通过预测被遮蔽的数据，自动学习数据内部规律。

大型语言模型（LLM）的成功，正是这种方法的代表。如今，研究者希望把同样的范式扩展到细胞生物学中。

单细胞与空间生物学实验每天都会产生数百万个细胞样本，每个细胞又包含数千种分子和空间特征。这为训练生物学基础模型提供了理想的数据环境。

研究人员希望像语言模型“学习语言语法”一样，让模型学习“细胞系统的语法”。这些模型不再只是压缩噪声数据，而是试图理解细胞背后的基本规律，从而支持预测、生成与查询。

但生物数据比自然语言更加复杂。它具有多模态、多尺度、动态性以及因果性。因此，研究人员不得不开发专门针对生物学的新型架构。

首先，实验数据需要被转换为类似语言模型“token”的标准化单位。随后，这些“生物token”会被Transformer等架构处理，学习不同分子之间的统计关系。

研究者还采用了多种训练策略：

·掩码学习：遮蔽部分分子信息，让模型进行重建；

·多模态对齐：把不同测量方式嵌入统一空间；

·跨模态预测：例如从RNA预测蛋白质丰度；

·对比学习：让相似细胞靠近，不同细胞分离；

·生成学习：生成符合生物规律的新数据。

这些方法共同推动模型学习细胞系统的潜在规律。

05 基础模型已经带来的科学成果

目前，训练于数亿单细胞数据上的基础模型，已经在多个任务上超过传统工具，包括识别细胞类型、推断基因功能、重建基因调控网络、发现稀有细胞亚型。

另一个重要突破来自病理图像与分子数据的结合。过去，病理学家只能凭经验从组织切片中定性判断细胞状态。而现在，AI基础模型已经能够通过H&E染色切片直接预测基因表达。

研究人员利用超过220万对图像与RNA数据进行训练，使模型学会从普通组织切片中推断基因活跃程度。这意味着，未来无需复杂实验，仅凭常规病理切片，就可能获得空间基因表达信息。

基础模型也开始尝试解决“因果性”问题。例如，通过Perturb-seq等技术，研究人员能够观察基因编辑后的细胞变化。基础模型则进一步尝试预测“未做过的实验”。

在一些研究中，模型能够在从未见过某种药物的情况下，预测它会如何改变某类细胞中的基因表达。这意味着模型开始具备“零样本预测（zero-shot prediction）”能力。

如果这种能力持续提升，AI将能够在计算机中完成大量虚拟扰动实验，从而极大提高科学研究效率。

06 AI Agent与“实验室闭环”

AI与高通量细胞生物学的融合，正在进入一个新的阶段。人工智能不再只是分析工具，而开始主动参与甚至驱动科学发现。

下一阶段的核心，是AI Agent（智能体）。与传统被动响应的AI不同，AI Agent能够感知环境、制定决策并执行行动。

在生物研究中，它们可以成为数字化科研助手：提出假设、设计实验、分析结果，并根据反馈不断优化。

依托“实验室闭环（lab-in-the-loop）”模式，AI模型提出假设或药物候选、机器人实验平台自动执行实验、AI分析结果、新结果再反馈给模型、模型继续生成新的实验方案。

这种闭环工作流能够实现大规模并行实验与持续反馈，大幅提高科学发现速度。

其中，生成式模型扮演关键角色。它们能够学习复杂生物数据分布，并生成新的分子结构、细胞行为乃至实验设计。

例如，AI可以模拟修改DNA调控序列后会如何影响基因表达，从而在真正实验之前，在计算机中进行成千上万次“虚拟实验”。

未来，强化学习也将被引入。AI会把每次实验视为一个“动作”，根据实验结果获得奖励或惩罚，从而逐渐学习最优实验策略。

这种方式尤其适合处理单细胞与多组学产生的超大规模组合空间，因为人类已经难以靠直觉高效探索所有可能性。

07 虚拟细胞：生物学的新愿景

所有这些能力正在汇聚成一个雄心勃勃的目标：虚拟细胞。

所谓虚拟细胞，是一种整合分子、空间与时间数据的计算模型，它能够捕捉并模拟真实细胞的行为与动态。

换句话说，它是生物细胞的“数字孪生体（digital twin）”。研究人员可以像操作真实细胞一样，在计算机中对它进行查询与扰动。

如果这一目标实现，科学家将能够预测细胞对药物、基因突变或病毒感染的响应，而无需逐一进行真实实验。

目前的基础模型只是迈向虚拟细胞的第一步。它们已经具备表征细胞身份、预测扰动结果、连接影像与分子数据。

而AI Agent则成为虚拟细胞系统的“操作层”，负责提出问题、设计实验并持续改进模型。

未来，研究者或许能够维护一个持续更新的“计算镜像细胞系统”，它会随着实验反馈不断完善自身。

这意味着，科学家将能够以实验室无法企及的规模探索生命机制、筛选干预手段，并根据患者个体细胞状态设计治疗方案。

08 AI与生物学的未来

我们正处于一个类似“显微镜诞生”的历史时刻。17世纪的显微镜让人类第一次看见细胞与微生物；而今天，单细胞多组学与人工智能，则正在揭示细胞之间隐藏的模式、相互作用与潜在规律。

高通量实验产生海量多维数据，而AI则把这些数据转化为连贯模型，并不断提出新的科学问题。

没有机器学习，单细胞基因组学数据将难以解释；没有单细胞数据，AI也无法获得训练所需的规模化生物数据。

虚拟细胞正是这种融合的象征：一个足够真实、足够全面的模型，能够在计算机中替代真实生物系统。

这一变化将深刻影响医学与科学。

在临床上，诊断将从器官层面进入细胞层面。未来，一次简单验血或许就能生成完整多组学画像，并推断细胞的空间与功能状态。

治疗策略也将越来越依赖AI驱动的预测模型，从小分子药物到工程化细胞疗法都将如此。

与此同时，这些方法还可能帮助人类理解生态系统与进化中的细胞协同机制。

更深层次上，生物学本身也可能发生哲学转变：从还原论走向把生命视为一种复杂、动态、可被系统性解码的信息系统。

09 挑战与限制

然而，生物学极其复杂，必须保持谦逊。当前模型仍面临许多问题：数据中的技术偏差；不同实验室之间的泛化问题；三维与时间维度测量困难；深度模型“黑箱化”导致可解释性不足；复杂因果关系难以真正理解。因此，模型必须接受严格验证，包括跨队列复现、真实扰动预测以及临床环境测试。

此外，目前的大多数生物AI模型仍然以“预测”为主，而未来更重要的是“可查询性”与“推理能力”。

未来的系统不仅要回答“会发生什么”，还要回答“为什么会发生”。真正的突破还需要长期持续推理能力：AI能够像科学家一样，在数周甚至数月时间里不断迭代假设，直至找到统一解释。

10 结语

通向未来的道路不仅依赖算法，更依赖实验生物学本身的发展。

新的生物技术必须让更多“不可见”的分子、结构与相互作用变得可测量。真正的理解仍然需要实验验证与深入分析。

因此，AI不会取代实验生物学家，而更像“共同科学家（co-scientist）”：它提出假设、优化实验、探索替代方案，并协助解释结果，而实验生物学仍然是科学发现不可替代的锚点。

未来几年，人类很可能会看到第一批真正由AI驱动的重要生物学突破。回头看时，人们或许会觉得这些发现“显而易见”，但那只是因为新的观察工具已经出现。

人工智能与多模态细胞生物学的结合，意味着生命奥秘不仅属于那些“看得更仔细的人”，也属于那些能够跨越尺度、层次与视角进行综合理解的人。

一个新的细胞科学时代正在到来。而这个时代最重要的特征是：人工智能不再只是研究生物学，它正在成为生物学的一部分——成为人类认识自身过程中的主动参与者。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI原生产品日报

频道：前沿科技