扫码打开虎嗅APP
出品丨虎嗅科技组
作者丨苏北佛楼蜜
题图丨视觉中国
近日,科学突破奖基金会宣布了2023科学突破奖(Breakthrough Prize)获奖名单。科学突破奖有“科学界的奥斯卡”之称,它旨在表彰在生命科学、基础物理学和数学方面的突破性成就。
谷歌DeepMind科学家因开发人工智能 (AI) 系统而获得了300万美元的奖金,该系统预测了几乎所有已知蛋白质如何折叠成3D形状。
研究人员使用AlphaFold程序实现了这一壮举,该程序于2018年首次开发并于2021年7月对外公开发布。开源程序可以根据构成蛋白质的氨基酸序列预测蛋白质的3D结构。蛋白质的结构决定了它的功能,因此AlphaFold识别2亿个蛋白质结构的能力让自己成为了帮助识别人类可以利用新蛋白质的主力军。
早在发布之初,中国生物结构学领军人物、西湖大学校长施一公就曾评价称:“依我之见,这是人工智能对科学领域最大的一次贡献,也是人类在 21 世纪取得的最重要的科学突破之一。”
知名药企Dewpoint Therapeutics董事会成员兼战略顾问、Relay Therapeutics联合创始人Mark Murcko也认为,AlphaFold已经打开了一个工具箱,并向全世界展示了可能的东西。
“现在我们将有几十个实验室,每个实验室都在思考略有不同的问题集,包括蛋白质-配体结构的预测、变构口袋的成药性、蛋白质-蛋白质相互作用和RNA靶标,以及疫苗免疫原和从头治疗性蛋白质的设计。”Mark Murcko在曾采访中表示。
从正式发布到此次的得奖已经过去了4年时间,业内有关AlphaFold的讨论始终更没有终止,从最开始科学界的为之振奋到现阶段更多应用的展开,如今,4岁的AlphaFold也给科学家带来了新的惊喜。
成功预测蛋白质结构为什么如此重要,新技术又能给人类社会带来哪些便益?
生物“骨架”
蛋白质是组成人体所有细胞和组织的重要成分。在我们体内,几乎所有重要组成部分都有蛋白质的影子。此外,蛋白质是生命的物质基础,没有蛋白质就没有生命,它还是构成细胞的最基本的有机物,担当着生命活动承担者的角色。
在蛋白质中,氨基酸为最基本的组成单位,它是将生命和其他各种样式的生命活动联系在一起的基本物质。人体内的蛋白质分为很多种类型,它们的作用、性质各不相同,但所有蛋白质都是由20种氨基酸按照不同的比例相互组合而成的,并且在体内不断进行着更新和代谢。
他们就像微小的、难以理解的谜题,存在于细菌、植物、动物各种生物体中,当它们被制造出来时,会在几毫秒内折叠起来,但其结构非常复杂,试图猜测它们会变成什么形状几乎是不可能的。
蛋白质的基本机构
在结构上,蛋白质分子中的肽链并不是直链形状,而是按照其内在规律发生卷曲或者是折叠,从而形成特定的空间结构,这就是蛋白质的二级结构。
在二级结构的基础上,蛋白质肽链还会按照一定的空间结构,发展形成比二级结构更为复杂的三级结构。具有三级结构的肽链按照特定的空间排列顺序组合在一起,形成的聚集体结构就是蛋白质的四级结构。由于构成蛋白质的氨基酸种类繁多,氨基酸的排列顺序种类繁多,所以,虽然只有20种氨基酸,但蛋白质的种类却特别多。
蛋白质的各级结构
美国分子生物学家赛勒斯·莱文塔尔(Cyrus Levinthal)在1969年的一篇论文中指出了一个悖论,即尽管蛋白质具有大量可能存在构型,但仍能快速而精确地折叠成不同的构像。 据估计,给定的蛋白质可能有 10^300 种最终结构。
因此,如果人们试图通过逐个尝试来获得正确的蛋白质形状,那么获得正确答案所需要的时间将比宇宙存在的时间更长。
此前,科学家们有办法可视化蛋白质并分析它们的结构,但这是一项缓慢而艰巨的工作。据《自然》杂志报道,最常见的蛋白质成像方法是利用X射线晶体学,通过在蛋白质的固体晶体上发射X射线,并测量这些射线是如何衍射,以确定蛋白质的排列方式。据DeepMind称,这项实验工作已经确定了大约190,000个蛋白质的形状,这一技术也让冷冻电镜在过去十年中成为许多结构生物学实验室的首选工具。
长期以来,科学家们一直想知道蛋白质的组成部分——一串不同的氨基酸是如何描绘出其最终形状。研究人员表示,在1980年代和1990年代,早期使用计算机预测蛋白质结构的的结果并不理想。当科学家将其应用于不同蛋白质时,自己已发表论文中的结论往往会被反复推翻瓦解。
去年,DeepMind 发布了人体和20个研究物种中每种蛋白质的蛋白质形状预测。如今,他们已经将这些预测扩展到基本上所有的蛋白质。
DeepMind的AlphaFold创建的蛋白质结构3D 图像(图片来源:DeepMind)
DeepMind在一份声明中说: “如今算法包含植物、细菌、动物和其他生物的预测结构,为众多重要问题的解决提供了许多新机会,包括可持续性发展、粮食不安全和被忽视的疾病等方面。”
开源程序根据蛋白质的氨基酸序列或构成蛋白质的分子单元进行预测。这些单独的单元连接成一条长链,然后“折叠”成3D形状。蛋白质的3D结构决定了该蛋白质可以做什么,因此能够从其氨基酸序列推断蛋白质的形状这一功能显得十分强大。
AlphaFold在试图解释蛋白质结构时,主要功过积累有关氨基酸序列和相互作用的原理。该算法现在可以在几分钟内预测蛋白质的形状,并精确到原子级别。
这一功能也让AlphaFold一经发布,就收获了大量关注及喝彩,曾经的轰动并未消散,它的影响仍在继续蔓延。
从靶点到成药的一场变革
2022年,挪威生命科学大学研究员Vilde Leipart 使用 AlphaFold 揭示了卵黄蛋白的结构——卵黄蛋白是一种由所有产卵动物制造的生殖和免疫蛋白,这一发现可能会带来新的方法来保护蜜蜂和鱼类等重要的产卵动物免受疾病侵害。不止于此,AlphaFold的速度和准确性正在加速药物发现过程,能够让药企更快地为患者提供新药。
就像基因编辑工具CRISPR彻底改变了人类疾病研究和遗传错误疾病的药物设计方向,AlphaFold的正在从根本上改变新药的发明方式。
X射线检测的蛋白质晶体
想要研发药物,通常需要第一时间锁定导致疾病的相关蛋白质或基因。然后对症下药,寻找成功“击中”目标的分子或化合物。这一工作的代价是巨大的,药物发现平均需要 10 年以上的时间,每种药物开发经费可达28亿美元。
例如,冠状病毒上的刺突蛋白被就是针对COVID-19的靶标,针对这一目标,我们发现了可以粘附在刺突上并中和刺突的疫苗及单克隆抗体。
但是,大多数疾病不像COVID-19一般,有一个大而明确的目标,可以用众所周知的武器(如抗体)来“攻击”它。不同的疾病可能有成千上万的潜在药物,这是一个反复试验的过程。
人工智能已成为加速药物发现的一种方式。训练有素的系统可以查看治疗目标,然后从选项库中识别有希望成功的候选药物,这比实验室中的科学家人工研发的速度要快得多。不仅仅停留在Alphabet所依赖的理论,我们已经看到了更多实际的应用例子。
2022年8月,英国Exscientia公司开发的人工智能系统发现了一种抗癌分子,该分子现在正进入临床试验,这一过程仅用了短短的八个月。如果没有人工智能,这一发现可能需要4到5年的时间。
如今,大多数治疗癌症和其他疾病的新药都是通过靶向体内特定的蛋白质来发挥作用的。理想情况下,我们希望设计小分子药物以非常精确地结合到整个靶蛋白的一个微小区域,从而改变其功能。药物化学家总是更喜欢拥有准确的3D蛋白质结构,以便他们可以基于结构来设计药物。
甚至在药物发现阶段开始之前,3D蛋白质结构就可以帮助药物研发团队评估目标蛋白的成药性,以便让研究人员能够了解哪些目标成药相对简单,哪些将带来重大挑战,
根据伦敦癌症研究发布的消息,在其开展的多个药物发现项目中,明晰靶蛋白的3D结构发挥了重要作用。预测准确3D蛋白质结构的能力通常对药物发现非常有价值,在设计化学探针以评估目标在生物学和疾病病理学中的作用时也是如此。例如,更好地预测有用的药物靶点、翻译疾病预测细胞和动物模型,以及预测人类的早期检测毒理学。
除此之外,蛋白质机构预测还能改善抗生素的抗药性难题。根据CDC估计,2019年,抗微生物药物耐药性每年给美国经济造成550亿美元的损失,其中包括200亿美元的医疗保健成本及350亿美元的生产力损失,抗生素耐药性也助长了“超级细菌”的出现。
今年九月,科罗拉多大学博尔德分校的Marcelo Sousa和Megan Mitchell教授使用AlphaFold研究与抗生素耐药性有关的蛋白质,并确定了蛋白质结构,科学家可以在大约30分钟内识别出一种细菌蛋白质结构,在没有人工智能的干预下,这一动作可能会花费十年时间。
毫无疑问,AI技术正在潜移默化的影响着医疗行业,DeepMind仅仅是一个成功的开端,而这条路没有终点。