扫码打开虎嗅APP
本文来自微信公众号:原理(ID:principia1687),作者: 糖兽,原文标题:《生物学的一个基本大问题迎来重大突破!》,题图来自:视觉中国
一
在我们身体的每个细胞里,有数十亿的微型分子机器正在努力工作,它们让眼睛能够感知到光线,让神经元能发出信号,让DNA中的“指令”能被读取,让我们成为独一无二的自己。而负责进行这些精细而又复杂的任务的,就是蛋白质。
蛋白质支撑着每一个生物的生物过程,可以说它们是地球生命的基石。它们能否正常发挥其功能对生物来说至关重要,世界上的许多疑难杂症都与蛋白质所的功能有关。
蛋白质的功能在很大程度上取决于它的三维结构。| 图片来源:DeepMind
蛋白质的功能在很大程度上取决于其独特的结构,它们是一些由氨基酸构成的复杂大分子。因此,能够预测蛋白质会折叠成什么形状,预测未知蛋白质的结构,不仅能够帮助我们治疗疾病、更快找到新的药物,或许还能帮助我们解开生命是如何运作的奥秘。
然而一直以来,“蛋白质折叠问题”一直是生物学中的一个重大挑战,并且已经困扰生物学家50多年。直到现在,终于有佳讯传来:由DeepMind开发的人工智能系统AlphaFold,在根据氨基酸序列确定蛋白质的三维形状方面取得了重大突破。
二
图片来源:DeepMind
目前,地球上已知的蛋白质约有2亿个,这个数字还在以每年3000万个的速率增长。每一个蛋白质都有其独特的三维形状,决定着它会如何发挥作用。然而迄今为止,科学家已经确切掌握了其三维结构的蛋白质只有一小部分。
假如我们能“解”开一个蛋白质,呈现在眼前的会像是一串由一系列不同的化学物质组成的链条,这些化学物质就是氨基酸。氨基酸的这些序列是根据生物体DNA的遗传指令组合的。20种不同类型的氨基酸之间的相互吸引和排斥,会使“链条”通过自发折叠的方式将自己打包成有着复杂的卷曲、环形和褶皱的三维结构。
多年来,许多先进的实验技术都已被使用来检查和确定蛋白质的结构,这些技术包括核磁共振、X射线晶体学、冷冻电镜等等。然而在进行这项研究时,这些技术实则依赖于试错,是一类无论在时间还是金钱上都代价高昂的方法。因此,有科学家一直在寻找一种能通过氨基酸序列来确定蛋白质结构的方法。
三
早在上世纪八九十年代,就有研究人员尝试过用计算机来预测蛋白质结构,但是结果欠佳。1994年,一些科学家组建了一个社群论坛,名为CASP(预测蛋白质结构的关键评估),让从事蛋白质折叠研究的科学家可以分享最新的进展。
CASP每两年会举办一次竞赛,来测试科研人员对蛋白质结构进行预测的准确性:每个参赛的团队会得到一组蛋白质的氨基酸序列,这是一些已知其明确结构但尚未公开的蛋白质,参赛团队需要对这些蛋白质的结构作出最佳预测,再通过与实际结构进行比对来分出胜负。
CASP衡量预测准确度的主要度量标准是全局距离测试(GDT),其范围值在0到100之间。简单来说,GDT可被当做是氨基酸残基在正确位置的阈值距离内的百分比。GDT分数在90以上的预测结构可被认为大致与实验确定的结果相一致。
在每次CASP竞赛中,表现最好的团队做出的预测的中值GDT分数。| 图片来源:DeepMind
诞生于2016的AlphaFold参加了2018年的CASP13,当时它以接近60的GDT排名第一,令在场的许多科学家都为之惊叹。AlphaFold先是通过深度学习的方法,学习大量已知蛋白质的序列和结构,然后利用这些信息对蛋白质应该是什么样子生成一个模型,在“习得”之后再预测蛋白质中的氨基酸对之间的距离。
最近版本的AlphaFold利用约170000个蛋白质结构数据进行了训练。在最新发布的CASP14评估结果中,AlphaFold获得的中值GDT分数是92.4,这意味着它的平均预测误差大约为1.6埃(1.6×10⁻¹⁰米),相当于一个原子的宽度;即使是对那些最难以预测的蛋白质,AlphaFold也达到了87的中值。
一个折叠的蛋白质可以被看作是一个“空间图”,其中的残基是节点,用线可以将邻近的残基连接起来。在AlphaFold的最新版本中,研究人员创建了一个基于注意力的神经网络系统,这个系统会试图解释空间图的结构,同时对它正在构建的隐式图进行推理。它使用进化相关的序列、多序列比对(MSA),以及氨基酸残基对的表示来细化这张图。通过重复这个过程,这一系统能对蛋白质的潜在物理结构进行强有力的预测,并能够在几天之内高度准确地确定蛋白质的结构。| 图片来源:DeepMind
可以说,现在的AlphaFold基本上可以根据蛋白质的氨基酸序列,对蛋白质的形状和结构进行高度准确的预测。
两个AlphaFold根据实验结果预测出的高度精确的蛋白质结构。| 图片来源:DeepMind
四
这是一项重大的突破,它意味着要高水平的获悉一个蛋白质的结构变得不再困难,只需收集到普通甚至较差质量的实验数据即可。有生物学家认为,这样的技术将带来翻天覆地的变化,它能彻底地革新医学、生物学研究、生物学工程。现在,随着大量的可用基因组数据有望被可靠地翻译成结构,一些如蛋白质的进化分析在内的领域将蓬勃发展,帮助分子生物学家提出更加高深的问题。
虽然还有许多问题仍有待解答,比如多个蛋白质是如何形成复合物的?它们又如何与DNA、RNA或其他小分子相互作用?要如何才能确定所有氨基酸侧链的精确位置?但可以说,AlphaFold为蛋白质折叠问题带来了迄今为止最重大的进步之一。这样的进展也让研究人员更加充满信心,相信在未来,人工智能将能成为人类扩展科学知识前沿的最有效工具之一,期待未来将它们将能带给我们更多的新发现。
参考来源:
https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
https://www.sciencemag.org/news/2020/11/game-has-changed-ai-triumphs-solving-protein-structures
https://deepmind.com/research/case-studies/alphafold
本文来自微信公众号:原理(ID:principia1687),作者: 糖兽