扫码打开虎嗅APP
本文来自微信公众号:原理(ID:principia1687),作者:Takeko,题图来自:pixabay
一
整整20年前,2001年,人类基因组工作草图发布。这是人类基因组计划的重要里程碑之一,也是我们了解人类基因组的关键时刻,它为我们对人类生物学和疾病基因组基础的理解铺平了道路。自此,我们迈入了基因组学的时代。
但是,当时科学家的任务还没有结束:还有一部分基因组没有被测序,也存在一些序列信息可能不准确的问题。技术限制意味着,人类基因组序列的原始草图只涵盖了基因组“常染色质”的部分。人类基因组中有约92%为常染色质,大多数基因都是在这里发现的,是制造RNA和蛋白质等基因产物最为活跃的部分。
到了2013年,基因组参考联盟(GRC)发布了更新的人类参考基因组GRCh38。尽管经过数十年的努力,它已经是迄今为止最精确和完整的脊椎动物基因组之一,但它仍不是一个“一字不差”的完整基因组,大约还差8%的序列尚未被测序。
而如今,我们终于获得了一个更完整的版本。一组国际研究团队在预印本上发表了他们最新的测序结果。这些新的序列填补了之前剩余的大部分缺口。现在我们已经获得了约30.55亿对碱基对的完整信息。这些数据均已公开,希望其他研究人员能够利用它们进行下一步研究。(新论文尚未接受同行评议。)
二
新测序的大部分属于基因组的“异染色质”部分,它比常染色质部分的基因组更“紧凑”,包含着许多高度重复的序列,因此很难准确读取。这些区域曾经被认为不包含任何重要的遗传信息,但现在科学家已经意识到,其中包含的基因参与着诸多根本的重要过程,比如胚胎发育过程中器官的形成。
就在去年年中,遗传学家Karen Miga带领团队借助新的技术和方法,首次成功挑战了对人类X染色体的“从头到尾”(从端粒到端粒)的完整测序,其中不存在任何缺口,其精确度达到了前所未有的水平。(详见《首次获得人类X染色体的完整序列》。)
有了先前累积的经验,Miga和合作科学家开始了更大的挑战。在新研究中,他们沿用了之前的思路,同样选择了一类非常特殊的细胞。这些细胞来自一种非常罕见的组织,被称为完整葡萄胎。当受精卵失去了母亲提供给它的所有遗传物质时,就会发生这种情况。
大多数细胞中的每条染色体都有两份拷贝,双亲各提供了一份,每个亲本带来了不同的DNA序列。但一个完整葡萄胎的细胞有两份来自父亲的染色体,每对染色体的基因序列都是相同的。这就能避免两份染色体序列差异的问题,使得整个基因组序列更容易被拼凑起来。
此外,人类基因组计划曾开创了一种“鸟枪测序”的方法,它将基因组分成有约200个碱基对的非常小的片段,将它们克隆到细菌体内,再破译它们的序列,然后像完成一幅巨大的拼图那样将它们拼凑在一起。但这也是最初的草图只涉及基因组的常染色质区域的主要原因,因为这种方法只能局限在这个区域内进行可靠测序。
而最新的这些序列则是利用两种互补的全新的DNA测序技术推导而来的。其中一种允许更长的DNA片段以非常高的精确度进行测序。第二种则可以产生超长的连续DNA序列。这些新技术使得拼图片段可以长达数千甚至数百万碱基对,组装自然也变得更加容易。
在新测序的约2亿个碱基对中,估计有115个基因参与生产蛋白质。这些新信息有可能促进我们对人类生物学的认识,包括染色体如何运作和维持其结构。这也将提高我们对遗传疾病的理解,比如涉及染色体异常的唐氏综合症。
三
那么人类基因组测序至此已经全部完成了吗?好吧,还没有。
Miga向《自然》杂志表示,团队在分辨染色体上的某些区域时遇到了困难,目前估计约0.3%的基因组可能包含错误。
还有一处明显的遗漏便是Y染色体,因为完整葡萄胎细胞包含了两条相同的X染色体拷贝。但这项工作也正在进行中。尽管Y染色体包含着大量高度重复的序列,但科学家预计他们的方法也有能力准确地完成对它的测序工作。
尽管毋庸置疑的是,对人类细胞(几乎)完整基因组的测序绝对是一个非常惊人的里程碑,但它仅仅是全面了解人类遗传多样性的数个关键步骤中的一步。
下一步的工作将是研究不同人群的基因组。一旦新技术足够成熟,就可以更常规地用于对人类基因组的测序,它将帮助我们更深刻地了解人类历史、生物学和健康等各个方面。
参考来源:
https://theconversation.com/why-it-took-20-years-to-finish-the-human-genome-and-why-theres-still-more-to-do-162418
https://www.nature.com/articles/d41586-021-01506-w
本文来自微信公众号:原理(ID:principia1687),作者:Takeko