正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2019-07-08 13:00
一条DNA单链放下整部维基百科?这家美国公司做到了

本文来自微信公众号:硅星人(ID:guixingren123),作者:光谱、杜晨,标题图来自视觉中国



我们的祖辈,用纸笔写下族谱并保护起来。因为作为介质的纸,一场大火足以付之一炬;


我们的父辈,开始用磁带、软盘和光盘,保存重要的资料。然而现如今,想要找到读取它们的设备越来越难;


今天,关于这一代所有的记录,都可以在我们的手机、电脑、钱包里的U盘和远方的“云”上找到。


一次次的科技进步,为我们带来更小、更高效、更持久和抗摧毁的数据存储方式。


但是很多人都没意识到,大自然也有着一项“天然”且十分“保险”的存储介质。它极其微小,且被每一个人所拥有。在遗传学家看来,这一介质承载了作为物种的人类,从类人猿进化到智人的所有数据记录。


这一介质,就是DNA


最近,一家位于美国波士顿的医学科技公司Catalog宣布,在人造DNA作为数据存储介质的研究方面实现重要里程碑。


该公司成功在一条人造DNA单链当中,保存了整部维基百科(英文版)


“人类在工程上的许多壮举,来自于我们对其它物种的模仿。我们看到会飞的鸟,发明了能让人类也飞起来的飞机。”Catalog科学家Milena Lazova在一则视频里表示,“DNA也是同理,我们看到人体存储了信息,为什么不用DNA来存储数据呢?”


DNA(脱氧核糖核酸)是一种生物大分子,构成基因的主要方式。通常,DNA是以双螺旋结构(double helix),也即两条链相互配对且紧密结合的形态存在的。



许多人可能都在生物课中学过DNA工作的基本原理。通俗来讲,DNA链条上通常包含四种碱基(A,T,C,G),而不同碱基的排列组合方式,最终决定了我们的长相、智力,以及不同病症的发病风险等。


对于包括人类在内的大部分物种,正是因为DNA上面含有信息,才能决定遗传的结果。


在过去的几年里,用于医学的基因编辑技术取得了长足的进展。人们现在可以在极小的、可接受的误差范围内,对已有的基因序列进行“Ctrl-x、c 和 v”。这一技术使得人类有机会攻克一些曾被认为无法根除的绝症,但也引发了一些道德争议[1]


从DNA结构首次被发现到今天已经过去了将近70年,基因学家仍无法百分之百明确DNA序列的全部意义并利用它;但是,在数据存储的语境下,一切其实并没那么复杂:毕竟大部分的数据信息,最终还是回到1和0。


科学家将A、T、C、G分别定义为01、10、00和11。这样,一条含有四种碱基排列组合的DNA单链实际上就变成了一条二进制的数字串。



而Catalog的厉害之处,在于他们找到了一种更快、更廉价地按照要求排列碱基,从而将数据编码到DNA分子里的方法:简单来说,大规模排列提前生产好的碱基片段,再进行合成。


比方说bagel这个词:


ASCII: b a g e l


二进制: 01100010 01100001 01100111 01100101 01101100


碱基排列: ATGT ATGA ATAC ATAA ATCG


研究人员只需要把上面这五段碱基序列,再用酶合成,就制成了一条DNA;同理,一句话,一本书里的全部单词,甚至是一张JPEG照片,都可以转化成二进制编码,再编码到DNA里。


Catalog自主开发了一台“DNA写入机”(详细资料不足,目测大约一台冰箱大小)。这台机器每天可以写入1TB左右的数据,从而实现了大规模人工编写DNA信息


市面上买到DNA测序仪并不难,所以任何人(只要有钱)都可以重新读取这些DNA信息,把它们转化为原来的文字或图片格式。



Catalog由两位科学家联合创建,团队不足10人。CEO朴显俊(Hyunjun Park)在威斯康辛州大学麦迪逊分校完成微生物学博士学位,创业前在麻省理工学院担任博士后研究员。首席技术创新官Nathaniel Roquet拥有哈佛大学生物物理学博士学位。


朴显俊和Roquet在2016年参加了IndieBio生物科技加速器。在当时,他们还没有发明出前面提到的那台机器,Roquet必须用滴管来完成操作,花了足足4个小时,做完手都肿了。


幸运的是,他们完成了概念验证,首次成功在一段DNA中注入了美国著名诗人罗伯特·弗罗斯特的《未选择的路》,一段大约1KB的信息[2]


在靠创始团队自己出资支持两年之后,Catalog 终于在2018年获得了恩颐投资(NEA)、DataCollective等在内的约800万美元注资。从《未选择的路》,到《银河系漫游指南》,到今天的英文版维基百科——因为DNA写入机的成功开发,Catalog的数据录入效率越来越高。



对于大部分人,Catalog开发的技术属于“杀鸡焉用牛刀”,毕竟基于硬盘或闪存芯片的本地或云端存储,目前已经十分廉价。


最适合使用DNA存储信息的,其实是那些需要长期存储海量数据,或者对于海量数据的全球运输有频繁需求的机构,比如数据中心和云计算公司。


硬盘本身的确便宜,但在数据中心里让大量机柜持续运转,费用极高,而且对于一些存储方案来说,断电会导致数据丢失,因此还要考虑灾备的进一步成本。


相比之下,DNA的信息存储密度大约是闪存的一百万倍。


据Catalog计算,一座大型数据中心的存储容量大约在1EB(一千PB或一百万TB)左右。而1EB数据如果写入到DNA上,大约只有一块方糖大小。



因为存储密度大,DNA还很适合用于海量数据的运输。


举例:你的公司最近要把10PB的数据迁移到亚马逊AWS上,知道AWS会怎么做吗?


答案:AWS会派来一辆卡车,把你的数据都保存到硬盘上,放到集装箱里,再运到数据中心里上传,费用大约是50万美元;当然,你也可以选择把硬盘寄给亚马逊。


为什么:数据量太大,带宽不够,效率太低。集装箱实际上是最高效的运输手段。


如果用DNA存储呢?这些数据还不到刚才那一枚方糖的大小。所以,在纸上滴一滴DNA,寄给对方就可以了。


而且,把DNA存储当作灾备方案也很合适,因为DNA分子链很稳定,保存长达几千甚至上万年都不会丢失数据——当然,前提是未来的人们还在用DNA测序仪。


更进一步,如果未来人类真的走到行将灭绝的路口,需要提前将所有历史、知识、数据进行数字化保存……使用DNA进行存储的话,全人类的文明只要一个冰箱就能装下[3]


“我热爱发明前人未曾想到的东西。但是更让我们感到激动的,是想到我们的发明能够为将来的世界带来巨大的价值。”Roquet表示。


[1] “基因编辑婴儿”闹剧收场:三部门叫停科研,查处违法违规 https://www.pingwest.com/w/180735


[2] How to make DNA data storage a commercially viable solution — and bring physical data ownership back https://synbiobeta.com/how-to-make-dna-data-storage-a-commercially-viable-solution/


[3] Introduction to DNA-based data storage and CATALOG https://www.youtube.com/watch?v=yXjGFSgqRC4


本文来自微信公众号:硅星人(ID:guixingren123),作者:光谱、杜晨,标题图来自视觉中国

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: