扫码打开虎嗅APP
本文来自微信公众号: 生态学时空 ,作者:复旦赵斌,原文标题:《科研人员给海量数据瘦身的逻辑,不仅能解决学术难题,还能治好我们普通人的数据囤积症 | 一起读顶刊-2026》
手机弹出“内存不足”的提示,翻遍相册,几万张照片一张都舍不得删;微信聊天记录占了几十G,明明用不上,却总觉得“万一以后要用呢”;电脑硬盘里堆满了各种文件、报表、安装包,越存越多,最后连找个文件都要半天。
我们普通人不过是被几个TB的数据困住,而科研圈正在经历一场恐怖的数据洪水——他们要处理的数据,是按拍字节(PB)、艾字节(EB)算的。
给大家做个最通俗的换算:我们日常用的手机、硬盘,容量单位是GB、TB,1TB=1024GB,而1PB=1024TB,1EB=1024PB。
2029年即将建成的平方公里阵列射电望远镜,每年能产生700PB的数据,相当于70多万个1TB硬盘的容量;如果全开全存,一年能产出60EB的数据,也就是6000多万TB,就算把全球的消费级硬盘堆在一起,都未必装得下。
不止天文学,气象学、基因组学、地球科学、生物学……几乎所有学科,都在被海量数据淹没。数据越存越多,存储成本高得离谱,大量数据躺在硬盘里再也没被打开过,最后变成了没人能看懂的“数字垃圾”。
这篇文章就是谈谈科研圈应对数据洪水的核心方法。原来,科研人员给海量数据瘦身的逻辑,不仅能解决学术难题,还能治好我们普通人的数据囤积症。
很多人对数据有个执念:只要是自己产生的数据,就一定要全存下来,万一以后有用呢?
但是,无限期保留所有数据,不管是在钱上,还是在实际操作上,都完全不可能。
就像前面说的平方公里阵列望远镜,就算只存每年700PB的精简数据,存储成本都是天文数字;如果要存60EB的原始数据,先不说钱,光是放存储设备的机房,都找不到地方建。
基因组学领域也是如此,英国维康桑格研究所的DNA数据库,已经存了90PB的数据,而且还在疯狂增长。负责人直言:再这么无差别存下去,数据很快就会从科研资产变成科研负担。
你费钱费力存下来的绝大多数数据,可能这辈子都不会再打开第二次。
这就像我们手机里存了上万张照片,真正会回头翻的,不过几十张;电脑里存了上百G的学习资料,下载之后就再也没点开过。我们以为存下来=拥有价值,但实际上,无法被找到、无法被理解、无法被复用的数据,和垃圾没有区别。
加州理工学院的图书管理员说得特别直白:这个问题,图书馆已经面对了上百年。我们不可能买下所有想收藏的书,而且50年后,很多书早就没用了。数据集也是一样,必须做筛选,决定哪些值得留,哪些该扔掉。
很多人做数据断舍离的时候,总想要一个标准答案:到底哪些该留,哪些该扔?但不同领域的数据,留存规则天差地别,并没有一套放之四海而皆准的标准。我们完全可以根据自己的使用场景,定自己的规则。
平方公里阵列天文台的做法,堪称极简主义的代表。天文学家需要什么最终成果,天文台就只存这个成果,一旦确认成果合格,底层的原始数据直接删掉。
比如天文学家需要一张基于干涉数据的星空图像,只要图像质量达标,背后的原始数据集就会被直接丢弃。首席研究员布林说,放在以前她会要求存原始数据,现在只会说千万别存——因为一旦存了,所有时间都会被庞大的数据集困住,根本没精力做真正的科研。
这就像我们出去旅行,拍了几百张照片,最后只精修了9张发朋友圈。那些废片、重复的照片,就相当于原始数据,既然已经有了最终的精修图,这些原始素材就可以删掉,没必要全部留着占内存。
和天文学完全相反,气象学领域的铁则是:所有原始观测数据,必须永久归档,一个都不能丢。
世界气象组织每天要接收全球数千个卫星、地面站、海洋平台传来的气压、风速、气温、湿度数据,这些原始数据会被完整留存。因为气象学的核心是气候预测和模型复盘,只有拿着最原始的观测数据,才能随时重新生成、修正气象模型,而那些衍生出来的模型、预测数据,反而不用存,因为随时可以用原始数据重新算出来。
这就像我们做财务报表,最核心的是每一笔收支的原始凭证、发票,这些必须永久留存;而基于凭证做的月度报表、年度分析,就算丢了,也能从原始凭证里重新整理出来,没必要反复存多个版本。
基因组学的规则,是前两者的折中:原始数据优先留存,但前提是,这份数据必须有完整的身份信息,否则直接删掉。
桑格研究所的做法是:只要一份数据的元数据不完整,就直接清除。哪怕数据本身再重要,没有完整的处理方法、受试者信息、法律协议,也会被直接丢弃。因为没有这些信息,这份数据既无法复用,也无法溯源,留着只会带来风险。
不管是科研圈的海量数据,还是我们手机、电脑里的文件,想要做好管理,核心逻辑都是相通的。文章里提到的这些原则,看完就能直接用,彻底治好你的内存焦虑。
所有数据管理的第一步,都是先明确留存标准,而不是等数据堆成山了再慢慢整理。
科研圈的通用留存原则,我们可以直接照搬:
不可替代、法律要求必须留的,一定要留:比如科研里的论文原始数据、政府决策的支撑数据,对应我们生活里的身份证扫描件、合同、发票、重要的证件照片,这些必须妥善留存。
已经产出最终成果,且无法再复用的原始数据,可以丢:比如已经精修出片的废片、已经定稿的论文初稿和无数个修改版本、已经做完汇报的PPT素材包,这些用完就可以清理。
能从公开渠道、共享库重新获取的,不用自己存:科研里很多公共数据集,有专门的数据库存储,不用自己下载一份占硬盘;对应我们生活里,网上能随时搜到的电影、教程、软件安装包,完全没必要下载下来存着。
这是整篇文章里最重要的知识点,也是90%的人都会忽略的事:决定一份数据有没有价值的,从来不是数据本身,而是描述它的元数据。
你用手机拍了一张照片,照片里的画面,就是数据;而这张照片的拍摄时间、拍摄地点、设备型号、参数,甚至你给它加的备注,就是元数据——也就是数据的出生证明和说明书。
没有元数据的数据,就是一堆没用的乱码。文章里举了一个特别生动的例子:一位科学家20年前在香港港口收集了地震数据,其中有一条数据异常,当时怎么都找不到原因。多年后,他们发现当时的设备有故障,正是因为元数据里记录了设备的序列号,才精准追溯到了那条异常数据的问题根源。
反之,如果元数据缺失,哪怕数据量再大,也毫无价值。桑格研究所会直接删掉所有元数据不完整的基因组数据,就是这个原因。
这个道理放到我们普通人身上,同样适用。很多人存了上百G的照片,多年后再打开,根本不知道这张照片在哪拍的、和谁拍的、为什么拍;电脑里存了无数个命名为“新建文件夹”、“最终版”、“最终版2”的文件,过半年再看,根本不知道里面是什么。
想要让你的数据有长期价值,不用存太多,只要做好这一点:给重要的数据,补全它的元数据。
照片:给重要的相册加备注,标注时间、地点、事件;
文件:用规范的命名,比如「20260326-XX项目-最终汇报PPT」,而不是「最终版」;
重要资料:在文件里标注清楚来源、时间、相关背景,方便以后溯源。
哪怕你删掉了大量冗余数据,只要留存的核心数据有完整的元数据,它的价值也会一直存在。
就算做好了筛选,需要留存的数据还是会越来越多,怎么办?科研圈的通用做法,是给数据分冷热,分开存储。
热数据:经常要用到的,放在随时能调取的地方,比如电脑硬盘、手机里;
冷数据:不常用,但必须留存的,放到低成本的“冷冻存储”里,比如磁带、移动硬盘、云盘归档,不用一直占着日常使用的内存。
平方公里阵列天文台就是这么做的:常用的数据随时在线,不常用的就存到磁带里,虽然调取会有延迟,但成本极低,还能永久保存。加州理工学院的数据库也是如此,数据先在线存5年,之后转入冷冻存储再存5年。
这就像我们日常用手机,常用的APP、照片放在手机里;几年前的老照片、老视频,不常看但舍不得删,就存到移动硬盘、云盘里,既不占手机内存,也不会丢失,成本还最低。
还有一个减少数据囤积的关键,就是共享。
科研圈里,同一个领域的数据集,会有专门的领域数据库,由专家运营管理,所有研究人员都能调取,不用每个人都自己存一份。新的、更高质量的数据集出来后,旧的就可以淘汰,不用所有人都重复存着旧数据。
这就像我们和家人、同事出去旅行,所有人都拍了几百张照片,不用每个人都把所有照片存一遍,大家共享一个相册,各自存自己喜欢的就好;工作里的共享文档、团队云盘,也是一个道理,不用每个人的电脑里都存一份相同的文件,既省空间,又方便协作。
解读文献:
https://doi.org/10.1038/d41586-026-00880-7