科研人员给海量数据瘦身的逻辑，不仅能解决学术难题，还能治好我们普通人的数据囤积症-虎嗅网

本文来自微信公众号：生态学时空，作者：复旦赵斌，原文标题：《科研人员给海量数据瘦身的逻辑，不仅能解决学术难题，还能治好我们普通人的数据囤积症 | 一起读顶刊-2026》

手机弹出“内存不足”的提示，翻遍相册，几万张照片一张都舍不得删；微信聊天记录占了几十G，明明用不上，却总觉得“万一以后要用呢”；电脑硬盘里堆满了各种文件、报表、安装包，越存越多，最后连找个文件都要半天。

我们普通人不过是被几个TB的数据困住，而科研圈正在经历一场恐怖的数据洪水——他们要处理的数据，是按拍字节（PB）、艾字节（EB）算的。

给大家做个最通俗的换算：我们日常用的手机、硬盘，容量单位是GB、TB，1TB=1024GB，而1PB=1024TB，1EB=1024PB。

2029年即将建成的平方公里阵列射电望远镜，每年能产生700PB的数据，相当于70多万个1TB硬盘的容量；如果全开全存，一年能产出60EB的数据，也就是6000多万TB，就算把全球的消费级硬盘堆在一起，都未必装得下。

不止天文学，气象学、基因组学、地球科学、生物学……几乎所有学科，都在被海量数据淹没。数据越存越多，存储成本高得离谱，大量数据躺在硬盘里再也没被打开过，最后变成了没人能看懂的“数字垃圾”。

这篇文章就是谈谈科研圈应对数据洪水的核心方法。原来，科研人员给海量数据瘦身的逻辑，不仅能解决学术难题，还能治好我们普通人的数据囤积症。

全存下来，根本不可能

很多人对数据有个执念：只要是自己产生的数据，就一定要全存下来，万一以后有用呢？

但是，无限期保留所有数据，不管是在钱上，还是在实际操作上，都完全不可能。

就像前面说的平方公里阵列望远镜，就算只存每年700PB的精简数据，存储成本都是天文数字；如果要存60EB的原始数据，先不说钱，光是放存储设备的机房，都找不到地方建。

基因组学领域也是如此，英国维康桑格研究所的DNA数据库，已经存了90PB的数据，而且还在疯狂增长。负责人直言：再这么无差别存下去，数据很快就会从科研资产变成科研负担。

你费钱费力存下来的绝大多数数据，可能这辈子都不会再打开第二次。

这就像我们手机里存了上万张照片，真正会回头翻的，不过几十张；电脑里存了上百G的学习资料，下载之后就再也没点开过。我们以为存下来=拥有价值，但实际上，无法被找到、无法被理解、无法被复用的数据，和垃圾没有区别。

加州理工学院的图书管理员说得特别直白：这个问题，图书馆已经面对了上百年。我们不可能买下所有想收藏的书，而且50年后，很多书早就没用了。数据集也是一样，必须做筛选，决定哪些值得留，哪些该扔掉。

数据断舍离，没有万能公式，只有适配原则

很多人做数据断舍离的时候，总想要一个标准答案：到底哪些该留，哪些该扔？但不同领域的数据，留存规则天差地别，并没有一套放之四海而皆准的标准。我们完全可以根据自己的使用场景，定自己的规则。

天文学：用完就扔原始数据，只留核心成果

平方公里阵列天文台的做法，堪称极简主义的代表。天文学家需要什么最终成果，天文台就只存这个成果，一旦确认成果合格，底层的原始数据直接删掉。

比如天文学家需要一张基于干涉数据的星空图像，只要图像质量达标，背后的原始数据集就会被直接丢弃。首席研究员布林说，放在以前她会要求存原始数据，现在只会说千万别存——因为一旦存了，所有时间都会被庞大的数据集困住，根本没精力做真正的科研。

这就像我们出去旅行，拍了几百张照片，最后只精修了9张发朋友圈。那些废片、重复的照片，就相当于原始数据，既然已经有了最终的精修图，这些原始素材就可以删掉，没必要全部留着占内存。

气象学：必须全存原始数据，只扔衍生数据

和天文学完全相反，气象学领域的铁则是：所有原始观测数据，必须永久归档，一个都不能丢。

世界气象组织每天要接收全球数千个卫星、地面站、海洋平台传来的气压、风速、气温、湿度数据，这些原始数据会被完整留存。因为气象学的核心是气候预测和模型复盘，只有拿着最原始的观测数据，才能随时重新生成、修正气象模型，而那些衍生出来的模型、预测数据，反而不用存，因为随时可以用原始数据重新算出来。

这就像我们做财务报表，最核心的是每一笔收支的原始凭证、发票，这些必须永久留存；而基于凭证做的月度报表、年度分析，就算丢了，也能从原始凭证里重新整理出来，没必要反复存多个版本。

基因组学：只留有身份证的原始数据

基因组学的规则，是前两者的折中：原始数据优先留存，但前提是，这份数据必须有完整的身份信息，否则直接删掉。

桑格研究所的做法是：只要一份数据的元数据不完整，就直接清除。哪怕数据本身再重要，没有完整的处理方法、受试者信息、法律协议，也会被直接丢弃。因为没有这些信息，这份数据既无法复用，也无法溯源，留着只会带来风险。

给数据瘦身的法则，普通人也能直接用

不管是科研圈的海量数据，还是我们手机、电脑里的文件，想要做好管理，核心逻辑都是相通的。文章里提到的这些原则，看完就能直接用，彻底治好你的内存焦虑。

第一步：先定规则，搞清楚留什么、丢什么

所有数据管理的第一步，都是先明确留存标准，而不是等数据堆成山了再慢慢整理。

科研圈的通用留存原则，我们可以直接照搬：

不可替代、法律要求必须留的，一定要留：比如科研里的论文原始数据、政府决策的支撑数据，对应我们生活里的身份证扫描件、合同、发票、重要的证件照片，这些必须妥善留存。
已经产出最终成果，且无法再复用的原始数据，可以丢：比如已经精修出片的废片、已经定稿的论文初稿和无数个修改版本、已经做完汇报的PPT素材包，这些用完就可以清理。
能从公开渠道、共享库重新获取的，不用自己存：科研里很多公共数据集，有专门的数据库存储，不用自己下载一份占硬盘；对应我们生活里，网上能随时搜到的电影、教程、软件安装包，完全没必要下载下来存着。

第二步：比数据本身更重要的，是它的身份证——元数据

这是整篇文章里最重要的知识点，也是90%的人都会忽略的事：决定一份数据有没有价值的，从来不是数据本身，而是描述它的元数据。

你用手机拍了一张照片，照片里的画面，就是数据；而这张照片的拍摄时间、拍摄地点、设备型号、参数，甚至你给它加的备注，就是元数据——也就是数据的出生证明和说明书。

没有元数据的数据，就是一堆没用的乱码。文章里举了一个特别生动的例子：一位科学家20年前在香港港口收集了地震数据，其中有一条数据异常，当时怎么都找不到原因。多年后，他们发现当时的设备有故障，正是因为元数据里记录了设备的序列号，才精准追溯到了那条异常数据的问题根源。

反之，如果元数据缺失，哪怕数据量再大，也毫无价值。桑格研究所会直接删掉所有元数据不完整的基因组数据，就是这个原因。

这个道理放到我们普通人身上，同样适用。很多人存了上百G的照片，多年后再打开，根本不知道这张照片在哪拍的、和谁拍的、为什么拍；电脑里存了无数个命名为“新建文件夹”、“最终版”、“最终版2”的文件，过半年再看，根本不知道里面是什么。

想要让你的数据有长期价值，不用存太多，只要做好这一点：给重要的数据，补全它的元数据。

照片：给重要的相册加备注，标注时间、地点、事件；
文件：用规范的命名，比如「20260326-XX项目-最终汇报PPT」，而不是「最终版」；
重要资料：在文件里标注清楚来源、时间、相关背景，方便以后溯源。

哪怕你删掉了大量冗余数据，只要留存的核心数据有完整的元数据，它的价值也会一直存在。

第三步：冷热数据分开存，用最低成本保价值

就算做好了筛选，需要留存的数据还是会越来越多，怎么办？科研圈的通用做法，是给数据分冷热，分开存储。

热数据：经常要用到的，放在随时能调取的地方，比如电脑硬盘、手机里；
冷数据：不常用，但必须留存的，放到低成本的“冷冻存储”里，比如磁带、移动硬盘、云盘归档，不用一直占着日常使用的内存。

平方公里阵列天文台就是这么做的：常用的数据随时在线，不常用的就存到磁带里，虽然调取会有延迟，但成本极低，还能永久保存。加州理工学院的数据库也是如此，数据先在线存5年，之后转入冷冻存储再存5年。

这就像我们日常用手机，常用的APP、照片放在手机里；几年前的老照片、老视频，不常看但舍不得删，就存到移动硬盘、云盘里，既不占手机内存，也不会丢失，成本还最低。

第四步：共享数据，避免重复囤积

还有一个减少数据囤积的关键，就是共享。

科研圈里，同一个领域的数据集，会有专门的领域数据库，由专家运营管理，所有研究人员都能调取，不用每个人都自己存一份。新的、更高质量的数据集出来后，旧的就可以淘汰，不用所有人都重复存着旧数据。

这就像我们和家人、同事出去旅行，所有人都拍了几百张照片，不用每个人都把所有照片存一遍，大家共享一个相册，各自存自己喜欢的就好；工作里的共享文档、团队云盘，也是一个道理，不用每个人的电脑里都存一份相同的文件，既省空间，又方便协作。

解读文献：

https://doi.org/10.1038/d41586-026-00880-7

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

科研人员给海量数据瘦身的逻辑，不仅能解决学术难题，还能治好我们普通人的数据囤积症