2022-08-12 07:29

大数据时代，无处不在的“暗数据”

本文来自微信公众号：普林斯顿读书汇（ID：PrincetonUP_CHINA），作者：PUP China，原文标题：《解码“暗数据”：大数据时代，如何用缺失的数据正确决策？》，头图来自：视觉中国

在大数据时代，一种常见的“傲慢”是，我们已经拥有了海量的数据，足以做出正确的决策。事实上，正如宇宙的大部分由“暗物质”组成，信息的宇宙也充满了“暗数据”陷阱：如果我们对缺失的信息视而不见，就可能陷入谬误而不自知。

那么，如何控制“暗数据”带来的影响？如何在信息缺失的世界中做出理性决策？英国皇家统计学会前主席 David J. Hand 在Dark Data: Why What You Don't Know Matters中研究了大量现实生活中的例子，从挑战者号航天飞机爆炸到复杂的金融欺诈，对暗数据的类型和可能出现的情况进行了分类，并给出了如何识别、控制、甚至利用暗数据的建议。

正文

读过Significance （Dalal， S. 2016. From risk toresiliency. Significance， 13（1）， 42–43.）一书的读者，应该对1986年“挑战者”号航天飞机灾难背后的统计故事并不陌生。这起事故的原因仅涉及7个数据点——但它却造成了7名宇航员的死亡。

相关的统计故事围绕着一张图表展开，这张图表展示了前七次航天飞机发射时的气温与火箭助推器各部分的接头密封是否损坏之间的关系。这张图表显示两者之间除了随机变异性，似乎没有其他关系。然而，这张图表存在着一个重大的缺失：它并未包括没有接头密封损坏的发射点数据。如若有这些数据，人们会从图表中得出完全不同的推论：发射时，空气温度越高，接头密封的损坏率就越小。

如果人们看到了完整的数据，这场由于发射时低温导致的灾难就不会发生。然而，正是由于缺少数据，人们产生了错误的推断，并最终导致助推火箭在九英里的高空爆炸，七名宇航员全部遇难。

“挑战者”的案例中缺失的数据，是暗数据（darkdata）的一种。正如这个例子所说明的，也正如在我的书 Dark Data: Why What You Don’t Know Matters 中所研究的，忽略暗数据的后果可能是灾难性的——它会造成财产损失、名誉受损，甚至人员伤亡。

未知的数据

暗数据是人们缺失的数据，也可能是人们认为自己拥有、盼望拥有、或者但愿拥有的数据。但归根结底，不管人们是否意识到了暗数据，暗数据都是人们没有的数据。暗数据现象的存在——这些在我们尝试理解世界时缺失的数据，会导致我们误解现实，误判世界的运行方式，做出糟糕的预测，或是犯错，就像“挑战者”号的例子所揭示的一样。

医疗诊断是一个暗数据现象多发的领域。相关诊断标准以及阈值并非一以贯之，而是随着时间、以及人们对相关病理的理解加深而变化。这些变化可以揭示以往隐藏的、或者说并未发现的疾病机理。

例如，根据Huang等人的研究，全世界大约有三分之一的糖尿病病例未得到诊断，这项研究将之归因于传统血糖测试的缺陷。同样，自闭症最初于1980年被纳入《精神障碍诊断与统计手册》（Diagnostic andStatistical Manual of Mental Disorders），而自闭症的诊断定义在1987年和1994年发生了变化，更多的人被纳入自闭症的诊断范围。

当然，由于定义的改变导致病例数的增加或减少，这种现象并非医学界独有。在其他领域，比如市场中，对于“失业”的不同定义会导致不同的统计结果。再比如，在撰写此文时，全世界都在面对的新冠肺炎疫情，在这场疫情应对中，人们也面临着各种暗数据，比如有关无症状患者的数据。

统计学家非常熟悉一些特定种类的暗数据。一个典型的例子是，问卷调查的受访者拒绝回答某些问题。在这种情况下，不回应其实也暗含着特定的信息。这种现象较为普遍地出现在选举前的民意调查中，囿于社会压力（比如政治正确），人们可能不愿意袒露自己的真实想法。

不回应是一个全球性的问题，而这在英国劳动力调查（UK LabourForce Survey）中尤其明显。在过去十年中，该调查的整体回应率从55.5%下降到38.6%。从几十年前开始，人们就尝试用各种方法来解决不回应的问题，虽然统计学家们做出了许多尝试，但问题并没有得到根本性解决，统计学家无法创造奇迹。暗数据持续影响着人们进行推断，并影响着结论的准确性。

发现“暗数据”

和问卷调查中暗数据一样，其他地方的暗数据无处不在。

以数据缺失或者不可测量形式出现的暗数据尤其有害。设想一下，如果没有性别数据，测量歧视是多么困难。

数据收集方法上的隐蔽改变，也可能导致以前可见的数据变得不可见，或者以前不可见的数据可见。Moz，一家搜索引擎优化公司维护着一个网页。这个网页上记录了谷歌搜索算法多年来所有的更新和变化。根据Moz的说法，“在2018年，谷歌报告了3234次更新——平均每天近9次，这是2009年更新频次的8倍多。虽然这些变化的程度大多很小，但谷歌偶尔也会推出重大的算法更新……这会对搜索结果产生重大的影响。”

幸存者偏差（survivorbias）是一些领域中比较常见的暗数据现象。例如，投资基金业绩的直接排名，只包括那些在评估期间幸存下来的基金。而那些已经淘汰了的基金就成为了暗数据。因为一般来说，退出的那些是表现最差的基金。除非有意识地考虑到这一点，否则业绩的总体衡量结果将会向上偏移。这种现象可能会很明显。在投资管理公司Vanguard的一项研究中，只有超过一半的基金在15年的研究期内存活下来。而在临床试验中，类似的现象也可能出现。

即便人们认为自己的数据中不存在选择性偏误（selectiondistortions），暗数据也可能以其他的形式出现并掩盖真相。除开简单的计数，没有任何测量是完全精确的——即便是可以精确到小数点后无数位。这意味着人们的观察结果必然只是近似的；分析的数值并不是确定值，而只是估计值。而这种形式的暗数据——通过舍入（rounding）简化或估计数值——会导致错误的结论，因为它会使汇总的统计数据产生偏差，或者会导致错误的分类。

与舍入相关的一个现象是截断（truncation），代表着人们只知道真实值与某个阈值的相对大小（大于或小于）。例如，水银温度计不会记录低于水银冰点（freezingpoint）的数值；体重计不会记录高于其上限的数值。

我的书给出了15种类型的暗数据，包括上文描述的这些，以及其他的一些类型：比如整体变量的缺失（missingentire variables），以及由于时间变化造成的扭曲（distortions）。更有甚者，不同类型的暗数据并不互斥，而可以同时出现，甚至形成合力，干扰人们的观察和判断。我认为，这些你不知道的数据（暗数据），至少和你所知道的数据一样重要，如果你希望得出有效的结论的话。

处理暗数据的常见方法

我写这本书主要是为了提高人们对暗数据的危险的认识。人们在进行分析时，往往没有充分考虑到数据的来源和出处。比如，机器学习（MachineLearning）算法虽然总会给出一个输出，但输入数据很可能是片面的，或者带有误导性的。急于得出结论，可能反而适得其反：对数据的不严谨考量，会在之后浪费更多的时间。

但前景并不都是暗淡的，处理暗数据的工具已经开发出来了。

第一步是检测暗数据——或者说，检测显示出数据缺口的窗口。有时候这很容易，比如调查问卷中的空白回答，就是一个窗口。当然，有时候发现窗口很困难。

然后，一旦人们意识到可能存在数据的缺失，处理暗数据的关键策略，就是利用这种认知，即“你知道自己不知道”的认知（use what you do know about what you don’t know）。

许多相关的简单方法已经被提出，甚至被集成到统计软件包中。它们包括完整的案例、记录于单个变量上的所有值，以及替换观测值的平均值。不幸的事，这些方法并不总是尽如人意。就暗数据而言，使用这些简单甚至不言自明的方法，甚至可能会让人们陷入更大的麻烦中（参见“用平均值代替缺失值的问题” “The Problemwith Substituting Averages for Missing Values” 章节）。

更有效的方法扎根于理解和假设——理解产生暗数据的机制的性质，用更复杂的方法，基于对观测值和暗数据之间的关系进行建模，从而产生诸如多重插补（multipleimputation）和期望值最大化算法（theexpectation-maximization algorithm）等工具。但正如我之前所言，统计学家无法创造奇迹。因此很多时候我们必须使用假设的方法，来理解为什么数据是黑暗的。

利用“暗数据”

文行至此，我已经描述了那些偶然出现（而非人为制造）的暗数据。但有时候，人们会故意制造暗数据（比如欺诈者）。而其他普通人、比如像此刻正在阅读的你一样，你也会使用暗数据，例如密码，来保护数据免受窥探。这代表了对暗数据的积极使用。

对暗数据更复杂的积极应用，也发生在我称之为“对无知的战略应用”中（the strategic application ofignorance）。

比如在临床试验中设置实验组和对照组，向患者们隐藏真正的治疗情况。再比如用随机回应的方法（randomizedresponse methods）提取敏感信息。当我们进行模拟时，我们生成了可能是但不是的数据（datawhich might have been）。当我们在分类算法（classification algorithms）中使用提升方法（boosting）时，我们可以创建误分类案例（misclassifiedcases）的虚拟副本（imaginarycopies）。我们对数据添加了一个轻微的扰动来其正则化（regularize），这时我们也就生成了新的数据来使模型有更好的鲁棒性（robustness）。当我们写下贝叶斯先验（Bayesian prior）时，我们会联想到过去的可能数据……

回到本文开篇的故事，“挑战者”灾难。一个统计学家看到七个数据点的原始图表时，应该要产生怀疑。该图似乎表明，每次发射时，至少有一个密封存在问题：五个单密封问题，一个双密封问题，一个三密封问题。没有不存在问题的发射。这在本质上令人惊讶——如果密封问题是独立的，那么它们的出现也是偶然的，我们会期望存在没有密封问题的发射出现。带有这种意识的怀疑，至少会带来对航天飞机的进一步调查。然后人们会发现，以前没有问题的发射数据，都从图表中被删除了。而恰恰是这些被删除的数据，会揭示暗数据的存在。

本文来自微信公众号：普林斯顿读书汇（ID：PrincetonUP_CHINA），作者：PUP China

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

文集：

数据读心记

AI原生产品日报

频道：前沿科技