他们试图重复心理学的多个经典实验，竟然只有一半成功了-虎嗅网

本文来自微信公众号：果壳（ID：Guokr42），作者：Ed Yong，编译：有耳，编辑：EON、Ent，头图来自：视觉中国。

最近，心理学界遭受了一点小震动：又有一些著名实验没能重复。

发表这些重复结果的，是一项名为Many Labs 2的大规模国际合作项目。过去几年间，该项目背后的200多名心理学家试图重复28项高引用和轰动性的研究，最终发现只有一半的重复实验能得出和原始研究一致的结论。如果这发生在六年前，或许是震撼学术界的大新闻。而现在，结果已然在预料之中。

图 | JASIEK KRZYSZTOFIAK / NATURE

可重复性再遭审视

其实，“可重复性危机”已经困扰心理学界好几年。虽然各种质疑、捍卫之声聚讼纷然，越来越多的人已经意识到，即使是那些业界公认的心理学现象，也不一定是真的。也就是说，你还未更新的旧教材，收藏列表里的Ted演讲，都有可能错了。

比如说，“自我耗竭效应”——人的意志力是有限的，会随着过度使用而减少。提出这一理论的研究者最初发现，当被试面对巧克力的诱惑执行困难任务时，坚持下来的时间并不长。他们指出意志力对精神能量的消耗，就如同肌肉锻炼后会产生疲劳一样。这个理论很符合科学家的直觉，也备受畅销书作家的追捧。在人们通过各种实验知晓一系列消耗意志力的事项后，重复实验却发现，自我耗竭效应并不明显，很难找到支持它的证据。

为了尝试重复更多经典实验，开放科学中心（Center for Open Science）于2013年成立。但他们的首次结果并不足够乐观：在100项已发表的心理学实验中，只有不到40%成功重复。而作为该中心的新项目，Many Labs 2的结果表明，在更严格的统计学标准下（p< 0.0001，通常认为p<0.05时具有统计显著性)，重复成功率仅为50%。

相当讽刺的是，似乎心理学领域最可靠的发现之一，就是仅有一半实验能被成功重复。

开放科学中心 | cos.io

加州大学戴维斯分校的西敏·瓦齐尔（Simine Vazire）表示，“心理学家们应该承认，我们得到的结果没有预期的那样可靠，也没有我们向媒体或决策者宣称的那样可信。Many Labs 2的结果在短期内可能会让心理学大受质疑，但在这样有力的证据面前，否认问题的存在只能带来长期的危害。”

没按原始方向走，所以重复不出来？

有怀疑者认为，可重复性的“危机”压根不算危机，很容易就能解释清楚。首先，重复实验本身可能样本太小。此外，这些实验的研究人员可能水平不够，或者不明白原始实验的具体操作。再者，人和人之间也有区别，同一个实验，由两组不同的科学家在完全不同的志愿者身上做，结果自然可能大相径庭。

Many Labs 2就是专门设计出来回答这些质疑的。他们总共招募了15305名被试，平均每个实验的被试数量是原始版本的60倍之多。这些研究人员与原版实验的科学家们深入交流过，确保每个细节准确无偏差。而且，重复实验的被试来自36个国家，每项实验都重复了多次，以判断被试的文化和背景是否对实验结果产生影响。

尽管这项工程的样本巨大，操作方式也得到了被重复的研究者的认可，他们依旧没能验证许多研究的结果。

重复失败的实验包括：潜意识接触过“热”这个概念的人更容易相信全球变暖；道德上“肮脏”的行为会迫使人们需要清洁自己的肉体，就像麦克白夫人那样；一个人成长中拥有更多兄弟姐妹，行为也就更利他……

Gabriel von Max画作《麦克白夫人》（1885）| Wikimedia Commons

实验结果不一样，人群差异来背锅？

除了样本量的问题，有些研究者认为，重复实验还应考虑被试的某些特征，比如性别和人格特质等。可Many Labs 2的结果证明，在12起案例中这些特征都无关紧要，实验结果是相对稳定的。

当重复者在不少实验中把被试的地域、文化背景当作变量，结果也同样令人意外：一项实验若是在一组志愿者身上重复成功，在其他组也都是成功的，反之亦然。这个细节尤为重要，因为它反驳了一种最常被提及的说辞——要一个实验无论在哪都能得到一致的结果，当然是不可能的。

负责该计划协调工作（也是开放科学中心的成员）的布莱恩·诺赛克（Brian Nosek）说：“他们会说，你没能重复实验？肯定是因为你是在俄亥俄州做的，而我是在弗吉尼亚州做的，两个地方的人不一样。但我们的结果证明，重复实验失败的理由没那么好找。”

图 | Yiran Ding / Unsplash

不过，人类行为的文化差异并非无关项。许多研究人员指出，来自经济状况好、教育水平高的西方工业化民主国家，也就是所谓的“怪异”（WEIRD）国家的志愿者，他们的思维和其他地方的人不太一样。因而，相关研究也就更容易出现差异性。

在Many Labs 2的绝大部分实验中，“怪异”国家和其他国家的志愿者没有体现出重要差异。但有人指出，这些分析并不严谨，因为“非怪异”国家的人被当成了一个整体。跨文化研究应该将所有的文化背景考虑在内，并单独分析它们的影响。

诺赛克接受这一质疑。他很希望看到大规模重复项目囊括更多非西方社会的志愿者，并着眼于那些可能与“非怪异”国家的多样性息息相关的现象。

重复危机的确存在，但未来没那么绝望

心理学家桑杰·斯瑞瓦斯塔瓦（Sanjay Srivastava）认为，Many Labs 2实验结果的相对一致性其实是个好兆头。一方面，它表明大规模重复失败很可能就是学术不端行为导致的。但另一方面，实验结果缺乏差异恰恰意味着心理学的本职工作做得很优秀：研究人员成功地把参差错落、难以捉摸的人类心智塞进了实验室里。

“实验室之外的真实世界里，现象可能随情境而变。”他说，“但在我们经过严谨设计的研究和实验中，结果的混沌和不可预测性消失了。这意味着我们能够实施可供验证的社会科学研究。”

如果情况与之相反，那才是心理学真正的噩梦。如果我们发现人类实在太善变，连最严格的重复实验都导致了五花八门的结果，“那么我们就没法解释这些实验，连阳性结果都无据可依了。”斯瑞瓦斯塔瓦说，“如果真是这样，我们可以不把重复失败当回事，但那些原始研究也沦为了笑话。长远来看，Many Labs 2带给我们的结果是积极乐观的。”

编译来源：《The Atlantic, Psychology’s Replication Crisis Is Running Out of Excuses》

参考文献：

The Atlantic, Psychology’s Replication Crisis Is Running Out of Excuses

Nature, Replication failures in psychology not due to differences in study populations

Science, Estimating the reproducibility of psychological science

https://psyarxiv.com/9654g/

Slate, Everything Is Crumbling

本文来自微信公众号：果壳（ID：Guokr42），作者：Ed Yong，编译：有耳，编辑：EON、Ent，头图来自：视觉中国。

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

他们试图重复心理学的多个经典实验，竟然只有一半成功了

大 家 都 在 搜

大家都在搜