扫码打开虎嗅APP
本文来自微信公众号:集智俱乐部(ID:swarma_org),作者:郭瑞东,审校:赵雨亭,编辑:邓一雪,原文标题:《分析了2500万篇论文后,发现科学正在变得越来越保守》,题图来自视觉中国
尽管当今的新发现层出不穷,但人们更担心的是,科学中突破性的发现,所占的比例越来越少。近日,发表于Arxiv上的一篇名为“科学和技术领域突破性的动态”的论文,通过对近60年来,各个学科2500万论文和400万专利的分析,发现在各学科中,新发现颠覆旧有知识框架的比例都在降低,并对该趋势背后的原因进行了分析。
论文题目:Dynamics of Disruption in Science and Technology
论文地址:https://arxiv.org/pdf/2106.11184v1.pdf
背景
现有的研究已经多次在诸如半导体、制药及农业等领域发现科研的产出在降低;诺奖得主做出贡献和其获奖之间的年限也在拉长。这都在侧面佐证,科研中低垂的果实正在耗尽。
对此现象,另一种解释是由于知识积累的增加,科研人员需要花费更多的时间才能达到认知的边界,使得其可能做出研究成果的时间窗口变窄。然而在当下,新发表的论文数却在稳步上升,这就增加了该问题的复杂性。该研究的亮点,就在于其提出了衡量研究突破性程度的指标,且是首次进行跨学科的系统性科学学研究。
方法
该研究的数据,来自web of science收集的1945~2010年间的2500万篇论文、1.59亿次引用关系,以及1976~2010年间美国专利局收集的600万项专利以及1800万次专利间的引用关系。据此,可构建CD指数(consolidating/disruptive index),衡量一项研究的颠覆性大小。该值在-1到1之间,越大说明研究的颠覆性越强。
其逻辑是,如果一项研究推翻了前人的认知,那么在之后五年内引用该研究的论文,将不会引用被该研究所推翻的研究。例如DNA双螺旋结构这一发现,推翻了之前对DNA结构的猜想,这导致之后的研究者,不会再引用该论文之前的相关文献,故此其CD指数高达0.62。而对于改进型的研究,则是相反的趋势,即未来的研究者引用该论文时,还会引用相关的更早期的研究。
CD 指数的示意图和计算方法
所有学科的研究突破性都在降低
首先,作者指出在1945到2010年间,社会科学、物理学、生物兼医学以及通讯技术这四个领域中,不同学科CD系数平均值的变化,其中物理学下降了100%——在2000年到2010年这十年间下降到了0;而对于生命科学、社会科学、电子和通讯技术,CD指数的下降幅度分别为96.4%、91.9%和93.5%。这说明了突破性的发现在各个行业的比例都在变少。
图1:同领域的论文和专利的平均CD指数
图1左图是基于论文引用网络得出的趋势,右图则是基于专利网络得出的。两者的趋势相近,且各学科的趋势也接近。如果用低垂的果实来比拟(即那些容易发现的新知都已被前人找出),那将很难解释为何在所有学科都在相同的年代耗尽了低垂的果实。进一步进行回归分析(图2),更说明是作者而非学科或年份对学术研究破坏性的下降发挥了关键性的贡献。
图2:专利和论文创造性下降的趋势,经由回归分析得出的不同因素对这一趋势的贡献度
为了进一步增强(各学科研究的创造性都在下降)这一结论的可靠性,作者使用了之前研究者定义的描述科研文献创造力的两个指标,参考[1,2],使用相同的数据集进行了分析,结果发现了类似的趋势,见图3所示。
图3:使用其它研究者定义的描述论文创造性的两种指标,评价1945-2010年间科研突破程度的折线图
不止所有发表论文的平均突破性程度在下降,高水平的论文也是同样的趋势。选取Nature、Science和PNAS三则顶刊论文分析,发现其下降趋势比普通期刊更加明显,早在1975/1980年之后,PNAS和Nature的平均突破性研究占比就早早躺平,似乎顶刊更加不愿意刊登争议性更大、但也有可能是突破性的研究。而图四右边诺奖三种自然科学型的获奖论文,其突破性得分平均甚至下降到了0以下。
图4:顶级期刊中及诺奖得主的论文CD指数折线图
读者也许还会指出,新研究层出不穷、越来越多,这意味着科学的进步继续加速,其中有突破性的研究所占的比例虽然没有增加,但绝对数目却有所增加。图5指出这一趋势对于论文是部分成立的,突破性最强的红线略微增加,但大部分增长的都是突破性最低的蓝线。
对于专利(右图),则除了蓝线,其它的更有突破性的研究数量都在下降。考虑到还有更多的突破性得分为负的研究,平均后导致了突破性得分总分的下降。
图5:新增的论文大多是突破性不强的
突破性得分的下降造成了论文写作模式的改变
论文标题中的动词和论文的突破性得分是正或者负有显著关系,例如标题中有包含使用(use)、基于(base)、支持(support)的多为不具突破性的,而包含引起(trigger)、定义(define)的多是具有突破性的。由于突破性论文的占比降低,导致论文标题中最常出现的10个动词发生了变化,见图6。
图6:不同年代的论文中,最常出现的10个动词代表的研究突破性比例在下降
由于突破性的研究,往往会引入新的术语,或者其借鉴了多个领域的研究,因此其标题和摘要的用词多样性评分也会下降,见图7和图8。
图7:论文和专利标题中词汇的多样性的折线图
图8:论文和专利摘要中的词汇多样性折线图
除了语言模式,论文引用的模式也在改变,首先是引用的文章类型的多样性下降(图9),这表示跨学科研究的比例在下降。
其次(图10)是引用自己之前发表的论文的比例逐年增加,这反映了大多数学者是专精于一个子领域,新研究需要对已有研究很熟悉。
再次(图11)是引用的论文都是更早期的研究,这意味着研究者越来越难以跟上最新的研究,不得不依赖更熟悉但也更旧的研究,在此基础上展开自己的研究;而基于更早期研究展开的探索,根据数据可发现,其有更低的概率是突破性的。
图9:论文和专利引用所属类别的多样性折线图
图10:每篇论文/专利引用之前作者所出论文/专利的数量平均值逐年折线图
图11:所引用论文/专利和其发表之间的年份之差的逐年折线图
由于CD指数的计算方法,是对比发表前后引用论文的模式,对其趋势的一种解释就是随着研究团队越来越大,团队成员会倾向于引用自己之前的论文,这导致了上文描述的两个趋势,并部分解释了为何CD指数会下降。
为了排除这种解释,通过模特卡罗模拟(图12),在引用网络中加入随机性,再计算重连接和观察到的CD指数的比值,发现对于科研其呈下降趋势,对于专利则略有上升。这说明知识科研突破程度的下降,不是由科研团队增大导致的引用模式改变造成的。
图12:通过蒙特卡洛随机改变引用的连接,可以发现论文/专利突破性的下降,不是由于论文引用模式改变引起的
总结
科研中的突破性创新,是其最有价值的成果,因其不确定性,一直缺乏系统性的研究。
该论文的贡献,在于其定义了一个可量化的细颗粒度,且对于研究领域和年份鲁棒的评价指标,据此计算出的平均值,可以应用到中观维度,例如针对细分学科或者某个大学或企业。
如此,总会发现一些和总体趋势相反的特例,通过对这些逆风实现突破性创新的机构具有哪些特征进行研究,可以帮助学界更好地了解促成突破性创新所需的制度和文化土壤,这是该研究进一步可能的研究方向及其对社会的价值所在。
参考文献:
Lutz Bornmann, Sitaram Devarakonda, Alexander Tekles, and George Chacko. Are disruption index indicators convergently valid? the comparison of several indicator variants with assessments by peers. Quantitative Science Studies, 1(3):1242–1259, 202
Loet Leydesdorff, Alexander Tekles, and Lutz Bornmann. A proposal to revise and simplify the disruption indicator. Available at SSRN, 2020.
本文来自微信公众号:集智俱乐部(ID:swarma_org),作者:郭瑞东,审校:赵雨亭,编辑:邓一雪