主要

尽管在过去的一个世纪里,科学技术知识得到了前所未有的发展,但有人担心创新活动正在放缓181920..研究表明,半导体、制药和其他领域的研究生产率正在下降1011.论文、专利甚至拨款申请相对于以前的工作已经变得不那么新奇,也不太可能将不同的知识领域联系起来,而这两者都是创新的前兆2122.科学发现的年份与诺贝尔奖颁发时间之间的差距也有所扩大2324这表明,今天的贡献无法与过去相比。这些趋势引起了政策制定者越来越多的关注,因为它们对经济增长、人类健康和福祉、国家安全以及应对气候变化等重大挑战的全球努力构成了重大威胁2526

对于这种放缓,人们提出了许多解释。一些人指出缺乏“唾手可得的果实”,因为现成的提高生产率的创新已经实现1927.其他人则强调知识的负担越来越重;科学家和发明家需要越来越多的培训才能达到他们领域的前沿,从而使得推动这些前沿向前发展的时间越来越少1828.然而,仍有许多未知之处,不仅是创新活动放缓的原因,还有这一现象的深度和广度。这种衰退很难与科学哲学家几个世纪以来的观察相一致,他们把知识的增长描述为一个内生的过程,在这个过程中,先前的知识使未来的发现成为可能。牛顿的著名观察抓住了这一观点,他说,如果他看得更远,那就是“站在巨人的肩膀上”3..此外,迄今为止,指向放缓的证据都是基于对特定领域的研究,使用不同的和特定领域的指标1011因此,很难知道各个科学技术领域的变化是否正在以类似的速度发生。我们也不知道,总体指标中的模式是否掩盖了个人工作超越前沿程度的差异。

我们通过分析2500万篇(1945-2010)Web of Science (WoS) (方法)和美国专利商标局(USPTO)专利视图数据库(方法).WoS的数据包括3.9亿次引用,2500万篇论文标题和1300万篇摘要。专利视图的数据包括3500万次引用,390万项专利标题和390万份摘要。随后,我们在四个额外的数据集上复制了我们的核心发现——jstor、美国物理学会语料库、微软学术图和pubmed——涵盖了2000万篇论文。利用这些数据,我们加入了一个新的基于引用的测量方法12通过标题和摘要的文本分析,了解论文和专利是否随着时间的推移和跨领域形成新的方向。

破坏性的测量

为了描述创新的本质,我们借鉴了科学和技术变革的基本理论22930.,区分两种类型的突破。首先,一些贡献改善了现有的知识流,从而巩固了现状。科恩和沙姆(1965)31,一篇获得诺贝尔奖的论文利用已经建立的定理开发了一种计算电子结构的方法,这巩固了之前研究的价值。其次,一些贡献破坏了现有的知识,使其过时,并推动科学技术向新的方向发展。沃森和克里克(1953)32他提出了一种DNA结构模型,取代了以前的方法(例如鲍林的三螺旋结构)。科恩、沙姆、沃森和克里克都很重要,但他们对科学和技术变革的影响是不同的。

我们使用CD指数来量化这种区别12这是科学技术的巩固性或颠覆性的特征(图2)。1).我们的直觉是,如果一篇论文或专利是破坏性的,那么引用它的后续工作也不太可能引用它的前辈;对于未来的研究人员来说,在它的生产过程中出现的想法就不那么相关了(例如,鲍林的三螺旋结构)。如果一篇论文或专利正在整合,随后引用它的工作也更有可能引用其前身;对于未来的研究人员来说,这项工作所建立的知识仍然(也许更)相关(例如,Kohn和Sham使用的定理)。CD指数取值范围为−1(巩固)~ 1(中断)。我们在每篇论文发表五年后测量CD指数(以CD表示)5,见扩展数据图。1以分发乳糜泻5在论文和专利和扩展数据图之间。2使用其他窗口进行分析)33.例如,沃森、克里克、科恩和沙姆在发表后的五年内都收到了超过100次引用。然而,Kohn和Sham的论文有一张CD5−0.22(表明巩固),而沃森和克里克的论文有CD50.62(表示中断)。CD指数在以前的研究中得到了广泛的验证,包括与专家评估的相关性1234

图1:测量方法概述。
图1

该图显示了CD指数的可视化示意图。一个,三篇诺贝尔奖获奖论文的CD指数值313258还有三项著名的专利596061在我们的样本中,以发表后5年为衡量标准(以CD5表示)。b、乳糜泻的分布5查阅WoS的论文(n= 24,659,076),以及来自专利视图(n= 3,912,353),其中一个点代表一篇论文或专利。每个“条带”的垂直(上下)维度对应CD索引的值(左侧橙色表示的轴值)。每个条带的水平(左右)维度有助于最小化重叠点。每个条状图上较暗的区域表示分布的较密集区域(即更常见的CD)5值)。CD指数分布的附加细节在扩展数据图中给出。1c三种假设的引文网络,其中CD指数处于最大破坏值(CDt= 1),中点值(CD .t= 0),最大固结值(CDt=−1)。面板还提供了CD指数方程和说明性计算。

破裂性下降

在各个领域,我们发现科学技术的颠覆性正变得越来越小。数字2绘制平均CD5随着时间的推移,论文(图;2)和专利(图。2 b).对于论文而言,1945年至2010年间的下降幅度为91.9%(其中平均CD5“社会科学”从1945年的0.52下降到2010年的0.04)到100%(其中平均CD5“物理科学”从1945年的0.36下降到2010年的0);在专利方面,1980年至2010年间的下降范围为78.7%(其中平均CD5“计算机和通信”从1980年的0.30下降到2010年的0.06)到91.5%(其中平均CD5“药品和医疗”从1980年的0.38下降到2010年的0.03)。对于论文和专利来说,下降的速度在时间序列的早期是最大的,对于专利来说,它们似乎在2000年到2005年之间开始稳定下来。就论文而言,自1980年以来,“生命科学和生物医学”以及物理科学领域的论文数量下降速度较为温和,而社会科学和“技术”领域的论文数量下降最为显著和持续。然而,总的来说,与早期相比,最近的论文和专利对推动科学技术向新方向发展的作用较小。根据“唾手可得的果实”理论,我们在各个领域观察到的趋势的普遍相似性是值得注意的1927这可能预示着产量下降过程中存在更大的异质性,因为各领域似乎不太可能以类似的速度或时间“消耗”它们容易获得的果实。

图2:颠覆性科技的衰落。
图2

一个b,乳糜泻下降5随时间推移,个别论文(一个n= 24,659,076)和专利(bn= 3912353)。对于论文,线条对应WoS的研究领域;从1945年到2010年,下降幅度从91.9%(社会科学)到100%(自然科学)。对于专利,线对应国家经济研究局(NBER)的技术类别;从1980年到2010年,下降幅度从93.5%(计算机和通信)到96.4%(药品和医疗)。阴影带对应95%置信区间。正如我们在方法在美国,这种下降模式对随着时间的推移出版、引用和作者实践变化带来的混淆进行了稳健的调整。

源数据

语言变化

使用替代指标也可以观察到颠覆性科学技术的下降。因为它们创造了对现状的背离,颠覆性的论文和专利很可能引入新词(例如,用于创建新范式的词可能与用于发展现有范式的词不同)。3536.因此,如果颠覆性正在下降,我们可以预期科技领域使用的词汇多样性也会下降。为了评估这一点,图。3d记录了论文和专利标题随时间变化的类型-标记比率(即唯一字/总字)(补充信息部分)1).我们观察到大量的下降,特别是在早期,1970年之前的论文和1990年之前的专利。对于论文标题(图。3),下降幅度(1945-2010)从76.5%(社会科学)到88%(技术);查阅专利名称(图3 d),从1980年到2010年,降幅从32.5%(化学)到81%(计算机和通信)。对于论文摘要(扩展数据图。3), 1992-2010年下降幅度从23.1%(生命科学和生物医学)到38.9%(社会科学);查阅专利摘要(扩展数据图。3 b),下降(1980-2010)从21.5%(机械)到73.2%(计算机和通信)。在无花果。3 be,我们证明,词汇多样性的下降伴随着组合新颖性的类似下降;随着时间的推移,科学家和发明家在他们的论文和专利标题中使用的特定词语越来越有可能在以前的作品标题中一起使用过。与语言上的这些趋势一致,我们还观察到,基于先前建立的“非典型组合”衡量标准,论文和专利引用的先前工作组合的新颖性下降。14(扩展数据图。4).

图3:颠覆性科学技术的衰落可以从论文和专利语言的变化中看到。
图3

一个d,根据1945年至2010年论文标题的唯一字数/总字数计算,显示科技领域使用的语言多样性下降的数字(一个n= 24,659,076)和1980年至2010年的专利数量(dn= 3912353)。be,根据1945年至2010年WoS论文标题中每年引入的新词数量/总新词数量,显示科技语言新颖性下降的数字(b)和在Patents中查看1980年至2010年的专利标题(参考文献)。117) (e).两种类型的论文一个而且b,直线对应WoS研究区域(n= 264个WoS研究区×年观测)。这两项专利d而且e,直线对应NBER技术类别(n= 229 NBER技术类别×年观测值)。cf,在观察期的前几十年(红色)和后几十年(蓝色),最常用动词在论文标题中的出现频率(cn= 24,659,076)及专利(fn= 3,912,353)。

源数据

破坏性活动的减少也明显体现在科学家和发明家使用的特定词语上。如果颠覆性正在下降,我们推断,随着时间的推移,暗示新事物的创造、发现或感知的动词应该使用得更少,而暗示对现有事物的改进、应用或评估的动词可能会使用得更多3536.数字3.显示了论文中最常见的动词(图。3 c)和专利名称(图。3 f)(补充资料部分)2).尽管在没有上下文的情况下,精确和定量地将词语描述为“巩固”或“破坏性”是一项挑战,但该数字突出了语言的一个明显和定性的转变。在过去的几十年里,在论文和专利标题中,唤起创造(例如,“生产”、“形成”、“准备”和“制造”)、发现(例如,“确定”和“报告”)和感知(例如,“测量”)的动词非常普遍。然而,在后来的几十年里,这些动词几乎完全被那些更容易唤起人们对现有科技知识和人工制品的改进(如“改进”、“增强”和“增加”)、应用(如“使用”和“包括”)或评估(如“关联”、“调解”和“关联”)的动词所取代。综上所述,这些模式表明,随着时间的推移,科学技术发生了实质性的转变,发现和发明在本质上的破坏性越来越小,这与我们使用CD指数得出的结果一致。

保护极具破坏性的工作

我们记录的总体趋势掩盖了个别论文和专利的颠覆性的相当大的异质性,以及高度颠覆性作品的绝对数量的显著稳定性(方法和无花果。4).具体来说,尽管科学生产力大幅提高,但CD的论文和专利数量却大幅增加5分布最右端的值随着时间的推移几乎保持不变。这种高度颠覆性论文和专利的绝对数量的“守恒”保持着,尽管负责生产这些作品的基础领域出现了相当大的动荡(扩展数据图)。5插图)。这些结果表明,重大突破(例如重力波测量和COVID-19疫苗)的持续存在与创新活动放缓并不矛盾。简而言之,总体颠覆性的下降并不排除个体高度颠覆性的作品。

图4:高度破坏功的守恒。
图4

此图显示了中断论文的数量(一个n= 5,030,179)和专利(bn= 1,476,004)的四种不同范围的乳糜泻5(论文和专利CD5[−1.0,0)范围不在图中)。线对应于不同的破坏程度,由CD测量5.尽管每年发表的论文和专利数量大幅增加,但高度颠覆性的论文和专利数量几乎没有变化,这从相对平坦的红色、绿色和橙色线可以看出。这种模式有助于解释同时观察到的两种现象:一是创新活动放缓的综合证据,二是许多科学技术领域似乎出现了重大突破。插图显示了最具颠覆性的论文和专利的组成(定义为患有CD的论文和专利)5值>0.25)随时间的变化。尽管负责产生这些作品的科学和技术基础领域发生了相当大的动荡,但观察到的高度破坏性论文和专利的绝对数量保持稳定。“生命科学”指生命科学和生物医学研究领域;“电气”指电气及电子科技类别;“药品”指药品和医疗技术类别;“computers”指的是计算机和通信技术。

源数据

替代的解释

是什么推动了颠覆性的下降?早些时候,我们提出,我们的结果与将创新活动放缓与“唾手可得的果实”减少联系起来的解释不一致。扩展数据图。5通过分解CD的变异,表明破坏性的下降不太可能是由于其他领域特定的因素5受地域、作者及年份影响(方法).

破坏性活动率的下降不太可能是由科学技术质量的下降引起的2237.如果它们是,那么图中所见的模式。2在高质量的工作中不太明显。然而,当我们限制我们的样本文章发表在主要的出版场所,如自然美国国家科学院院刊而且科学或者诺贝尔奖得主的发现38(无花果。5),下跌趋势持续。

图5:高质量科学随时间变化的CD指数。
图5

这个图显示了CD的变化5随着时间的推移,论文发表在自然美国国家科学院院刊PNAS),科学(插图的情节,n= 223,745)和诺贝尔奖获奖论文(主要情节,n= 635),有几个著名的例子3132586263646566突出显示。颜色表示插图中三种不同的期刊;在主要情节中,颜色表示诺贝尔奖颁发的三个不同领域。阴影带对应95%置信区间。为了历史的完整性,我们绘制了1900年(诺贝尔奖颁发的第一年)以来所有诺贝尔论文的CD指数得分;然而,我们的主要分析开始于1945年后的时代,那时WoS的数据通常更可靠。这一数字表明,随着时间的推移,已发表科学论文质量的变化不太可能是颠覆性下降的原因。

源数据

此外,这一趋势并非由WoS和UPSTO数据的特征或我们对CD指数的特定推导所驱动;当我们计算CD时,我们观察到类似的破坏性下降5在JSTOR、美国物理学会语料库、微软学术图和PubMed (方法),计算结果见扩展数据图。6.我们进一步表明,通过使用替代衍生品报告类似的模式,下降不是CD指数的人为产物1315方法和扩展数据图。7).

颠覆性的下降也不能归因于出版、引用或作者实践的变化(方法).首先,使用文献计量学文献的方法3940414243,我们计算了CD指数的几个标准化版本,这些版本调整了论文和专利引用以前工作的增加趋势4445.使用这些替代指标的结果(扩展数据图。8d)与我们在图中报道的相似。2.其次,使用回归,我们估计了CD的模型5作为每篇论文或专利发表年份的指标变量的函数,并对领域×年份级别的新论文/专利数量、平均论文/专利引用数量、平均每篇论文的作者或发明人数量以及论文或专利级别的论文或专利引用数量等因素进行特定控制。这些模型的预测表明,颠覆性论文和专利数量下降(扩展数据图。8 be及补充表1),这与我们的主要结果一致。最后,使用蒙特卡罗模拟,我们随机地重新连接观察到的引用网络,同时保留科学家和发明家引用行为的关键特征,包括单个论文和专利的引用和接收数量,以及引用和被引用作品之间的年龄差距。我们发现观察到的CD5数值低于模拟网络的数值(扩展数据图。8c,f),而且差距正在扩大:随着时间的推移,论文和专利的破坏性越来越小,而不是偶然的预期。总之,这些额外的分析表明乳糜泻的下降5不太可能是由改变出版、引用或作者惯例所驱动。

知识和颠覆性的增长

我们还考虑了颠覆性的下降与知识增长的关系(扩展数据图。9).一方面,科学家和发明家面临着日益加重的知识负担,这可能会抑制打破现状的发现和发明。另一方面,如前所述,科学哲学家认为,现有的知识促进发现和发明3.67.使用回归模型,我们评估了领域内论文和专利存量(知识的代理)与其CD之间的关系5(补充资料部分)3.及补充表2).我们发现,知识增长对论文的破坏性有积极影响,这与之前的工作一致20.;然而,我们发现专利有负面影响。

鉴于这些相互矛盾的结果,我们考虑了知识的可用性可能与其使用不同的可能性。特别是,出版和专利申请的增长可能会导致科学家和发明家专注于以前工作的更狭窄的部分1846,从而限制了知识的“有效”存量。使用三个代理,我们记录了科学家和发明家使用先前知识的下降(图2)。6).首先,我们看到被引用工作的多样性在下降(图2)。6 a, d),表明当代科学和技术所涉及的是现有知识的更狭窄部分。此外,这种多样性的下降伴随着被引用率最高的1%的论文和专利的引用份额的增加(图2)。6(我)d(我)),语义多样性也在下降(图。6 (2)d (2)).随着时间的推移,科学家和发明家越来越多地引用以前的相同工作,而且以前的工作在主题上越来越相似。其次,我们看到自我引用的增加(图2)。6 b, e),这是一种延续现有研究流程的常见代理474849这与科学家和发明家更依赖于高度熟悉的知识是一致的。第三,被引用作品的平均年龄,这是使用过时知识的常用衡量标准505152的值逐渐增大(图;6 c f),这表明科学家和发明家可能正在努力跟上知识扩张的步伐,而依赖于更古老、熟悉的工作。所有这三个指标都指向一个一致的故事:现有知识范围的缩小正在为当代的发现和发明提供信息。

图6:论文和专利使用的是现有知识的较窄部分。
图6

一个- - - - - -f,论文之间现有科技知识使用多样性水平的变化(一个n= 264个WoS研究区×年观测值;b而且cn= 24,659,076篇论文)及专利(d, 229个NBER技术类别×年观测值;e而且fn= 3,912,353项专利),基于以下衡量标准:一个而且d)、平均自引次数(b而且e)及被引作品的平均年龄(c而且f).阴影带(bce而且f)对应95%置信区间。的插图一个而且d显示被引率最高的前1%论文的引用份额的变化(一个(我),d(i))以及随时间推移被引用最多的前1%的语义多样性(一个(2)和d(2))。这两种测量值都是在字段和年份内计算的,然后在各个字段之间求平均值,以便绘图。语义多样性基于论文和专利标题;数值对应于按领域和年份被引用最多的1%论文和专利的标题之间的标准偏差与平均成对余弦相似度(即变异系数)的比值。为了实现语义比较,使用预训练的词嵌入对标题进行向量化。对于论文,线条显示了WoS的每个研究领域;对于专利,线条显示了NBER的每个技术类别。在随后使用这些测量方法的回归分析中,我们发现,使用较少多样性的工作,更多自己的工作和较老的工作与较少破坏性的论文和专利相关(方法及扩展数据表1).

源数据

随后一系列回归模型的结果表明,使用多样性较低的工作、更多的自己的工作和较老的工作都与破坏呈负相关(方法,扩展数据表1及补充表3.),即使考虑到团队成员的平均年龄和之前作品的数量,这种模式仍然成立。当科学家和发明家使用的工作范围缩小时,破坏性活动就会减少。

讨论

总之,随着时间的推移,我们报告了颠覆性科学技术的显著下降。我们的分析表明,这一趋势不太可能是由引文实践或已发表作品质量的变化所驱动的。相反,这种下降代表了科学技术领域的实质性转变,加剧了人们对创新活动放缓的担忧。我们将这种趋势部分归因于科学家和发明家对现有知识的依赖。尽管科学哲学家们可能正确地认为,知识的增长是一个内生的过程——其中积累的理解促进了未来的发现和发明——但对广泛的现有知识的参与是这一过程发挥作用的必要条件,随着时间的推移,这一要求似乎变得更加困难。依靠更狭窄的知识领域对个人的职业生涯有利53,而不是更普遍的科学进步。

此外,尽管颠覆性作品的流行程度有所下降,但我们发现其绝对数量保持稳定。一方面,这一结果可能表明,高度颠覆性的科学技术有一个固定的“承载能力”,在这种情况下,旨在增加此类工作的政策干预可能具有挑战性。另一方面,我们对产生颠覆性科学技术的潜在领域的大量变动的观察表明,资助者和科学家的利益变化以及科技知识对突破的“成熟度”等因素的潜在重要性,在这种情况下,颠覆性工作的产生可能会对政策杠杆做出反应。无论哪种情况,我们在破坏性论文和专利的绝对数量中观察到的稳定性表明,科学和技术似乎还没有到达“无尽的边界”的尽头。还有空间让颠覆性工作为科技进步做出经常性调整。

我们的研究并非没有局限性。值得注意的是,尽管迄今为止的研究支持乳糜泻指数的有效性1234,它是一个相对较新的创新活动指标,将受益于未来关于其行为和属性的工作,特别是跨数据源和上下文的工作。系统考察不同引用实践效果的研究5455在不同的领域有所不同,这将是特别有用的。

总的来说,我们的研究结果加深了对知识进化的理解,并可能指导职业规划和科学政策。为了推广颠覆性的科学技术,可以鼓励学者广泛阅读,并给他们时间跟上快速扩张的知识前沿。大学可能会放弃对数量的关注,而更强烈地奖励研究质量56或许还会更全面地补贴一年的休假。联邦机构可能会投资于风险更大、更长期的个人奖项,以支持职业发展,而不仅仅是具体的项目57,给了学者们必要的时间,让他们走出争论,让自己远离“不发表就灭亡”的文化,写出真正有意义的作品。更全面地理解颠覆性科学技术的衰落,就有必要重新思考未来组织科学技术生产的战略。

方法

我们的数据

我们的研究重点仅限于1945年至2010年间发表的研究论文。虽然世界科学组织的数据始于1900年,但科学的规模和社会组织在战后时代发生了显著变化,因此很难与现在进行比较,而且可能具有误导性676869.我们在2010年结束了对论文的分析,因为我们的一些测量方法需要论文发表后数年的数据。WoS的数据存档了1900年至2017年间在28968种期刊上发表的6500万篇论文,其中引用量为7.35亿次。此外,WoS的数据还包括1913年至2017年间分别发表的6500万份和2900万份文献摘要的标题和全文。在排除非研究文献(例如,书评和评论)并将数据细分为1945-2010年窗口后,分析样本由n= 24,659,076篇论文。

查看数据

我们将重点限制在1976年以来授予的专利,这是在专利视图数据中可以获得机器可读记录的最早年份。与论文一样,我们在2010年结束了分析,因为一些指标需要后续年份的数据才能计算。专利视图数据是最详尽的发明历史数据来源,包括1976年至2017年间授予的650万项专利及其对应的9200万次引用。专利视图的数据包括1976年至2017年间授予的650万项专利的标题和摘要。在之前的工作之后12,我们将注意力集中在实用新型专利上,它涵盖了绝大多数专利发明(我们的数据中有91%)。在剔除非实用专利并将数据细分到1976-2010年窗口后,分析样本由n= 3912,353项专利。

高度颠覆性的论文和专利

科学和技术进步放缓的观察(和主张)越来越普遍,这不仅得到了我们报告的证据的支持,而且得到了以前从不同方法和学科角度进行的研究的支持1011181920.21222324.然而,正如正文中所指出的那样,一方面,从汇总数据观察到进展缓慢,另一方面,在许多科学技术领域——从重力波测量到人类基因组测序——不断有看似重大突破的报道,这两者之间存在紧张关系。为了调和这种矛盾,我们考虑了这样一种可能性:尽管总的来说,随着时间的推移,发现和发明的破坏性可能会更小,但以前工作中采取的高级观点可能会掩盖相当大的异质性。换句话说,进步放缓的综合证据并不排除某些发现和发明具有高度破坏性的可能性。

为了评估这种可能性,我们绘制了破坏性论文的数量(图2)。4)和专利(图。4 b),其中破坏性论文和专利被定义为CD5值> 0。在每个面板中,我们绘制了四条线,对应于CD的正数值上的四个均匀间隔的区间(0,0.25],(0.25,0.5],(0.5,0.75],(0.75,1.50])5.因此,前两个区间对应的是破坏性相对较弱的论文和专利,而后两个区间对应的是破坏性较强的论文和专利(例如,我们可能会看到如上所述的一些重大突破)。尽管每年发表的论文和专利数量大幅增加,但我们看到高度颠覆性的论文和专利数量几乎没有变化,这从相对平坦的红色、绿色和橙色线可以看出。值得注意的是,尽管负责产生最具破坏性工作的科学和技术领域的组成随着时间的推移而波动,这种破坏性工作的“守恒”仍然成立(图2)。4,插图)。总的来说,这些结果有助于解释在许多科学技术领域同时观察到的重大突破,以及进步放缓的汇总证据。

领域、年份和作者或发明人效应的相对贡献

我们的研究结果显示,随着时间的推移,科学技术的破坏性正在稳步下降。此外,我们观察到的模式在广泛的研究领域中通常是相似的,这表明导致下降的因素并非特定的科学技术领域所独有。这种下降可能是由其他因素驱动的,比如某个时间点的科学技术条件,或者产生科学技术的特定个人。例如,经济条件等外生因素可能会鼓励破坏性较小的研究或发明实践。同样,不同年代的科学家和发明家可能有不同的方法,这可能导致产生颠覆性工作的倾向或多或少。因此,我们试图了解领域、年份和作者(或发明者)因素对颠覆性科学技术衰落的相对贡献。

为此,我们分解了场、年和作者固定效应对CD指数回归模型预测能力的相对贡献。在这些回归中,观察单位是作者(或发明家)×年。我们使用细粒度子领域指标(即论文的150个WoS主题领域,专利的138个NBER子类别)输入领域固定效应。为了简单起见,我们在模型中没有包括固定效应之外的其他协变量。领域固定效果捕捉所有领域特定的因素,不因作者或年份而变化(例如,基本主题);年度固定效应捕捉了所有不因领域或作者而变化的年度特定因素(例如,通信技术状况);作者(或发明家)固定效应捕获所有与作者相关的因素,这些因素不随领域或年份而变化(例如,授予博士学位的年份)。在指定我们的模型后,我们确定了领域、年份和作者固定效应对调整后的整体模型的相对贡献R2使用Shapley-Owen分解。具体来说,考虑到n= 3组固定效应(领域,年份和作者),我们通过估计调整后的固定效应来评估每组固定效应的相对贡献R2分别是2n使用预测器的子集建立模型。然后使用博弈论中的Shapley值计算每组固定效应的相对贡献70

分析结果见扩展数据图。5,包括论文(上栏)和专利(下栏)。总条大小对应调整后的值R2对于完全指定的模型(即包含所有三组固定效应)。与我们对CD指数随时间变化图的观察结果一致,我们观察到,对于论文和专利,领域特定因素对调整后的贡献率最低R2(论文和专利分别为0.02和0.01)。相比之下,对于论文(0.20)和专利(0.17),作者固定效应似乎对模型的预测能力贡献更大。近年来进入该领域的研究人员和发明家可能面临更高的知识负担,因此求助于在现有工作的更狭窄的部分上进行构建(例如,由于更专业的博士培训),这通常会导致在未来几年产生的破坏性较小的科学和技术,这与我们的发现一致。年固定效应的模式更为复杂;尽管对于论文(0.02)和专利(0.16),不因领域或作者而异的年份特定因素比领域具有更强的解释力,但它们对后者似乎比前者更重要。综上所述,这些发现表明,相对稳定的因素在个别科学家和发明家之间有所不同,对于理解颠覆性随时间的变化可能特别重要。研究结果还证实,跨科学技术领域的特定领域因素在解释论文和专利颠覆性下降方面发挥了非常小的作用。

选择样本

我们还考虑了我们所记录的模式是否可能是我们所选择的数据源的人工产物。虽然我们在WoS和Patents View数据中观察到一致的趋势,而且这两个数据库都被Science of Science社区广泛使用,但我们的结果可能是由覆盖范围的变化(例如,随着时间的推移,从WoS中添加或排除的期刊)甚至数据错误等因素驱动的,而不是科学技术的根本变化。为了评估这种可能性,我们计算了CD5另外四个数据库——jstor、美国物理学会语料库、微软学术图谱和PubMed——的论文。我们包括了PubMed(16,774,282篇论文)、JSTOR(1,703,353篇论文)和美国物理学会(478,373篇论文)从1930年到2010年的所有记录。JSTOR数据是通过数据维护者ITHAKA (http://www.ithaka.org),与美国物理学会的数据(https://journals.aps.org/datasets).我们从印第安纳大学的CADRE下载了微软学术图数据(https://cadre.iu.edu/).PubMed数据是从国家医学图书馆FTP服务器(ftp://ftp.ncbi.nlm.nih.gov/pubmed/baseline).由于Microsoft Academic Graph的规模特别大,计算量也非常大,我们随机抽取了100万篇论文。如图扩展数据图所示。6在美国,颠覆性的下降趋势在所有样本中都很明显。

可供选择的文献计量方法

最近的几篇论文介绍了CD指数的替代规范12.我们评估了我们观察到的破坏性下降是否得到了两种替代变量的证实。对CD指数的一种批评是,只引用重点论文参考文献的论文数量主导了该指标13.Bornmann等人。13提出了\ ({{\ rm {DI}}} _ {l} ^ {{\ rm {nok}}} \)作为一种不太容易受这个问题影响的变种。CD索引的另一个潜在弱点是,它可能对没有反向引用的论文的正向引用模式的微小变化非常敏感15.Leydesdorff等人。15建议DI*作为解决这一问题的替代中断指标。因此,我们计算\ ({{\ rm {DI}}} _ {l} ^ {{\ rm {nok}}} \)在哪里l从我们的分析样本中随机抽取的10万篇论文和专利= 5和DI*。结果显示在扩展数据图中。7一个(论文)和(专利)。蓝线表示基于Bornmann等人的中断。13橙色线表示基于Leydesdorff等人的中断。15.在科学和技术领域,两种替代指标都显示,随着时间的推移,破坏程度都在下降,这与CD指数观察到的模式类似。综上所述,这些结果表明,我们所记录的中断的下降并不是我们特定操作化的人为产物。

对出版、引用和作者实践变化的稳健性

我们还考虑了我们的结果是否可以归因于出版、引用或作者实践的变化,而不是发现和发明的实质性变化。也许最关键的是,正如正文中所指出的,在我们的研究期间,出版和专利申请有了明显的扩张。这种扩展自然增加了与当前科学技术相关的先前工作的数量,因此有被引用的风险,这一模式反映在论文和专利的平均引用数量的显著增加上(也就是说,论文和专利比以前时代引用了更多的先前工作)。4445.回想一下,CD索引量化了未来的工作将重点工作与其前任一起引用的程度(即,重点工作的参考书目中的参考文献)。独立于其前身的焦点作品被更多地引用,被认为是一个社会分裂过程的证据。然而,由于论文和专利引用了更多以前的工作,一个重点工作被独立引用的概率可能会机械地下降;一项重点研究被引用的次数越多,未来的研究就越有可能将其与前一项研究一起引用,即使是偶然的。因此,可引用的论文和专利数量的增加以及科学家和发明家的平均引用数量的增加可能导致CD指数的下降。简而言之,考虑到在我们漫长的研究窗口中科学技术的显著变化,早期发表的论文和专利的CD指数可能无法与最近的年份直接比较,这反过来可能使我们关于破坏性科学技术下降的结论令人怀疑。我们使用三种不同但互补的方法来解决这些问题——归一化、回归调整和模拟。

使用归一化验证

首先,遵循文献计量学研究的惯例3940414243,我们开发了两个标准化的CD指数版本,目的是促进跨时间的比较。在CD指数的各个组成部分中,我们将注意力集中在仅引用焦点工作参考文献的论文或专利的计数上(Nk),因为这个术语似乎最有可能随着出版和专利申请的增加,以及论文和专利对以前工作的平均引用次数的增加而扩展13.较大的值Nk导致乳糜泻指数更小。因此,的显著增加Nk随着时间的推移,特别是相对于测量的其他组成部分,可能会导致向下的偏差,从而抑制我们准确比较后期和早期破坏性科学技术的能力。

我们的两个标准化CD指数版本旨在通过减弱的增加的影响来解决这种潜在的偏差Nk.在第一个版本中,我们称之为“纸张标准化”,我们从Nk焦点论文或专利对先前工作的引用次数(Nb).这种调整背后的直觉是,当一篇重点论文或专利引用了更多以前的工作时,Nk可能会更大,因为未来的工作有更多的机会引用焦点论文或专利的前辈。这种增加Nk会导致CD指数降低,尽管这并不一定是因为焦点论文或专利的破坏性较小。在第二个版本中,我们称之为“字段×年标准化”,我们进行相减Nk通过重点论文或专利的WoS研究领域或NBER技术类别中论文或专利在其发表年份中被反向引用的平均数量(我们标记此数量)\ ({N} _ {{\ rm {b}}} ^ {{\ rm {m}} {\ rm {e}} {\ rm{一}}{\ rm {N}}} \)).这种调整背后的直觉是,在科学家和发明家更倾向于引用以前工作的领域和时期,Nk也可能更大,从而导致CD指数的值更低,尽管这并不一定是因为焦点论文或专利的破坏性更小。在这种情况下Nb\ ({N} _ {{\ rm {b}}} ^ {{\ rm {m}} {\ rm {e}} {\ rm{一}}{\ rm {N}}} \)超过Nk,我们设Nk到0(即,Nk在标准化度量中从不为负)。CD指数的这两种适应性都受到科学计量学文献中既定方法的启发,并且可以理解为一种形式的“引用侧规范化”(即通过校正参考文献列表长度差异的影响来规范化)。40

在扩展数据图。8,我们分别为论文绘制了CD指数两种标准化版本随时间变化的平均值(扩展数据图)。8)和专利(扩展数据图。8 d).与我们在正文中报道的发现一致,我们继续观察到CD指数随着时间的推移而下降,这表明我们在颠覆性科学技术中观察到的模式不太可能是由引用实践的变化所驱动的。

使用回归调整进行验证

其次,我们使用基于回归的方法调整潜在的混淆。这种方法补充了刚才描述的文献计量规范化,允许我们在一般情况下解释出版、引用和作者实践中更广泛的变化(后者在规范化方法或下面描述的模拟方法中都没有直接解释),并增加了与当前科学技术相关的前期工作的数量。附表1,我们报告了预测CD的回归模型的结果5用于论文(模型1-4)和专利(模型5-8),其中包括我们研究窗口的每一年的指标变量(论文和专利的参考类别分别为1945年和1980年)。模型1和模型4是基准模型,除年度指标外不包括其他调整。在模型2和模型5中,我们添加了子领域固定效应(论文的WoS主题领域和专利的NBER技术子类别)。最后,在模型3-4和7-8中,我们为几个领域×年级别的新论文或专利数量、平均论文或专利被引用数量、平均每篇论文的作者或发明人数量以及论文或专利级别的论文或专利被引用数量特征添加控制变量,从而使我们的研究所涵盖的长时间内颠覆性科学技术的模式进行更稳健的比较。对于论文模型,我们还包括了一个针对未链接引用数量(即未在WoS中索引的作品的引用数量)的论文级控制。我们发现,包括这些控制改善了模型拟合,正如统计上显著的Wald检验所表明的相关模型。

在补充表中所示的所有八种模型中1,我们发现年份指标的系数在统计上显著且为负,并且随着时间的推移而增大,这与我们基于未调整CD报告的模式一致5值索引在主要文本(图。2).在扩展数据图。8,我们通过绘制预测的CD来可视化基于回归的方法的结果5分别为模型4(论文)和模型8(专利)中包含的每个年份指标的值。允许与原始CD进行比较5在正文中所示的值,我们以折线图的形式展示了每年所作的单独预测。如图所示,即使考虑到出版、引用和作者实践的变化,我们仍然可以持续观察到论文和专利的CD指数值的下降。

模拟验证

第三,遵循科学学的相关工作14717273,我们通过使用模拟方法考虑我们的结果是否可能是出版和引用实践中模式变化的人为产物。从本质上讲,CD指数通过描述围绕焦点论文或专利的引用网络来衡量颠覆性。然而,许多复杂的网络,甚至是由随机过程产生的网络,在常见的网络度量(例如,聚类)上显示出产生非平凡值的结构。747576.在我们的研究期间,科技引文网络经历了重大变化,节点(即论文或专利)和边缘(即引文)的数量都显著增加。因此,所观察到的中断下降可能是由于潜在引用网络的结构变化,而不是反映有意义的社会过程。

为了评估这种可能性,我们采用了网络科学的标准技术7577并进行了一项分析,我们在随机重新布线的引文网络上重新计算了CD指数。如果我们在CD指数中观察到的模式是科技引文网络结构变化的结果(例如,节点或边的数量增长),而不是有意义的社会过程,那么这些模式在经历类似结构变化的可比随机网络中也应该可见。因此,发现我们在CD指数中看到的模式与观察到的和随机引用网络不同,这将证明中断的下降不是数据的人为因素。

我们首先创建了基础引用网络的副本,在主要文本中报告的所有分析中使用的CD索引的值都基于该网络,分别用于论文和专利。对于每个引用网络(一个用于论文,一个用于专利),我们然后使用保留度的随机化算法重新连接引用。在算法的每次迭代中,从底层引用网络中选择两条边(例如,A-B和C-D),之后算法尝试交换边的两个端点(例如,A-B变成A-D, C-D变成C-B)。如果交换后A、B、C、D的度中心不变,则交换保留;否则,算法将丢弃交换并继续进行下一次迭代。在评估度中心性时,我们分别考虑“内度”(即从其他论文或专利引用到重点论文或专利)和“外度”(即从重点论文或专利引用到其他论文或专利)。此外,我们还要求在原始网络和重新布线的网络中,引用和被引用论文或专利的年龄分布相同。具体来说,只有当原始引用和候选引用的发表年份相同时,才保留互换。根据这些设计选择,我们的重布线算法应该被视为相当保守的,因为它保留了原始网络的基本结构。为了确保原始网络和重新布线的网络之间有足够的差异,需要进行多少次交换,学术界并没有达成共识; the rule we adopt here is 100 × ,在那里是网络中被重新连接的边的数量。

在之前的工作之后14,我们为观察到的论文和专利引用网络创建了10个重新布线的副本。在创建这些重新连接的引用网络之后,我们重新计算CD5.由于WoS数据规模庞大,我们的分析基于1000万篇论文的随机子样本;CD5所有专利都是在重新布线的网络上计算的。对于每一篇论文和专利,我们然后计算一个z与观察到的CD进行比较5在10个重新布线的引文网络中,对同一篇论文或专利的价值。积极的z分数表明观察到的CD5价值比偶然预期的更大(即更具破坏性);负z分数表明观察到的值更小(也就是说,更巩固)。

这些分析结果显示在扩展数据图中。8,分别为论文(扩展数据图。8 c)和专利(扩展数据图。8 f).直线对应平均值z焦点年度发表论文或专利得分。这些图表揭示了CD指数的变化模式,超出了网络结构变化的影响。我们发现,平均而言,论文和专利的破坏性往往比偶然预期的要小,而且,观察到的CD指标值与随机重新布线网络的指标值之间的差距随着时间的推移而增加,这与我们关于破坏性科学技术下降的发现是一致的。

综上所述,上述分析的结果表明,尽管在我们长期的研究窗口中,科学技术已经发生了显著的变化,特别是在出版、引用和作者实践方面,但我们使用CD指数记录的破坏性科学技术的下降不太可能是这些变化的人为产物,而是代表了发现和发明性质的实质性转变。

回归分析

我们使用回归模型评估颠覆性和使用先前知识之间的关系,预测CD5对于个人论文和专利,基于先前知识使用的三个指标——被引用的工作的多样性,平均自引用的数量和平均工作被引用的年龄。我们对引用工作多样性的衡量是在领域×年水平上衡量的;回归中包含的所有其他变量都是在论文或专利级别上定义的。为了解释潜在的混杂因素,我们的模型包括了年份和现场固定效应。年份固定效应考虑了对所有观察结果(论文或专利)产生同等影响的时变因素(例如,全球经济趋势)。领域固定效应解释了不随时间变化的领域特定因素(例如,一些领域可能内在地重视破坏性工作而不是巩固工作)。与我们的描述图相反,对于我们的回归模型,我们使用更细粒度的150个WoS“扩展科目”(例如,“生物化学和分子生物学”,“生物物理学”,“生物技术和应用微生物学”,“细胞生物学”,“发育生物学”,“进化生物学”和“微生物学”是生命科学和生物医学研究领域内的扩展科目)和38个NBER技术子类别(例如,“农业”,“食品”,“纺织”;“涂层”;“气”;“有机”; and ‘resins’ are subcategories within the chemistry technology category).

此外,我们还包括对“团队成员的平均年龄”(即“职业年龄”,定义为重点论文或专利的发表年份与每个作者或发明家发表论文或专利的第一年之间的差值)和“团队成员以前作品的平均数量”的控制。尽管自我引用率的增加可能表明科学家和发明家正变得更加专注于他们自己的工作,但这些比例也可能在一定程度上是由自我引用之前工作的数量所驱动的。同样,尽管论文和专利中引用的工作年龄的增加可能表明科学家和发明家正在努力跟上,但这也可能是由科学技术领域迅速老龄化的劳动力所驱动的7879.例如,年长的科学家和发明家可能更熟悉或更关注以前的工作,或者可能会积极抵制变化80.这些控制变量有助于解释这些不同的解释。

补充表3.显示普通最小二乘回归模型中使用的变量的汇总统计信息。引用工作的多样性由归一化熵来衡量,范围从0到1。该测量值越大,表明现有工作的引用分布越均匀;数值越低,表明现有工作的引用分布越集中。这些表表明,在给定的领域和年份中,科学和技术的归一化熵具有接近最大的平均熵0.98。一篇论文中被引用的论文中约有16%是由焦点论文的作者所引用的;专利的相应数字约为7%。论文往往依赖于较老的工作,以及比专利年龄变化更大的工作(以标准偏差衡量)。此外,平均CD5而平均CD为0.045一项专利的平均效率是0.12,这意味着平均论文的破坏性往往小于平均专利。

我们发现,使用更多样化的工作,更少自己的工作和更老的工作往往与更具破坏性的科学技术的生产有关,即使考虑到团队成员以前工作的平均年龄和数量。这些发现是基于我们的回归结果,如扩展数据表所示1.模型6和12给出了完整的回归模型。模型显示了科学和技术的一致模式,其中论文引用工作多样性的系数为正且显著(0.159,P< 0.01)和专利(0.069,P< 0.01),表明在多样化工作使用更多的领域,存在更大的颠覆性。保持所有其他变量的均值,预测CD5论文和专利的数量分别增加303.5%和1.3%,引文的多样性每增加1 s.d。自引量与总被引量之比的系数为负且显著(−0.011,P< 0.01)和专利(−0.060,P< 0.01),表明当研究人员或发明家更多地依赖自己的工作时,发现和发明的破坏性往往较小。同样保持所有其他变量的均值,预测CD5论文和专利的数量分别下降了622.9%和18.5%。增加比例。论文的平均被引工作年龄与被引工作年龄离散度之间的相互作用系数为正且显著(0.000,P< 0.01)和专利(0.001,P< 0.01),这表明,保持工作年龄的分散被引用不变,涉及较老工作的论文和专利更有可能具有破坏性。预测的乳糜泻5当被引用作品的平均年龄每增加一个s.d时,论文和专利的数量分别增加了惊人的2072.4%和58.4%。(论文和专利分别约为9年和8年),同样保持所有其他变量的均值。总之,回归结果表明,对先前知识使用的改变可能有助于产生破坏性较小的科学技术。

报告总结

有关研究设计的进一步资料,请参阅自然组合报告摘要链接到这篇文章。