摘要
科技变革理论将发现和发明视为内生过程1,2用牛顿的话说,通过让研究人员“站在巨人的肩膀上”,以前积累的知识使未来的进步成为可能。3.,4,5,6,7.近几十年来,新的科学和技术知识呈指数级增长,从而为取得重大进展创造了成熟的条件8,9.然而,与这种观点相反,研究表明,在几个主要领域的进展正在放缓10,11.在这里,我们使用了来自六个大规模数据集的4500万篇论文和390万项专利的数据,并使用了一个新的定量指标——CD指数,在60年间大规模分析了这些权利要求12-描述了论文和专利如何改变科学技术中的引用网络。我们发现,论文和专利越来越不可能在推动科学技术向新方向发展的方式上与过去决裂。这种模式普遍适用于各个领域,并且适用于多种不同的基于引文和文本的指标1,13,14,15,16,17.随后,我们将这种颠覆性的下降与以前知识使用的缩小联系起来,使我们能够将我们观察到的模式与“巨人的肩膀”观点相协调。我们发现,观察到的下降不太可能是由已发表科学论文质量、引文实践或领域特定因素的变化所驱动的。总的来说,我们的研究结果表明,颠覆速度的放缓可能反映了科学技术本质的根本性转变。
主要
尽管在过去的一个世纪里,科学技术知识得到了前所未有的发展,但有人担心创新活动正在放缓18,19,20..研究表明,半导体、制药和其他领域的研究生产率正在下降10,11.论文、专利甚至拨款申请相对于以前的工作已经变得不那么新奇,也不太可能将不同的知识领域联系起来,而这两者都是创新的前兆21,22.科学发现的年份与诺贝尔奖颁发时间之间的差距也有所扩大23,24这表明,今天的贡献无法与过去相比。这些趋势引起了政策制定者越来越多的关注,因为它们对经济增长、人类健康和福祉、国家安全以及应对气候变化等重大挑战的全球努力构成了重大威胁25,26.
对于这种放缓,人们提出了许多解释。一些人指出缺乏“唾手可得的果实”,因为现成的提高生产率的创新已经实现19,27.其他人则强调知识的负担越来越重;科学家和发明家需要越来越多的培训才能达到他们领域的前沿,从而使得推动这些前沿向前发展的时间越来越少18,28.然而,仍有许多未知之处,不仅是创新活动放缓的原因,还有这一现象的深度和广度。这种衰退很难与科学哲学家几个世纪以来的观察相一致,他们把知识的增长描述为一个内生的过程,在这个过程中,先前的知识使未来的发现成为可能。牛顿的著名观察抓住了这一观点,他说,如果他看得更远,那就是“站在巨人的肩膀上”3..此外,迄今为止,指向放缓的证据都是基于对特定领域的研究,使用不同的和特定领域的指标10,11因此,很难知道各个科学技术领域的变化是否正在以类似的速度发生。我们也不知道,总体指标中的模式是否掩盖了个人工作超越前沿程度的差异。
我们通过分析2500万篇(1945-2010)Web of Science (WoS) (方法)和美国专利商标局(USPTO)专利视图数据库(方法).WoS的数据包括3.9亿次引用,2500万篇论文标题和1300万篇摘要。专利视图的数据包括3500万次引用,390万项专利标题和390万份摘要。随后,我们在四个额外的数据集上复制了我们的核心发现——jstor、美国物理学会语料库、微软学术图和pubmed——涵盖了2000万篇论文。利用这些数据,我们加入了一个新的基于引用的测量方法12通过标题和摘要的文本分析,了解论文和专利是否随着时间的推移和跨领域形成新的方向。
破坏性的测量
为了描述创新的本质,我们借鉴了科学和技术变革的基本理论2,29,30.,区分两种类型的突破。首先,一些贡献改善了现有的知识流,从而巩固了现状。科恩和沙姆(1965)31,一篇获得诺贝尔奖的论文利用已经建立的定理开发了一种计算电子结构的方法,这巩固了之前研究的价值。其次,一些贡献破坏了现有的知识,使其过时,并推动科学技术向新的方向发展。沃森和克里克(1953)32他提出了一种DNA结构模型,取代了以前的方法(例如鲍林的三螺旋结构)。科恩、沙姆、沃森和克里克都很重要,但他们对科学和技术变革的影响是不同的。
我们使用CD指数来量化这种区别12这是科学技术的巩固性或颠覆性的特征(图2)。1).我们的直觉是,如果一篇论文或专利是破坏性的,那么引用它的后续工作也不太可能引用它的前辈;对于未来的研究人员来说,在它的生产过程中出现的想法就不那么相关了(例如,鲍林的三螺旋结构)。如果一篇论文或专利正在整合,随后引用它的工作也更有可能引用其前身;对于未来的研究人员来说,这项工作所建立的知识仍然(也许更)相关(例如,Kohn和Sham使用的定理)。CD指数取值范围为−1(巩固)~ 1(中断)。我们在每篇论文发表五年后测量CD指数(以CD表示)5,见扩展数据图。1以分发乳糜泻5在论文和专利和扩展数据图之间。2使用其他窗口进行分析)33.例如,沃森、克里克、科恩和沙姆在发表后的五年内都收到了超过100次引用。然而,Kohn和Sham的论文有一张CD5−0.22(表明巩固),而沃森和克里克的论文有CD50.62(表示中断)。CD指数在以前的研究中得到了广泛的验证,包括与专家评估的相关性12,34.
该图显示了CD指数的可视化示意图。一个,三篇诺贝尔奖获奖论文的CD指数值31,32,58还有三项著名的专利59,60,61在我们的样本中,以发表后5年为衡量标准(以CD5表示)。b、乳糜泻的分布5查阅WoS的论文(n= 24,659,076),以及来自专利视图(n= 3,912,353),其中一个点代表一篇论文或专利。每个“条带”的垂直(上下)维度对应CD索引的值(左侧橙色表示的轴值)。每个条带的水平(左右)维度有助于最小化重叠点。每个条状图上较暗的区域表示分布的较密集区域(即更常见的CD)5值)。CD指数分布的附加细节在扩展数据图中给出。1.c三种假设的引文网络,其中CD指数处于最大破坏值(CDt= 1),中点值(CD .t= 0),最大固结值(CDt=−1)。面板还提供了CD指数方程和说明性计算。
破裂性下降
在各个领域,我们发现科学技术的颠覆性正变得越来越小。数字2绘制平均CD5随着时间的推移,论文(图;2)和专利(图。2 b).对于论文而言,1945年至2010年间的下降幅度为91.9%(其中平均CD5“社会科学”从1945年的0.52下降到2010年的0.04)到100%(其中平均CD5“物理科学”从1945年的0.36下降到2010年的0);在专利方面,1980年至2010年间的下降范围为78.7%(其中平均CD5“计算机和通信”从1980年的0.30下降到2010年的0.06)到91.5%(其中平均CD5“药品和医疗”从1980年的0.38下降到2010年的0.03)。对于论文和专利来说,下降的速度在时间序列的早期是最大的,对于专利来说,它们似乎在2000年到2005年之间开始稳定下来。就论文而言,自1980年以来,“生命科学和生物医学”以及物理科学领域的论文数量下降速度较为温和,而社会科学和“技术”领域的论文数量下降最为显著和持续。然而,总的来说,与早期相比,最近的论文和专利对推动科学技术向新方向发展的作用较小。根据“唾手可得的果实”理论,我们在各个领域观察到的趋势的普遍相似性是值得注意的19,27这可能预示着产量下降过程中存在更大的异质性,因为各领域似乎不太可能以类似的速度或时间“消耗”它们容易获得的果实。
语言变化
使用替代指标也可以观察到颠覆性科学技术的下降。因为它们创造了对现状的背离,颠覆性的论文和专利很可能引入新词(例如,用于创建新范式的词可能与用于发展现有范式的词不同)。35,36.因此,如果颠覆性正在下降,我们可以预期科技领域使用的词汇多样性也会下降。为了评估这一点,图。3,d记录了论文和专利标题随时间变化的类型-标记比率(即唯一字/总字)(补充信息部分)1).我们观察到大量的下降,特别是在早期,1970年之前的论文和1990年之前的专利。对于论文标题(图。3),下降幅度(1945-2010)从76.5%(社会科学)到88%(技术);查阅专利名称(图3 d),从1980年到2010年,降幅从32.5%(化学)到81%(计算机和通信)。对于论文摘要(扩展数据图。3), 1992-2010年下降幅度从23.1%(生命科学和生物医学)到38.9%(社会科学);查阅专利摘要(扩展数据图。3 b),下降(1980-2010)从21.5%(机械)到73.2%(计算机和通信)。在无花果。3 b,e,我们证明,词汇多样性的下降伴随着组合新颖性的类似下降;随着时间的推移,科学家和发明家在他们的论文和专利标题中使用的特定词语越来越有可能在以前的作品标题中一起使用过。与语言上的这些趋势一致,我们还观察到,基于先前建立的“非典型组合”衡量标准,论文和专利引用的先前工作组合的新颖性下降。14(扩展数据图。4).
一个,d,根据1945年至2010年论文标题的唯一字数/总字数计算,显示科技领域使用的语言多样性下降的数字(一个,n= 24,659,076)和1980年至2010年的专利数量(d,n= 3912353)。b,e,根据1945年至2010年WoS论文标题中每年引入的新词数量/总新词数量,显示科技语言新颖性下降的数字(b)和在Patents中查看1980年至2010年的专利标题(参考文献)。1,17) (e).两种类型的论文一个而且b,直线对应WoS研究区域(n= 264个WoS研究区×年观测)。这两项专利d而且e,直线对应NBER技术类别(n= 229 NBER技术类别×年观测值)。c,f,在观察期的前几十年(红色)和后几十年(蓝色),最常用动词在论文标题中的出现频率(c,n= 24,659,076)及专利(f,n= 3,912,353)。
破坏性活动的减少也明显体现在科学家和发明家使用的特定词语上。如果颠覆性正在下降,我们推断,随着时间的推移,暗示新事物的创造、发现或感知的动词应该使用得更少,而暗示对现有事物的改进、应用或评估的动词可能会使用得更多35,36.数字3.显示了论文中最常见的动词(图。3 c)和专利名称(图。3 f)(补充资料部分)2).尽管在没有上下文的情况下,精确和定量地将词语描述为“巩固”或“破坏性”是一项挑战,但该数字突出了语言的一个明显和定性的转变。在过去的几十年里,在论文和专利标题中,唤起创造(例如,“生产”、“形成”、“准备”和“制造”)、发现(例如,“确定”和“报告”)和感知(例如,“测量”)的动词非常普遍。然而,在后来的几十年里,这些动词几乎完全被那些更容易唤起人们对现有科技知识和人工制品的改进(如“改进”、“增强”和“增加”)、应用(如“使用”和“包括”)或评估(如“关联”、“调解”和“关联”)的动词所取代。综上所述,这些模式表明,随着时间的推移,科学技术发生了实质性的转变,发现和发明在本质上的破坏性越来越小,这与我们使用CD指数得出的结果一致。
保护极具破坏性的工作
我们记录的总体趋势掩盖了个别论文和专利的颠覆性的相当大的异质性,以及高度颠覆性作品的绝对数量的显著稳定性(方法和无花果。4).具体来说,尽管科学生产力大幅提高,但CD的论文和专利数量却大幅增加5分布最右端的值随着时间的推移几乎保持不变。这种高度颠覆性论文和专利的绝对数量的“守恒”保持着,尽管负责生产这些作品的基础领域出现了相当大的动荡(扩展数据图)。5插图)。这些结果表明,重大突破(例如重力波测量和COVID-19疫苗)的持续存在与创新活动放缓并不矛盾。简而言之,总体颠覆性的下降并不排除个体高度颠覆性的作品。
此图显示了中断论文的数量(一个,n= 5,030,179)和专利(b,n= 1,476,004)的四种不同范围的乳糜泻5(论文和专利CD5[−1.0,0)范围不在图中)。线对应于不同的破坏程度,由CD测量5.尽管每年发表的论文和专利数量大幅增加,但高度颠覆性的论文和专利数量几乎没有变化,这从相对平坦的红色、绿色和橙色线可以看出。这种模式有助于解释同时观察到的两种现象:一是创新活动放缓的综合证据,二是许多科学技术领域似乎出现了重大突破。插图显示了最具颠覆性的论文和专利的组成(定义为患有CD的论文和专利)5值>0.25)随时间的变化。尽管负责产生这些作品的科学和技术基础领域发生了相当大的动荡,但观察到的高度破坏性论文和专利的绝对数量保持稳定。“生命科学”指生命科学和生物医学研究领域;“电气”指电气及电子科技类别;“药品”指药品和医疗技术类别;“computers”指的是计算机和通信技术。
替代的解释
是什么推动了颠覆性的下降?早些时候,我们提出,我们的结果与将创新活动放缓与“唾手可得的果实”减少联系起来的解释不一致。扩展数据图。5通过分解CD的变异,表明破坏性的下降不太可能是由于其他领域特定的因素5受地域、作者及年份影响(方法).
破坏性活动率的下降不太可能是由科学技术质量的下降引起的22,37.如果它们是,那么图中所见的模式。2在高质量的工作中不太明显。然而,当我们限制我们的样本文章发表在主要的出版场所,如自然,美国国家科学院院刊而且科学或者诺贝尔奖得主的发现38(无花果。5),下跌趋势持续。
这个图显示了CD的变化5随着时间的推移,论文发表在自然,美国国家科学院院刊(PNAS),科学(插图的情节,n= 223,745)和诺贝尔奖获奖论文(主要情节,n= 635),有几个著名的例子31,32,58,62,63,64,65,66突出显示。颜色表示插图中三种不同的期刊;在主要情节中,颜色表示诺贝尔奖颁发的三个不同领域。阴影带对应95%置信区间。为了历史的完整性,我们绘制了1900年(诺贝尔奖颁发的第一年)以来所有诺贝尔论文的CD指数得分;然而,我们的主要分析开始于1945年后的时代,那时WoS的数据通常更可靠。这一数字表明,随着时间的推移,已发表科学论文质量的变化不太可能是颠覆性下降的原因。
此外,这一趋势并非由WoS和UPSTO数据的特征或我们对CD指数的特定推导所驱动;当我们计算CD时,我们观察到类似的破坏性下降5在JSTOR、美国物理学会语料库、微软学术图和PubMed (方法),计算结果见扩展数据图。6.我们进一步表明,通过使用替代衍生品报告类似的模式,下降不是CD指数的人为产物13,15(方法和扩展数据图。7).
颠覆性的下降也不能归因于出版、引用或作者实践的变化(方法).首先,使用文献计量学文献的方法39,40,41,42,43,我们计算了CD指数的几个标准化版本,这些版本调整了论文和专利引用以前工作的增加趋势44,45.使用这些替代指标的结果(扩展数据图。8,d)与我们在图中报道的相似。2.其次,使用回归,我们估计了CD的模型5作为每篇论文或专利发表年份的指标变量的函数,并对领域×年份级别的新论文/专利数量、平均论文/专利引用数量、平均每篇论文的作者或发明人数量以及论文或专利级别的论文或专利引用数量等因素进行特定控制。这些模型的预测表明,颠覆性论文和专利数量下降(扩展数据图。8 b,e及补充表1),这与我们的主要结果一致。最后,使用蒙特卡罗模拟,我们随机地重新连接观察到的引用网络,同时保留科学家和发明家引用行为的关键特征,包括单个论文和专利的引用和接收数量,以及引用和被引用作品之间的年龄差距。我们发现观察到的CD5数值低于模拟网络的数值(扩展数据图。8c,f),而且差距正在扩大:随着时间的推移,论文和专利的破坏性越来越小,而不是偶然的预期。总之,这些额外的分析表明乳糜泻的下降5不太可能是由改变出版、引用或作者惯例所驱动。
知识和颠覆性的增长
我们还考虑了颠覆性的下降与知识增长的关系(扩展数据图。9).一方面,科学家和发明家面临着日益加重的知识负担,这可能会抑制打破现状的发现和发明。另一方面,如前所述,科学哲学家认为,现有的知识促进发现和发明3.,6,7.使用回归模型,我们评估了领域内论文和专利存量(知识的代理)与其CD之间的关系5(补充资料部分)3.及补充表2).我们发现,知识增长对论文的破坏性有积极影响,这与之前的工作一致20.;然而,我们发现专利有负面影响。
鉴于这些相互矛盾的结果,我们考虑了知识的可用性可能与其使用不同的可能性。特别是,出版和专利申请的增长可能会导致科学家和发明家专注于以前工作的更狭窄的部分18,46,从而限制了知识的“有效”存量。使用三个代理,我们记录了科学家和发明家使用先前知识的下降(图2)。6).首先,我们看到被引用工作的多样性在下降(图2)。6 a, d),表明当代科学和技术所涉及的是现有知识的更狭窄部分。此外,这种多样性的下降伴随着被引用率最高的1%的论文和专利的引用份额的增加(图2)。6(我),d(我)),语义多样性也在下降(图。6 (2),d (2)).随着时间的推移,科学家和发明家越来越多地引用以前的相同工作,而且以前的工作在主题上越来越相似。其次,我们看到自我引用的增加(图2)。6 b, e),这是一种延续现有研究流程的常见代理47,48,49这与科学家和发明家更依赖于高度熟悉的知识是一致的。第三,被引用作品的平均年龄,这是使用过时知识的常用衡量标准50,51,52的值逐渐增大(图;6 c f),这表明科学家和发明家可能正在努力跟上知识扩张的步伐,而依赖于更古老、熟悉的工作。所有这三个指标都指向一个一致的故事:现有知识范围的缩小正在为当代的发现和发明提供信息。
一个- - - - - -f,论文之间现有科技知识使用多样性水平的变化(一个,n= 264个WoS研究区×年观测值;b而且c,n= 24,659,076篇论文)及专利(d, 229个NBER技术类别×年观测值;e而且f,n= 3,912,353项专利),基于以下衡量标准:一个而且d)、平均自引次数(b而且e)及被引作品的平均年龄(c而且f).阴影带(b,c,e而且f)对应95%置信区间。的插图一个而且d显示被引率最高的前1%论文的引用份额的变化(一个(我),d(i))以及随时间推移被引用最多的前1%的语义多样性(一个(2)和d(2))。这两种测量值都是在字段和年份内计算的,然后在各个字段之间求平均值,以便绘图。语义多样性基于论文和专利标题;数值对应于按领域和年份被引用最多的1%论文和专利的标题之间的标准偏差与平均成对余弦相似度(即变异系数)的比值。为了实现语义比较,使用预训练的词嵌入对标题进行向量化。对于论文,线条显示了WoS的每个研究领域;对于专利,线条显示了NBER的每个技术类别。在随后使用这些测量方法的回归分析中,我们发现,使用较少多样性的工作,更多自己的工作和较老的工作与较少破坏性的论文和专利相关(方法及扩展数据表1).
随后一系列回归模型的结果表明,使用多样性较低的工作、更多的自己的工作和较老的工作都与破坏呈负相关(方法,扩展数据表1及补充表3.),即使考虑到团队成员的平均年龄和之前作品的数量,这种模式仍然成立。当科学家和发明家使用的工作范围缩小时,破坏性活动就会减少。
讨论
总之,随着时间的推移,我们报告了颠覆性科学技术的显著下降。我们的分析表明,这一趋势不太可能是由引文实践或已发表作品质量的变化所驱动的。相反,这种下降代表了科学技术领域的实质性转变,加剧了人们对创新活动放缓的担忧。我们将这种趋势部分归因于科学家和发明家对现有知识的依赖。尽管科学哲学家们可能正确地认为,知识的增长是一个内生的过程——其中积累的理解促进了未来的发现和发明——但对广泛的现有知识的参与是这一过程发挥作用的必要条件,随着时间的推移,这一要求似乎变得更加困难。依靠更狭窄的知识领域对个人的职业生涯有利53,而不是更普遍的科学进步。
此外,尽管颠覆性作品的流行程度有所下降,但我们发现其绝对数量保持稳定。一方面,这一结果可能表明,高度颠覆性的科学技术有一个固定的“承载能力”,在这种情况下,旨在增加此类工作的政策干预可能具有挑战性。另一方面,我们对产生颠覆性科学技术的潜在领域的大量变动的观察表明,资助者和科学家的利益变化以及科技知识对突破的“成熟度”等因素的潜在重要性,在这种情况下,颠覆性工作的产生可能会对政策杠杆做出反应。无论哪种情况,我们在破坏性论文和专利的绝对数量中观察到的稳定性表明,科学和技术似乎还没有到达“无尽的边界”的尽头。还有空间让颠覆性工作为科技进步做出经常性调整。
我们的研究并非没有局限性。值得注意的是,尽管迄今为止的研究支持乳糜泻指数的有效性12,34,它是一个相对较新的创新活动指标,将受益于未来关于其行为和属性的工作,特别是跨数据源和上下文的工作。系统考察不同引用实践效果的研究54,55在不同的领域有所不同,这将是特别有用的。
总的来说,我们的研究结果加深了对知识进化的理解,并可能指导职业规划和科学政策。为了推广颠覆性的科学技术,可以鼓励学者广泛阅读,并给他们时间跟上快速扩张的知识前沿。大学可能会放弃对数量的关注,而更强烈地奖励研究质量56或许还会更全面地补贴一年的休假。联邦机构可能会投资于风险更大、更长期的个人奖项,以支持职业发展,而不仅仅是具体的项目57,给了学者们必要的时间,让他们走出争论,让自己远离“不发表就灭亡”的文化,写出真正有意义的作品。更全面地理解颠覆性科学技术的衰落,就有必要重新思考未来组织科学技术生产的战略。
方法
我们的数据
我们的研究重点仅限于1945年至2010年间发表的研究论文。虽然世界科学组织的数据始于1900年,但科学的规模和社会组织在战后时代发生了显著变化,因此很难与现在进行比较,而且可能具有误导性67,68,69.我们在2010年结束了对论文的分析,因为我们的一些测量方法需要论文发表后数年的数据。WoS的数据存档了1900年至2017年间在28968种期刊上发表的6500万篇论文,其中引用量为7.35亿次。此外,WoS的数据还包括1913年至2017年间分别发表的6500万份和2900万份文献摘要的标题和全文。在排除非研究文献(例如,书评和评论)并将数据细分为1945-2010年窗口后,分析样本由n= 24,659,076篇论文。
查看数据
我们将重点限制在1976年以来授予的专利,这是在专利视图数据中可以获得机器可读记录的最早年份。与论文一样,我们在2010年结束了分析,因为一些指标需要后续年份的数据才能计算。专利视图数据是最详尽的发明历史数据来源,包括1976年至2017年间授予的650万项专利及其对应的9200万次引用。专利视图的数据包括1976年至2017年间授予的650万项专利的标题和摘要。在之前的工作之后12,我们将注意力集中在实用新型专利上,它涵盖了绝大多数专利发明(我们的数据中有91%)。在剔除非实用专利并将数据细分到1976-2010年窗口后,分析样本由n= 3912,353项专利。
高度颠覆性的论文和专利
科学和技术进步放缓的观察(和主张)越来越普遍,这不仅得到了我们报告的证据的支持,而且得到了以前从不同方法和学科角度进行的研究的支持10,11,18,19,20.,21,22,23,24.然而,正如正文中所指出的那样,一方面,从汇总数据观察到进展缓慢,另一方面,在许多科学技术领域——从重力波测量到人类基因组测序——不断有看似重大突破的报道,这两者之间存在紧张关系。为了调和这种矛盾,我们考虑了这样一种可能性:尽管总的来说,随着时间的推移,发现和发明的破坏性可能会更小,但以前工作中采取的高级观点可能会掩盖相当大的异质性。换句话说,进步放缓的综合证据并不排除某些发现和发明具有高度破坏性的可能性。
为了评估这种可能性,我们绘制了破坏性论文的数量(图2)。4)和专利(图。4 b),其中破坏性论文和专利被定义为CD5值> 0。在每个面板中,我们绘制了四条线,对应于CD的正数值上的四个均匀间隔的区间(0,0.25],(0.25,0.5],(0.5,0.75],(0.75,1.50])5.因此,前两个区间对应的是破坏性相对较弱的论文和专利,而后两个区间对应的是破坏性较强的论文和专利(例如,我们可能会看到如上所述的一些重大突破)。尽管每年发表的论文和专利数量大幅增加,但我们看到高度颠覆性的论文和专利数量几乎没有变化,这从相对平坦的红色、绿色和橙色线可以看出。值得注意的是,尽管负责产生最具破坏性工作的科学和技术领域的组成随着时间的推移而波动,这种破坏性工作的“守恒”仍然成立(图2)。4,插图)。总的来说,这些结果有助于解释在许多科学技术领域同时观察到的重大突破,以及进步放缓的汇总证据。
领域、年份和作者或发明人效应的相对贡献
我们的研究结果显示,随着时间的推移,科学技术的破坏性正在稳步下降。此外,我们观察到的模式在广泛的研究领域中通常是相似的,这表明导致下降的因素并非特定的科学技术领域所独有。这种下降可能是由其他因素驱动的,比如某个时间点的科学技术条件,或者产生科学技术的特定个人。例如,经济条件等外生因素可能会鼓励破坏性较小的研究或发明实践。同样,不同年代的科学家和发明家可能有不同的方法,这可能导致产生颠覆性工作的倾向或多或少。因此,我们试图了解领域、年份和作者(或发明者)因素对颠覆性科学技术衰落的相对贡献。
为此,我们分解了场、年和作者固定效应对CD指数回归模型预测能力的相对贡献。在这些回归中,观察单位是作者(或发明家)×年。我们使用细粒度子领域指标(即论文的150个WoS主题领域,专利的138个NBER子类别)输入领域固定效应。为了简单起见,我们在模型中没有包括固定效应之外的其他协变量。领域固定效果捕捉所有领域特定的因素,不因作者或年份而变化(例如,基本主题);年度固定效应捕捉了所有不因领域或作者而变化的年度特定因素(例如,通信技术状况);作者(或发明家)固定效应捕获所有与作者相关的因素,这些因素不随领域或年份而变化(例如,授予博士学位的年份)。在指定我们的模型后,我们确定了领域、年份和作者固定效应对调整后的整体模型的相对贡献R2使用Shapley-Owen分解。具体来说,考虑到n= 3组固定效应(领域,年份和作者),我们通过估计调整后的固定效应来评估每组固定效应的相对贡献R2分别是2n使用预测器的子集建立模型。然后使用博弈论中的Shapley值计算每组固定效应的相对贡献70.
分析结果见扩展数据图。5,包括论文(上栏)和专利(下栏)。总条大小对应调整后的值R2对于完全指定的模型(即包含所有三组固定效应)。与我们对CD指数随时间变化图的观察结果一致,我们观察到,对于论文和专利,领域特定因素对调整后的贡献率最低R2(论文和专利分别为0.02和0.01)。相比之下,对于论文(0.20)和专利(0.17),作者固定效应似乎对模型的预测能力贡献更大。近年来进入该领域的研究人员和发明家可能面临更高的知识负担,因此求助于在现有工作的更狭窄的部分上进行构建(例如,由于更专业的博士培训),这通常会导致在未来几年产生的破坏性较小的科学和技术,这与我们的发现一致。年固定效应的模式更为复杂;尽管对于论文(0.02)和专利(0.16),不因领域或作者而异的年份特定因素比领域具有更强的解释力,但它们对后者似乎比前者更重要。综上所述,这些发现表明,相对稳定的因素在个别科学家和发明家之间有所不同,对于理解颠覆性随时间的变化可能特别重要。研究结果还证实,跨科学技术领域的特定领域因素在解释论文和专利颠覆性下降方面发挥了非常小的作用。
选择样本
我们还考虑了我们所记录的模式是否可能是我们所选择的数据源的人工产物。虽然我们在WoS和Patents View数据中观察到一致的趋势,而且这两个数据库都被Science of Science社区广泛使用,但我们的结果可能是由覆盖范围的变化(例如,随着时间的推移,从WoS中添加或排除的期刊)甚至数据错误等因素驱动的,而不是科学技术的根本变化。为了评估这种可能性,我们计算了CD5另外四个数据库——jstor、美国物理学会语料库、微软学术图谱和PubMed——的论文。我们包括了PubMed(16,774,282篇论文)、JSTOR(1,703,353篇论文)和美国物理学会(478,373篇论文)从1930年到2010年的所有记录。JSTOR数据是通过数据维护者ITHAKA (http://www.ithaka.org),与美国物理学会的数据(https://journals.aps.org/datasets).我们从印第安纳大学的CADRE下载了微软学术图数据(https://cadre.iu.edu/).PubMed数据是从国家医学图书馆FTP服务器(ftp://ftp.ncbi.nlm.nih.gov/pubmed/baseline).由于Microsoft Academic Graph的规模特别大,计算量也非常大,我们随机抽取了100万篇论文。如图扩展数据图所示。6在美国,颠覆性的下降趋势在所有样本中都很明显。
可供选择的文献计量方法
最近的几篇论文介绍了CD指数的替代规范12.我们评估了我们观察到的破坏性下降是否得到了两种替代变量的证实。对CD指数的一种批评是,只引用重点论文参考文献的论文数量主导了该指标13.Bornmann等人。13提出了\ ({{\ rm {DI}}} _ {l} ^ {{\ rm {nok}}} \)作为一种不太容易受这个问题影响的变种。CD索引的另一个潜在弱点是,它可能对没有反向引用的论文的正向引用模式的微小变化非常敏感15.Leydesdorff等人。15建议DI*作为解决这一问题的替代中断指标。因此,我们计算\ ({{\ rm {DI}}} _ {l} ^ {{\ rm {nok}}} \)在哪里l从我们的分析样本中随机抽取的10万篇论文和专利= 5和DI*。结果显示在扩展数据图中。7一个(论文)和(专利)。蓝线表示基于Bornmann等人的中断。13橙色线表示基于Leydesdorff等人的中断。15.在科学和技术领域,两种替代指标都显示,随着时间的推移,破坏程度都在下降,这与CD指数观察到的模式类似。综上所述,这些结果表明,我们所记录的中断的下降并不是我们特定操作化的人为产物。
对出版、引用和作者实践变化的稳健性
我们还考虑了我们的结果是否可以归因于出版、引用或作者实践的变化,而不是发现和发明的实质性变化。也许最关键的是,正如正文中所指出的,在我们的研究期间,出版和专利申请有了明显的扩张。这种扩展自然增加了与当前科学技术相关的先前工作的数量,因此有被引用的风险,这一模式反映在论文和专利的平均引用数量的显著增加上(也就是说,论文和专利比以前时代引用了更多的先前工作)。44,45.回想一下,CD索引量化了未来的工作将重点工作与其前任一起引用的程度(即,重点工作的参考书目中的参考文献)。独立于其前身的焦点作品被更多地引用,被认为是一个社会分裂过程的证据。然而,由于论文和专利引用了更多以前的工作,一个重点工作被独立引用的概率可能会机械地下降;一项重点研究被引用的次数越多,未来的研究就越有可能将其与前一项研究一起引用,即使是偶然的。因此,可引用的论文和专利数量的增加以及科学家和发明家的平均引用数量的增加可能导致CD指数的下降。简而言之,考虑到在我们漫长的研究窗口中科学技术的显著变化,早期发表的论文和专利的CD指数可能无法与最近的年份直接比较,这反过来可能使我们关于破坏性科学技术下降的结论令人怀疑。我们使用三种不同但互补的方法来解决这些问题——归一化、回归调整和模拟。
使用归一化验证
首先,遵循文献计量学研究的惯例39,40,41,42,43,我们开发了两个标准化的CD指数版本,目的是促进跨时间的比较。在CD指数的各个组成部分中,我们将注意力集中在仅引用焦点工作参考文献的论文或专利的计数上(Nk),因为这个术语似乎最有可能随着出版和专利申请的增加,以及论文和专利对以前工作的平均引用次数的增加而扩展13.较大的值Nk导致乳糜泻指数更小。因此,的显著增加Nk随着时间的推移,特别是相对于测量的其他组成部分,可能会导致向下的偏差,从而抑制我们准确比较后期和早期破坏性科学技术的能力。
我们的两个标准化CD指数版本旨在通过减弱的增加的影响来解决这种潜在的偏差Nk.在第一个版本中,我们称之为“纸张标准化”,我们从Nk焦点论文或专利对先前工作的引用次数(Nb).这种调整背后的直觉是,当一篇重点论文或专利引用了更多以前的工作时,Nk可能会更大,因为未来的工作有更多的机会引用焦点论文或专利的前辈。这种增加Nk会导致CD指数降低,尽管这并不一定是因为焦点论文或专利的破坏性较小。在第二个版本中,我们称之为“字段×年标准化”,我们进行相减Nk通过重点论文或专利的WoS研究领域或NBER技术类别中论文或专利在其发表年份中被反向引用的平均数量(我们标记此数量)\ ({N} _ {{\ rm {b}}} ^ {{\ rm {m}} {\ rm {e}} {\ rm{一}}{\ rm {N}}} \)).这种调整背后的直觉是,在科学家和发明家更倾向于引用以前工作的领域和时期,Nk也可能更大,从而导致CD指数的值更低,尽管这并不一定是因为焦点论文或专利的破坏性更小。在这种情况下Nb或\ ({N} _ {{\ rm {b}}} ^ {{\ rm {m}} {\ rm {e}} {\ rm{一}}{\ rm {N}}} \)超过Nk,我们设Nk到0(即,Nk在标准化度量中从不为负)。CD指数的这两种适应性都受到科学计量学文献中既定方法的启发,并且可以理解为一种形式的“引用侧规范化”(即通过校正参考文献列表长度差异的影响来规范化)。40.
在扩展数据图。8,我们分别为论文绘制了CD指数两种标准化版本随时间变化的平均值(扩展数据图)。8)和专利(扩展数据图。8 d).与我们在正文中报道的发现一致,我们继续观察到CD指数随着时间的推移而下降,这表明我们在颠覆性科学技术中观察到的模式不太可能是由引用实践的变化所驱动的。
使用回归调整进行验证
其次,我们使用基于回归的方法调整潜在的混淆。这种方法补充了刚才描述的文献计量规范化,允许我们在一般情况下解释出版、引用和作者实践中更广泛的变化(后者在规范化方法或下面描述的模拟方法中都没有直接解释),并增加了与当前科学技术相关的前期工作的数量。附表1,我们报告了预测CD的回归模型的结果5用于论文(模型1-4)和专利(模型5-8),其中包括我们研究窗口的每一年的指标变量(论文和专利的参考类别分别为1945年和1980年)。模型1和模型4是基准模型,除年度指标外不包括其他调整。在模型2和模型5中,我们添加了子领域固定效应(论文的WoS主题领域和专利的NBER技术子类别)。最后,在模型3-4和7-8中,我们为几个领域×年级别的新论文或专利数量、平均论文或专利被引用数量、平均每篇论文的作者或发明人数量以及论文或专利级别的论文或专利被引用数量特征添加控制变量,从而使我们的研究所涵盖的长时间内颠覆性科学技术的模式进行更稳健的比较。对于论文模型,我们还包括了一个针对未链接引用数量(即未在WoS中索引的作品的引用数量)的论文级控制。我们发现,包括这些控制改善了模型拟合,正如统计上显著的Wald检验所表明的相关模型。
在补充表中所示的所有八种模型中1,我们发现年份指标的系数在统计上显著且为负,并且随着时间的推移而增大,这与我们基于未调整CD报告的模式一致5值索引在主要文本(图。2).在扩展数据图。8,我们通过绘制预测的CD来可视化基于回归的方法的结果5分别为模型4(论文)和模型8(专利)中包含的每个年份指标的值。允许与原始CD进行比较5在正文中所示的值,我们以折线图的形式展示了每年所作的单独预测。如图所示,即使考虑到出版、引用和作者实践的变化,我们仍然可以持续观察到论文和专利的CD指数值的下降。
模拟验证
第三,遵循科学学的相关工作14,71,72,73,我们通过使用模拟方法考虑我们的结果是否可能是出版和引用实践中模式变化的人为产物。从本质上讲,CD指数通过描述围绕焦点论文或专利的引用网络来衡量颠覆性。然而,许多复杂的网络,甚至是由随机过程产生的网络,在常见的网络度量(例如,聚类)上显示出产生非平凡值的结构。74,75,76.在我们的研究期间,科技引文网络经历了重大变化,节点(即论文或专利)和边缘(即引文)的数量都显著增加。因此,所观察到的中断下降可能是由于潜在引用网络的结构变化,而不是反映有意义的社会过程。
为了评估这种可能性,我们采用了网络科学的标准技术75,77并进行了一项分析,我们在随机重新布线的引文网络上重新计算了CD指数。如果我们在CD指数中观察到的模式是科技引文网络结构变化的结果(例如,节点或边的数量增长),而不是有意义的社会过程,那么这些模式在经历类似结构变化的可比随机网络中也应该可见。因此,发现我们在CD指数中看到的模式与观察到的和随机引用网络不同,这将证明中断的下降不是数据的人为因素。
我们首先创建了基础引用网络的副本,在主要文本中报告的所有分析中使用的CD索引的值都基于该网络,分别用于论文和专利。对于每个引用网络(一个用于论文,一个用于专利),我们然后使用保留度的随机化算法重新连接引用。在算法的每次迭代中,从底层引用网络中选择两条边(例如,A-B和C-D),之后算法尝试交换边的两个端点(例如,A-B变成A-D, C-D变成C-B)。如果交换后A、B、C、D的度中心不变,则交换保留;否则,算法将丢弃交换并继续进行下一次迭代。在评估度中心性时,我们分别考虑“内度”(即从其他论文或专利引用到重点论文或专利)和“外度”(即从重点论文或专利引用到其他论文或专利)。此外,我们还要求在原始网络和重新布线的网络中,引用和被引用论文或专利的年龄分布相同。具体来说,只有当原始引用和候选引用的发表年份相同时,才保留互换。根据这些设计选择,我们的重布线算法应该被视为相当保守的,因为它保留了原始网络的基本结构。为了确保原始网络和重新布线的网络之间有足够的差异,需要进行多少次交换,学术界并没有达成共识; the rule we adopt here is 100 × 米,在那里米是网络中被重新连接的边的数量。
在之前的工作之后14,我们为观察到的论文和专利引用网络创建了10个重新布线的副本。在创建这些重新连接的引用网络之后,我们重新计算CD5.由于WoS数据规模庞大,我们的分析基于1000万篇论文的随机子样本;CD5所有专利都是在重新布线的网络上计算的。对于每一篇论文和专利,我们然后计算一个z与观察到的CD进行比较5在10个重新布线的引文网络中,对同一篇论文或专利的价值。积极的z分数表明观察到的CD5价值比偶然预期的更大(即更具破坏性);负z分数表明观察到的值更小(也就是说,更巩固)。
这些分析结果显示在扩展数据图中。8,分别为论文(扩展数据图。8 c)和专利(扩展数据图。8 f).直线对应平均值z焦点年度发表论文或专利得分。这些图表揭示了CD指数的变化模式,超出了网络结构变化的影响。我们发现,平均而言,论文和专利的破坏性往往比偶然预期的要小,而且,观察到的CD指标值与随机重新布线网络的指标值之间的差距随着时间的推移而增加,这与我们关于破坏性科学技术下降的发现是一致的。
综上所述,上述分析的结果表明,尽管在我们长期的研究窗口中,科学技术已经发生了显著的变化,特别是在出版、引用和作者实践方面,但我们使用CD指数记录的破坏性科学技术的下降不太可能是这些变化的人为产物,而是代表了发现和发明性质的实质性转变。
回归分析
我们使用回归模型评估颠覆性和使用先前知识之间的关系,预测CD5对于个人论文和专利,基于先前知识使用的三个指标——被引用的工作的多样性,平均自引用的数量和平均工作被引用的年龄。我们对引用工作多样性的衡量是在领域×年水平上衡量的;回归中包含的所有其他变量都是在论文或专利级别上定义的。为了解释潜在的混杂因素,我们的模型包括了年份和现场固定效应。年份固定效应考虑了对所有观察结果(论文或专利)产生同等影响的时变因素(例如,全球经济趋势)。领域固定效应解释了不随时间变化的领域特定因素(例如,一些领域可能内在地重视破坏性工作而不是巩固工作)。与我们的描述图相反,对于我们的回归模型,我们使用更细粒度的150个WoS“扩展科目”(例如,“生物化学和分子生物学”,“生物物理学”,“生物技术和应用微生物学”,“细胞生物学”,“发育生物学”,“进化生物学”和“微生物学”是生命科学和生物医学研究领域内的扩展科目)和38个NBER技术子类别(例如,“农业”,“食品”,“纺织”;“涂层”;“气”;“有机”; and ‘resins’ are subcategories within the chemistry technology category).
此外,我们还包括对“团队成员的平均年龄”(即“职业年龄”,定义为重点论文或专利的发表年份与每个作者或发明家发表论文或专利的第一年之间的差值)和“团队成员以前作品的平均数量”的控制。尽管自我引用率的增加可能表明科学家和发明家正变得更加专注于他们自己的工作,但这些比例也可能在一定程度上是由自我引用之前工作的数量所驱动的。同样,尽管论文和专利中引用的工作年龄的增加可能表明科学家和发明家正在努力跟上,但这也可能是由科学技术领域迅速老龄化的劳动力所驱动的78,79.例如,年长的科学家和发明家可能更熟悉或更关注以前的工作,或者可能会积极抵制变化80.这些控制变量有助于解释这些不同的解释。
补充表3.显示普通最小二乘回归模型中使用的变量的汇总统计信息。引用工作的多样性由归一化熵来衡量,范围从0到1。该测量值越大,表明现有工作的引用分布越均匀;数值越低,表明现有工作的引用分布越集中。这些表表明,在给定的领域和年份中,科学和技术的归一化熵具有接近最大的平均熵0.98。一篇论文中被引用的论文中约有16%是由焦点论文的作者所引用的;专利的相应数字约为7%。论文往往依赖于较老的工作,以及比专利年龄变化更大的工作(以标准偏差衡量)。此外,平均CD5而平均CD为0.045一项专利的平均效率是0.12,这意味着平均论文的破坏性往往小于平均专利。
我们发现,使用更多样化的工作,更少自己的工作和更老的工作往往与更具破坏性的科学技术的生产有关,即使考虑到团队成员以前工作的平均年龄和数量。这些发现是基于我们的回归结果,如扩展数据表所示1.模型6和12给出了完整的回归模型。模型显示了科学和技术的一致模式,其中论文引用工作多样性的系数为正且显著(0.159,P< 0.01)和专利(0.069,P< 0.01),表明在多样化工作使用更多的领域,存在更大的颠覆性。保持所有其他变量的均值,预测CD5论文和专利的数量分别增加303.5%和1.3%,引文的多样性每增加1 s.d。自引量与总被引量之比的系数为负且显著(−0.011,P< 0.01)和专利(−0.060,P< 0.01),表明当研究人员或发明家更多地依赖自己的工作时,发现和发明的破坏性往往较小。同样保持所有其他变量的均值,预测CD5论文和专利的数量分别下降了622.9%和18.5%。增加比例。论文的平均被引工作年龄与被引工作年龄离散度之间的相互作用系数为正且显著(0.000,P< 0.01)和专利(0.001,P< 0.01),这表明,保持工作年龄的分散被引用不变,涉及较老工作的论文和专利更有可能具有破坏性。预测的乳糜泻5当被引用作品的平均年龄每增加一个s.d时,论文和专利的数量分别增加了惊人的2072.4%和58.4%。(论文和专利分别约为9年和8年),同样保持所有其他变量的均值。总之,回归结果表明,对先前知识使用的改变可能有助于产生破坏性较小的科学技术。
报告总结
有关研究设计的进一步资料,请参阅自然组合报告摘要链接到这篇文章。
数据可用性
与本研究相关的数据可在公共存储库中免费获得https://doi.org/10.5281/zenodo.7258379.我们的研究利用了六个来源的数据:美国物理学会、JSTOR、微软学术图、专利视图、PubMed和WoS。来自微软学术图、专利视图和PubMed的数据是公开的,我们的存储库包括来自这些来源的分析的完整数据。来自美国物理学会、JSTOR和WoS的数据尚未公开,并在各自出版商的许可下使用。为了便于复制,我们的存储库包括来自这些来源的有限版本的数据,这将能够计算基本的描述性统计数据。作者将根据要求并获得各自出版商的许可,提供这些数据的完整版本。源数据提供了这篇论文。
代码的可用性
与本研究相关的开放源代码可在https://doi.org/10.5281/zenodo.7258379而且http://www.cdindex.info.我们使用Python v.3.10.6 (pandas v.1.4.3, numpy v.1.23.1, matplotlib v.3.5.2, seaborn v.0.11.2, spacy v.2.2, jupyterlab v.3.4.4)来整理、分析和可视化数据并进行统计分析。我们使用MariaDB v.10.6.4来处理数据。我们使用R v.4.2.1 (ggplot2 v.3.36, ggrepel v.0.9.0)来可视化数据。我们使用StataMP v.17.0 (reghdfe v.5.7.3)进行统计分析。
参考文献
技术搜索中的重组不确定性。管理。科学。47, 117-132(2001)。
熊彼特,J。资本主义,社会主义和民主(多年生,1942)。
Koyré, A.罗伯特·胡克写给艾萨克·牛顿的一封未发表的信。伊西斯43, 312-337(1952)。
波普尔,K。猜想与反驳:科学知识的增长(出版社,2014)。
斑点,L。科学事实的起源与发展(芝加哥大学出版社,2012)。
阿西莫格鲁,阿克cigit, U. & Kerr, W. R.创新网络。国家科学院学报美国113, 11483-11488(2016)。
重组生长。经济学。113, 331-360(1998)。
崔亚,洛雷托,V., Servedio, V. D. P. & Strogatz, S. H.相关新奇事物的动力学。科学。代表。4, 1-8(2014)。
芬克,t.m.a.,里夫斯,M.,帕尔玛,R. &法尔,R. S.快速创新中的机缘巧合与策略。Commun Nat。8, 1-9(2017)。
帕莫里,F.,马嘉齐尼,L.和里卡波尼,M.制药研发的生产力危机。Nat. Rev.药物发现10, 428-438(2011)。
布鲁姆,N.琼斯,C. I.,范·里南,J. &韦布,M.创意越来越难找了吗?点。经济学。牧师。110, 1104-1144(2020)。
冯克,R. J. &欧文-史密斯,J.技术变革的动态网络测量。管理。科学。63, 791-817(2017)。
Bornmann, L., Devarakonda, S., Tekles, A. & Chacko, G.中断指数指标收敛有效吗?几个指标变量与同行评估的比较。科学量化。钉。1, 1242-1259(2020)。
Uzzi, B, Mukherjee, S, Stringer, M. & Jones, B.非典型组合与科学影响。科学342, 468-472(2013)。
莱德斯多夫,L., Tekles, A. & Bornmann, L.关于修正颠覆指数的建议。正教授。30., e300121(2021)。
Lu, C.等。分析语言的复杂性和科学影响。j . Informetr。13, 817-829(2019)。
霍夫斯特拉等人。科学中的多样性-创新悖论。国家科学院学报美国117, 9284-9291(2020)。
知识的负担和“文艺复兴人的死亡”:创新变得越来越难了吗?启经济学。钉。76, 283-317(2009)。
戈登,r.j.。美国经济增长的兴衰(普林斯顿大学出版社,2016)。
朱,J. S. G. &埃文斯,J. A.在大型科学领域减缓了规范的进展。国家科学院学报美国118, e2021636118(2021)。
Packalen, M. & Bhattacharya, J.国家卫生研究院资助和追求边缘科学。国家科学院学报美国117, 12011-12016(2020)。
贾菲,A. B. &勒纳,J。创新及其不满:我们破碎的专利制度如何危及创新和进步,以及如何应对(普林斯顿大学出版社,2011)。
Horgan, J。科学的终结:在科学时代的黄昏中面对知识的极限(Basic Books, 2015)。
科里森,P. & Nielsen, M。科学的回报越来越少(大西洋,2018)。
人工智能和科学的未来。oecd.ai,https://oecd.ai/en/wonk/ai-future-of-science(2021年10月25日)。
促进高风险/高回报研究的有效政策。OECD科学、技术和产业政策文件(OECD, 2021年)。
考恩,T。《大停滞:美国如何吃掉了近代史上所有唾手可得的果实,生病了,(最终)会感觉好起来(企鹅出版社,2011)。
爱因斯坦,一个。我眼中的世界(城堡出版社,1949)。
发明的结构。政策》36, 274-287(2007)。
图斯曼,M. L.安德森,P.技术不连续性与组织环境。海军上将科学。Q。31, 439-465(1986)。
Kohn, W. & Sham, L. J.自洽方程,包括交换和相关效应。理论物理。牧师。140, a1133(1965)。
沃森,J. D.和克里克,F. H. C.核酸的分子结构:脱氧核糖核酸的结构。自然171, 737-738(1953)。
Bornmann, L. & Tekles, A.中断指数取决于引用窗口的长度。正教授。28, e280207(2019)。
吴丽丽,王德华,吴志强,吴志强。大团队发展科学技术,小团队破坏科学技术。自然566, 378-382(2019)。
库恩,t.s.《科学革命的结构(芝加哥大学出版社,1962)。
布拉德·雷,k·库恩以及范式的发现。费罗斯。Soc。科学。41, 380-397(2011)。
为什么大多数发表的研究结果都是错误的。科学硕士。2, e124(2005)。
李俊,尹勇,王栋,李俊。诺贝尔奖获得者的发表记录数据集。科学。数据6, 1-10(2019)。
Bornmann, L. & Marx, W.文献计量学中标准化引文影响评分的生成方法:哪种方法最能反映专家的判断?j . Informetr。9, 408-418(2015)。
关于引文影响指标的文献综述。j . Informetr。10, 365-391(2016)。
Waltman, L. & van Eck, n.j.施普林格科技指标手册(eds。Glänzel, W.等人)281-300(施普林格,2019)。
文献计量学中的引文影响如何标准化?一种结合引用方标准化和引用百分位数的新方法。科学量化。钉。1, 1553-1569(2020)。
彼得森,潘瑞凯,潘莫里,潘瑞明。研究评价中引文膨胀的计算方法。政策》48, 1855-1865(2019)。
Bornmann, L. & Mutz, R.现代科学的增长率:基于出版物数量和引用文献的文献计量学分析。j . Assoc。正,科学。抛光工艺。66, 2215-2222(2015)。
Bornmann, L., Haunschild, R. & Mutz, R.现代科学的增长率:一种潜在的分段增长曲线方法,用于从已建立和新的文献数据库中建模出版数量。Humanit。Soc。科学。Commun。8, 1-15(2021)。
琼斯,B. F. &温伯格,B. A.科学创造力的年龄动力。国家科学院学报美国108, 18910-18914(2011)。
引用的动机:自我引用与他人引用的比较。科学计量学21, 245-254(1991)。
福勒,J. &阿克斯尼斯,D.自我引用有价值吗?科学计量学72, 427-437(2007)。
King, m.m., Bergstrom, C. T., Correll, s.j, Jacquet, J. & West, J. D.男性把他们自己的引用设定得很高:性别和跨领域和跨时间的自我引用。同事3., 2378023117738903(2017)。
穆克吉,S.,罗梅罗,D. M.,琼斯,B.和乌兹,B.在过去的知识时代和明天的科学技术突破之间的几乎普遍的联系:热点。科学。睡觉。3., e1601315(2017)。
《科学发现中的单例与多重:科学社会学的一章》。Proc。。费罗斯。Soc。105, 470-486(1961)。
王东,宋超& Barabási, a.l。量化长期科学影响。科学342, 127-132(2013)。
不仅仅是生产力:可见度和专业化如何促进学术收益。点。Sociol。牧师。72, 533-561(2007)。
Tahamtan, I. & Bornmann, L.引用出版物过程中的核心要素:文献的概念概述。j . Informetr。12, 203-216(2018)。
Tahamtan, I. & Bornmann, L.引用计数衡量什么?对2006年至2018年发表的科学文献引用的最新研究综述。科学计量学121, 1635-1684(2019)。
巴塔查里亚,J. &帕卡伦,M.;停滞与科学激励(工作文件26752),https://www.nber.org/papers/w26752(2020)。
阿祖莱,P.,格拉夫Zivin, J. S. &曼索,G.激励与创造力:来自学术生命科学的证据。兰德J.经济学。42, 527-554(2011)。
病毒RNA依赖性DNA聚合酶:RNA肿瘤病毒病毒粒子中RNA依赖性DNA聚合酶。自然226, 1209-1211(1970)。
链接数据库中节点排序的方法。美国专利6,285,999(2001)。
阿克塞尔,R.,维格勒,M. H.和西尔弗斯坦,S. J.插入DNA到真核细胞和生产蛋白质物质的过程。美国专利4,634,665(1983)。
大豆品种SE90346。美国专利6,958,436(2005)。
Katsuki, T. & Sharpless, K. B.第一种实用的不对称环氧化方法。j。化学。Soc。102, 5974-5976(1980)。
里斯,a.g.,等。来自超新星的观测证据表明宇宙加速和宇宙常数。阿斯特朗。J。116, 1009(1998)。
狄拉克,p.a.m.电子的量子理论。Proc. R. Soc。Lond。一个数学。理论物理。科学。117, 610-624(1928)。
桑格,F., Nicklen, S. & Coulson, A. R. DNA测序链终止抑制剂。国家科学院学报美国74, 5463-5467(1977)。
贝德诺兹,J. G. & Müller, K. A.可能的高TcBa-La-Cu-O体系的超导性。z。B提供者。事64, 189-193(1986)。
伍奇蒂,琼斯,B. F.和乌兹,B.团队在知识生产中的主导地位日益增强。科学316, 1036-1039(2007)。
Guimera, R., Uzzi, B., Spiro, J. & Amaral, L. A. N.团队组装机制决定协作网络结构和团队绩效。科学308, 697-702(2005)。
琼斯,B. F., Wuchty, S. & Uzzi, B.多大学研究团队:科学中的转移影响、地理和分层。科学322, 1259-1262(2008)。
Grömping, U.基于方差分解的线性回归中相对重要的估计量。点。统计。61, 139-147(2007)。
穆克吉,S., Uzzi, B., Jones, B. & Stringer, M.识别与高影响力创新相关的现有知识重组的新方法。d.创新;管理。33, 224-236(2016)。
克里斯提森,N. H.,塞斯莫尔·布莱文斯,A. &巴塞特,d.s.数学文本中语义网络的结构和演化。Proc. R. Soc。一个476, 20190741(2020)。
科学合作网络的结构。国家科学院学报美国98, 404-409(2001)。
科学合作网络。一、网络建设及基本成果。理论物理。启E64, 016131(2001)。
合作与创造力:小世界问题。点。j . Sociol。111, 447-504(2005)。
充分利用你所处的位置:组织中的地理位置、网络和创新。学会管理。J。57, 193-222(2014)。
巴斯A.-L。网络科学(剑桥大学出版社,2016)。
布劳,D. M. &温伯格,B. A.为什么美国科学和工程劳动力正在迅速老龄化。国家科学院学报美国114, 3879-3884(2017)。
崔浩,吴林,埃文斯,J. A.老化的科学家和缓慢的进步。预印在https://doi.org/10.48550/arXiv.2202.04044(2022)。
阿祖莱,P.,丰斯-罗森,C.和格拉夫·齐文,J. S.科学是一次推进一个葬礼吗?点。经济学。牧师。109, 2889-2920(2019)。
确认
本研究得到了美国国家科学基金会(资助号1829168,1932596和1829302)的支持。
作者信息
作者及隶属关系
贡献
R.J.F.和E.L.共同为研究的概念和设计做出了贡献。R.J.F.和M.P.合作对数据的获取、分析和解释做出了贡献。rj.f.开发了用于研究的软件。r.j.f.、E.L.和M.P.共同起草并修改了手稿。
相应的作者
道德声明
相互竞争的利益
作者声明没有利益竞争。
同行评审
同行评审信息
自然感谢Diana Hicks和其他匿名审稿人对这项工作的同行评审所做的贡献。同行评审报告是可用的。
额外的信息
出版商的注意施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。
扩展的数据图形和表格
扩展数据图1乳糜泻分布5.
这张图概述了乳糜泻的分布情况5论文(n = 24,659,076)和专利(n = 3,912,353)。面板一个而且c显示CD在离散时间间隔内的论文和专利数量5.面板b而且d显示CD的分布5随着时间的推移,在10年(论文)和5年(专利)的间隔内,使用字母值图。这些图类似于箱形图,但通常为大型数据集提供更可靠的摘要。它们是通过确定基础分布的中位数,然后从那里向外递归地画出包含一半剩余数据的方框来绘制的。
扩展数据图2使用备选前引窗口测量CD指数。
这个数字评估了在计算论文(n = 24,659,076)和专利(n = 3,912,353)的CD索引时,我们的结果对使用不同正向引用窗口的敏感性。在正文中,该索引是根据论文和专利的引用次数及其发表年份后5年的反向参考文献计算得出的。一个而且c分别为论文和专利使用更长的10年的远期窗口绘制CD指数。b而且d使用截至2017年的样本论文和专利的所有正向引用来绘制CD指数。阴影带对应95%置信区间。总的来说,结果反映了主要文本中报道的结果,尽管使用更长的前向引用窗口时下降幅度更大,这表明我们的主要结果可能代表了更保守的估计。
扩展数据图3科学技术中语言使用的多样性随时间的变化
该图显示了基于论文摘要数据的唯一单词与总单词的比率(也称为类型-标记比率)随时间的变化(一个, n = 76 WoS研究区域×年观测值)和专利(b, n = 229 NBER技术类别×年观测值)。对于论文,线条对应WoS的研究领域;对于专利,线条对应NBER技术类别。对于论文摘要,从1992年开始,因为WoS没有可靠地记录在20世纪90年代早期之前发表的论文摘要。唯一字数与总字数的比率按领域单独计算(即,单词的惟一性和总字数是在WoS研究领域和NBER技术类别内确定的)。如果颠覆性正在减少,我们可能会看到科学家和发明家使用的词汇多样性减少,因为发现和发明将不太可能导致对现状的背离,因此也不太可能需要引入新的术语。对于论文和专利,我们观察到单词使用的多样性随着时间的推移而下降,这与我们的预期一致,并通过CD指数证实了我们的发现。
图4组合新颖性下降。
该图显示了论文组合新颖性/常规性的变化模式(一个, n = 24,659,076)和专利(b, n = 3,912,353),使用先前提出的“非典型组合”测量方法14.该方法量化了一篇论文或专利所引用的先前工作的偶然程度。对于论文,我们遵循之前的工作14并考虑被引用期刊的组合。如果一篇论文三次引用了之前的工作,并且该工作发表在三种不同的期刊上-自然,细胞,科学-那么有三种组合-自然×细胞,自然×科学,科学×细胞.为了确定每种组合在多大程度上是偶然的,观察到的配对频率与整个引用网络的10个“重新连接”副本的频率进行了比较,使用z分数。对于专利,没有自然的类似期刊,因此我们考虑美国专利分类(USPC)系统代码的配对。我们按照先前工作的方法提出了这项分析的结果14,其中绘制了测度的累积分布函数。总的来说,随着时间的推移,在累积分布中有一个右移,这表明对于论文和专利来说,组合比偶然预期的更传统,与我们使用CD指数的结果所预期的一致。对于专利来说,分布的左侧也有一个较小的反方向的变化,这表明近几十年的新专利在某种程度上比前几十年的新专利更新颖。然而,总体而言,大部分分布都在向右移动,这表明更大的传统。
扩展数据图5领域、年份和作者效应的贡献。
该图显示了场、年和作者固定效应对调整后R的相对贡献2预测乳糜泻的回归模型5.上面的柱状图显示了论文的结果(n = 80,607,091篇论文×作者观察结果);底部栏显示了专利的结果(n = 8,319,826项专利×发明人观察结果)。结果表明,无论是论文还是专利,作者的稳定特征都对颠覆性模式有显著贡献。此外,相对较少的变化是由特定领域的因素造成的。
扩展数据图6跨数据源的CD索引随时间的变化。
这个图显示了CD的变化5随着时间的推移,通过四个额外的数据源(包括WoS [n = 24,659,076]和专利视图[n = 3,912,353]行作为参考):JSTOR (n = 1,703,353),美国物理学会corpus (n = 478,373), Microsoft Academic Graph (n = 1,000,000)和PubMed (n = 16,774,282)。颜色表示六个不同的数据源。阴影带对应95%置信区间。该图表明,颠覆性的下降不太可能是由我们对WoS论文和Patents View专利的样本选择所驱动的。
扩展数据图7干扰的替代测量。
此数字显示纸张中断的情况有所下降(一个, n = 100,000)和专利(b, n = 100,000),这是基于两种替代性的颠覆性度量。蓝线使用Bornmann等人提出的测量方法计算中断。13,\ ({{DI}} _ {l} ^ {{nok}} \)其中l = 5,这使得该测量方法对仅引用焦点工作参考文献的论文或专利数量的边际变化更有弹性。橙色线使用Leydesdorff等人提出的测量方法计算中断。15DI*,这使得该测量对没有反向引用的论文或专利的正向引用模式的微小变化不那么敏感。阴影带对应95%置信区间。通过这两种替代措施,我们观察到论文和专利的颠覆性下降,这表明这种下降并不是我们对颠覆性操作化的人为产物。
扩展数据图8出版、引用和作者实践变化的稳健性。
这一数字评估了颠覆性的下降是否可归因于论文(n = 24,659,076)和专利(n = 3,912,353)的发表、引用和作者实践的变化。面板一个而且d使用标准化方法调整这些更改。我们提出了CD索引的两个替代版本,它们都解释了随着时间的推移,论文和专利引用更多先前工作的趋势。蓝线表示论文级别的标准化(占重点论文/专利的引用数量)。橙色线表示领域和年份级别的标准化(占重点领域和年份的论文/专利的平均引用数)。面板b(论文)和e(专利)使用回归方法调整出版、引用和作者实践的变化。面板显示了乳糜泻的预测值5基于补充表模型4(论文)和模型8(专利)中报告的回归1,根据字段×年-进行调整新论文/专利数量,平均论文/专利引用数,平均每篇论文/专利的作者/发明人数量——纸/ patent-level -论文/专利引用数量,未链接引用的数量特征。对模型中包含的每个年度指标分别进行预测;然后,我们将这些独立的预测与线条联系起来,以帮助解释。最后,面板c(论文)和f(专利)使用模拟方法调整出版、引用和作者实践的变化。面板绘制了比较CD值的z分数5从观察到的引文网络中获得的引文,到从观察到的引文网络的随机重新布线副本中获得的引文。在所有六个面板上,阴影带对应于95%的置信区间。
图9科技知识增长。
该图显示了已发表的论文数量(n = 24,659,076) (一个)及获批专利(n = 3,912,353) (b)。对于论文,线条对应WoS的研究领域;对于专利,线条对应NBER技术类别。
权利和权限
根据与作者或其他权利持有人签订的出版协议,自然或其许可方(例如,社会或其他合作伙伴)对本文拥有排他性权利;作者对这篇文章接受的手稿版本的自我存档仅受此类出版协议的条款和适用法律的约束。
关于本文
引用本文
Park, M, Leahey, E. & Funk, R.J.随着时间的推移,论文和专利的破坏性越来越小。自然613, 138-144(2023)。https://doi.org/10.1038/s41586-022-05543-x
收到了:
接受:
发表:
发行日期:
DOI:https://doi.org/10.1038/s41586-022-05543-x
这篇文章被引用
两年的明确的CiTO注释
化学信息学杂志(2023)
这项工作真正的新内容是什么?
自然生物医学工程(2023)
可扩展石墨烯的研究面临着再现性差距
自然通讯(2023)
科学的破坏性真的越来越小了吗?如果是这样又有什么关系呢?
自然(2023)
人工智能书写工具可以给科学家“时间的礼物”
自然(2023)