简介

科学发现是个别科学家及其所构建的科学共同体集体行动的一种涌现现象。这些社区的组成可能是高度异质的,并且经常表现出普遍的不平等。这些不平等在科学工作者的构成方面可能是社会性的12以及他们的研究得到了什么资源3.45或者从思想传播得更远、受到更多关注的角度来看,是认知的67.了解这些不平等的起源及其对科学发现的速度和方向的影响,将更好地为支持创新、扩大科学参与和加速新发现的努力提供信息8

科学中普遍存在的不平等现象,包括代表性、声望、注意力、资源等,可能反映了许多过程的综合和异质效应,包括竞争、累积优势、系统偏见、管道效应和歧视。例如,在学术就业市场上,教师招聘委员会倾向于雇佣著名博士项目的毕业生19,这可能会让一小群精英机构的科学家有效地制定整个领域的研究议程。精英机构的科学家也比那些不太知名的机构的科学家获得更多的资金,这可能会带来更大的科学活动、更大的博士培训项目和制度化的等级制度10.而且,精英关系在同行评议中提供了可衡量的优势,这可能在精英科学家的研究中发挥作用,与职业生涯早期或非精英科学家相比,精英科学家更有可能出现在高影响力的出版场所11

众所周知,与性别、种族、民族、地理、语言和声望相关的偏见会导致科学产出和影响的差异。最近的一些研究表明,社会网络和合作中的不平等可能与性别差异有关,并影响女性的职业结果12131415161718特别是在科学、技术、工程和数学(STEM)领域1920.2122.此外,女性获得的资金往往较少23女性发表论文较少,在合作中更加孤立,而且往往被男性合作者所忽视24.因此,目前尚不清楚个体科学活动的差异在多大程度上反映了各种非精英过程造成的科学价值或偏见的真正差异。

从根本上说,科学是由社会互动网络组成的25262728.这些互动是大多数科学活动的中介,包括科学培训、招聘、合作、教学、引用、同行评审和辩论。因此,一个科学家与其他科学家之间的社会关系可能代表了一种持久的社会资本形式,这种资本可以在科学家之间积累、使用,甚至可能转移2930.31.例如,一些证据表明,与另一位科学家的一次极其密切的联系足以提高单个研究人员的生产力和职业可持续性32.通过合作,网络与研究人员之间“科技人力资本”的不平等提供相关20.,塑造了研究人员的学术生涯33,并可以掩盖终身教职等正式评估中潜在的不平等34.即使是科学生产力和影响力的常见但未经调整的衡量标准,如科学家发表的论文数量或论文收到的引用数量,也依赖于网络,因为发现总是处于科学家之间更广泛、不断发展的对话之中35363738

在科学社会学中,既有许多衡量学术产出的方法,也有各种各样的标准化方案,旨在帮助将合作出版记录提炼成个人层面的贡献8.例如,作者身份可以根据一篇论文的共同作者数量进行细分3940,或者论文的引用数可以由论文发表地点的影响因子标准化41.每一项测量都揭示了科学中的社会和认知不平等,每一项标准化方案都带有假设,其外部有效性可能不确定42.在本研究中,我们的分析遵循了科学社会学的悠久传统4344使用简单的学术生产力和声望衡量方法,即计算个人发表的论文数量和在高影响力场所发表的论文数量。这种方法既有优势也有局限性,我们将在下面讨论,但这是我们分析网络效应的核心。

通过调节科学关注、评价和合作,社会网络在塑造科学发现的内容和影响,以及在塑造科学中普遍存在的社会和认知不平等方面发挥着基本作用。理清这些相互作用的影响将在很大程度上揭示科学发现背后的机制,并可能为使科学界更具包容性和创新性提供新的解决方案。例如,对于一个早期的职业科学家来说,是有一位杰出的导师更重要,还是在精英项目中接受培训更重要?一个科学家认识的人是如何影响他们研究什么问题或做出什么发现的?协作网络中的性别差异在多大程度上导致了生产力和突出程度的性别差异?12而且,科学家的生产力和声望有多少是由他们的合作者来解释的?45如果不考虑社会网络在科学上的影响,这些问题就无法明确回答。

在这里,我们通过开发两个网络模型来解开合作对单个科学家的生产力和突出性的网络效应。这些模型应用于大规模的科学出版物和合作数据,使我们能够量化网络在推动个体研究人员之间某些广泛而持久的不平等方面的影响。使用这些模型,我们调查了性别协作模式在多大程度上解释了生产力的性别差异——用首次或最后一次发表的出版物的数量来衡量——用高影响力的出版物的数量来衡量——在给定年份和领域发表2年后获得了前8百分位的引用,网络效应如何随着机构声望而变化,以及合作网络作为一种适度可转移的社会资本形式运作的程度,通过这种形式,成功的资深科学家改善了他们的初级合作者的长期轨迹。尽管在科学界广泛提及和讨论了选定的生产力和卓越性指标,但在使用它们时应考虑到它们并不一定意味着科学效用4647

结果

我们首先从微软学术图(MAG)数据库中自1950年以来定义的2000万篇研究文章中提取合著者对4849在六个STEM领域:生物学、化学、计算机科学、数学、医学和物理学。为了更好地隔离最重要的网络连接,我们将重点放在由每篇论文的第一作者和最后作者定义的合著链接上。仅将子集设置为第一至最后作者对连接,消除了由每篇论文共同作者数量变化、所有类型的中间作者贡献、随时间和跨领域团队规模的趋势以及其他相关混杂因素引起的对生产力和突出性的网络效应。根据STEM领域常见的合著规范,这种选择保留并集中在我们对最重要的合作环节的分析上,例如,传统的导师-学员关系,其中初级学者通常是第一作者,而他们的高级同事是最后一位作者。

科学出版物中合著的性质往往会混淆对科学家个人生产力和杰出程度的直接衡量。高生产力的科学家往往有很多合作者,通常包括彼此,这些人的生产力往往会通过这些合作提高其他人的生产力。同样,被引用率高的科学家往往会提高他们合作者的知名度,而且通常,同样的合作者既高产又被引用率高。文献计量标准化方案,如部分作者,可以被视为论文水平的调整,这些网络效应的合作。

然而,要理清科学生涯中合作的网络效应,以估计在合作作者网络的相互依存背景下每个人的贡献,需要一个生成网络模型。在这里,我们介绍了两个这样的模型,它们可以控制这些协作网络效应,并允许我们量化单个研究人员的潜在生产力和突出程度,以及它们与科学事业中社会和认知不平等的关系。

我们将一对合著者的出版物产量建模为他们共同努力的随机结果,受他们个人潜在生产力参数的线性组合支配(图2)。1a).在数学上,合著出版物的数量是成对泊松过程的输出,由潜在个体生产力的总和参数化λ而且λj对于合著者(j).因此,模型参数λ给出作者预计每年出版的数量,对于作者对(j)时,他们的联合生产率为该形式的随机变量

$ $ P ({N} _ {ij}, {t} _ {ij} |{\λ}_{},{\λ}_ {j}) = \压裂{{\ exp} ^{——({\λ}_{我}+{\λ}_ {j}) {t} _ {ij}}{(({\λ}_{我}+{\λ}_ {j}) {t} _ {ij}]} ^ {{N} _ {ij}}} {{N} _ {ij} !}, $ $
(1)

在哪里Nj观察到的论文数量是否由作者合著而且j在整个合作时间段内tj(见方法)。

图1:个体生产率和显著性指标的网络分解和相关性。
图1

一个所观察到的个体生产力(上图)和突出度(下图)是由个体生产力的联合效应产生的网络度量λ和突出θ合作作者参数。b估计潜在变量的联合和边际分布λ而且θ估计来自198,202名职业中期的STEM研究人员,他们发表了至少10篇论文。为了更好地说明的估计分布θ,我们省略了116,223名研究人员的分数,可以忽略不计\(\hat{\theta} \;< \; 1 {0} ^ {3} \)值。剩下的研究人员有一个平均值\({\λ}\ \帽子)的价值μλ= 0.42,略高于正文中报道的整个队列的选定研究人员(双面t以及,t= 49.8,p< 10−3).c个人职业生涯中期研究人员观察和建模的学术统计数据的相关矩阵,说明了建模参数如何捕捉合作的网络效应。

同样,我们将突出度(定义为高影响力出版物的数量)建模为单个潜在参数的联合函数(图2)。1a).在数学上,研究人员的突出程度由二项分布建模,由潜在个体突出程度的总和参数化θ而且θj共同作者对(j).因此,模型参数θ给出所期望的发布的百分比作为一个将被高度引用的作者,对于一个作者对(j),其联合突出度为形式的随机变量

$ $ P ({N} _ {ij}, {m} _ {ij} |{\θ}_{},{\θ}_ {j}) = \离开(\开始{数组}{c} {{N} _ {ij}} \ \ {{m} _ {ij}} \结束数组{}\右){({\θ}_{我}+{\θ}_ {j})} ^ {{m} _ {ij}}{[1 -({\θ}_{我}+{\θ}_ {j})]} ^ {{N} _ {ij} - {m} _ {ij}}, $ $
(2)

在哪里j观察到的高被引论文数量是否由作者合著而且j在整个合作时间段内tj(见方法)。我们注意到,这两个模型都假设出版物之间的条件独立性,这可能会掩盖一些有趣的时间效应50.将这些联合生产力和突出性模型应用于合作网络中的所有合作者对,得到联合似然函数,其独立最大化产生一组个人生产力和突出性参数,有效地控制了合作对感兴趣变量的网络效应

$ $ L ({{{{{{{\ boldsymbol{\λ }}}}}}}})=\ mathop{总和\}\ limits_ {i \ ne j} \ log P ({N} _ {ij}, {t} _ {ij} |{\λ}_{},{\λ}_ {j}) \ qquad L ({{{{{{{\ boldsymbol{\θ }}}}}}}})=\ mathop{总和\}\ limits_ {i \ ne j} \ log P ({N} _ {ij}, {m} _ {ij} |{\θ}_{},{\θ}_ {j}), $ $
(3)

应用于我们涵盖六个STEM领域的198,202名职业中期研究人员的完整数据集,定义为至少有15年学术出版活动的研究人员(见补充信息),我们发现了令人信服的证据,这些潜在参数模型产生了观测到的联合生产力和合作科学家的杰出表现的有用的个体分解(图。1b和补充图。3.对于个别字段)。检查边际分布,我们发现潜在生产力和突出变量几乎是正交的(皮尔逊r= 0.09,p< 10−3),λ服从正态分布和θ遵循重尾分布。也就是说,在控制网络效应的情况下,我们发现职业生涯中期研究人员的个人生产力是低方差的,并且集中在的集中趋势附近μλ每年第一篇/最后一篇论文= 0.39篇(标准差σλ= 0.15),只有前0.02%的研究人员表现出潜在的生产力\(\hat{\lambda} \;> \; 2 \)每年第一篇/最后一篇论文。

相比之下,在控制网络效应的情况下,个体显著性是高度可变的,平均显著性为μθ= 0.04(平均而言,由两位作者撰写的出版物,每12.5人中就有1人被高引用),但标准差为(σθ= 0.08)。也就是说,绝大多数研究人员的个人声望很低,而少数人则产生了影响大得多的长尾效应,就像其他复杂社会系统中受欢迎程度和财富的衡量标准一样51.此外,这两个估计参数与研究人员的职业生涯方面的原始生产力(Pearson相关系数)具有较低的相关性rλN= 0.21和rθN=−0.02。这意味着,在控制了合作的网络效应后,潜在参数可以反映特定单位时间内单个研究人员的生产力和突出程度。从技术上讲,我们注意到这些模型的参数估计对于至少有10篇论文的研究人员来说更稳定,并且似乎低估了潜在的生产力λ高估了突出程度θ(补充图。5).的分布θ当我们改变高被引论文的阈值时,并不会发生质的变化(补充图。6).

如估算个体生产力和突出度参数λ而且θ真正衡量个人层面的特征,控制来自合作的网络效应,那么它们应该只与相应的网络混淆的原始生产力和原始突出程度的测量有松散的关联。我们通过描述它们与其他“未调整”测量的相关性以及个体研究人员的时间相关动态来评估这两种测量的有效性。我们首先选择了一组最低生产力的职业中期研究人员,他们在15年前发表了至少10篇论文,并根据他们在职业中期发表的论文,将估计的个人参数和观察到的学术统计数据制成了相关矩阵(图2)。1c).我们将研究人员定义为“高”λ或“高”θ如果他们的个人估计参数在某一年的同一领域研究人员中处于前10%。我们定义了一个高潮λθ合作者作为合作者本身就是一个很高的人λθ作者,并在相关合作年度发表至少3篇论文。这种相关性分析揭示了研究人员的个人λ而且θ价值观与“未经调整”的生产力和突出程度只有适度的相关性(λ带着文件,皮尔逊的r= 0.21;θ有引文的,皮尔逊的r= 0.36),表明模型参数所捕捉的行为超出了未经调整的计数所提供的。而且,我们发现了强有力的证据,证明合作在推动观察到的生产力和个人研究人员的突出地位方面的网络效应,因为高λ和高θ合著者与个人生产力和突出程度的相关性更强(论文vs高λ合著者,皮尔森的r= 0.70;引用率vs.高θ合著者,皮尔森的r= 0.49),而不是个体自己的模型参数。因此,这些网络模型可以揭示社交网络在决定个人职业指标方面所起的重要但往往隐藏的作用。

类似地,如果估计的个体潜在参数衡量的是研究人员的潜在特征,那么它们应该在个人的职业道路上保持相对稳定,即使他们的合作网络不断发展。与完全随机化的零模型相比,我们发现这个值很高λ或高θ研究人员更有可能在10年后保持在同一百分位组(见补充信息,以及补充图。7- - - - - -9).此外,在职业生涯早期(发表文章的前5年)具有高潜在参数值的研究人员,在职业生涯中期也更有可能在某一特定年份在某一特定领域发表文章的研究人员中处于前5百分位。而且,当我们在配对实验中重复分析时,这种模式也成立,在配对实验中,我们根据研究人员的机构声望、生产力和早期职业生涯中的突出地位来匹配他们(补充图)。10、补充表格1- - - - - -4).这些结果表明,单个研究人员的生产力和突出程度的估计模型参数在其职业生涯中相对稳定,这表明他们正在捕捉潜在的学术行为,而不受合作模式随时间变化的影响。

与过去的研究一致,我们发现在观察到的职业生产力测量中存在性别不平等(图2)。2a)和突出(图;2d)在职业生涯中期的STEM研究人员中,男性发表的论文和获得的引用都比女性多225253.平均而言,这些领域的男性在进入职业中期(前15年)时总共发表了20.3篇论文,而女性只有18.3篇。t以及,t= 24.5,p< 0.001,科恩的d= 0.15±0.01),平均而言,男性过去的出版物总引用次数为346.0次,而女性(t以及,t= 4.9,p< 0.001,科恩的d= 0.03±0.01)。换句话说,在职业生涯中期,男性的平均总生产力比女性高11.0%,他们的引用率比女性高5.0%,而且随着时间的推移,这些差异是稳定的。对于在其出版生涯的前5年,即在其职业生涯早期至少发表过3篇论文的研究人员来说,男性坚持到职业生涯中期的概率为20.6%,而女性只有15.7%,这与众所周知的职业生涯早期女性科学家的更高辍学率相一致53.尽管观察到的学术指标存在这些差异,但通过我们的网络模型控制合作揭示了一个不同的模式:跨领域,平均职业中期潜在生产力参数为{\ \(\帽子λ}= 0.39 \)男女皆宜(t以及,t= 0.7,p= 0.51,科恩的d< 0.01),平均职业中期潜在突出参数{\ \(\帽子θ}= 0.044 \)男性为0.045,女性为0.045 (t以及,t= 0.82,p= 0.41,科恩的d< 0.01)。也就是说,男性和女性在统计上表现出难以区分的个体潜在生产力和潜在突出,这意味着观察到的学术指标的差异可能是由研究人员合作网络结构和组成的性别差异造成的(图2)。2b, e)。

图2:个人生产力和突出程度的性别差异。
图2

在六个STEM领域,观察平均(一个)生产力及(d,在1989年至2017年的198,202名职业中期研究人员中,按性别分列,显示出巨大而稳定的差距,以及相应的估计个体潜在(b)的生产力λ和(e)突出θ对于同样的研究人员来说,性别差异可以忽略不计。阴影区域表示95%置信区间。然后,(c)生产力及(f)男女研究人员的突出程度与机构声望、首次发表的年份以及(i)单独的领域或(ii)领域和共同作者的数量相匹配,表明性别合作率可以解释在学术指标中观察到的性别差异。双面的t-test进行比较。

此外,我们发现职业生涯中期研究人员的性别差距在很大程度上可以用合作网络中直接合作作者数量的差异来解释。根据机构声望、首次发表论文的年份和领域来匹配女性和男性研究人员,我们仍然发现了性别差异,其中女性的生产力和突出程度相对于匹配的男性较低(图2)。2c, f)。然而,在共同作者数量上的额外匹配在很大程度上消除了这两种生产力的性别差异(10.5%,t以及,t= 24.5,p< 0.001,科恩的d= 0.15±0.01 vs. 0.7%,t以及,t= 1.3,p= 0.20,科恩的d= 0.01±0.01)和突出(12.8%,t以及,t= 4.9,p< 0.001,科恩的d= 0.03±0.01 vs. 2.3%t以及,t= 2.0,p= 0.04,科恩的d= 0.02±0.01)。因此,我们发现大量证据表明,众所周知的性别生产力和男女研究人员之间的突出不平等在很大程度上可以解释为网络效应,其中男性和女性之间的本地合作网络的组成和规模不同,这些差异导致了学术指标上的观察差异,而不是研究人员本身的任何固有差异。我们注意到,这一分析并没有建立因果关系,因此已知的因果因素,如父母对研究人员的性别影响,导致母亲在承担更多的育儿责任时生产力受到惩罚54,可能会影响生产力和协作网络。我们还通过选择至少发表20篇论文的职业中期研究人员来测试我们发现的稳健性(补充图。13),并通过随机抽样研究人员重复分析(补充图。14),显示这些不同的选择并不会改变我们结论的定性。总的来说,这些结果表明,合作网络可以被视为一种社会资本的形式,在STEM中以不平等和性别的方式分布,它调节或塑造了学术贡献的数量及其可见性。

如果研究人员的合作网络就像一种社会资本,我们应该期望社会资本的关键动态也适用于合作网络。例如,作者的合作网络资本在一定程度上应该在研究人员之间“可转移”。例如,一个早期职业研究人员的合作λ或高θ与没有这种合作的同类研究人员相比,高级合作作者应该以一种持续到职业生涯中期的方式提高初级研究人员的生产力或突出程度。对于初级-高级合作的分析,我们选择了这样的配对:在合作时,早期的研究人员距离他们的第一篇论文发表有5年或更短的时间,而高级合著者距离他们的第一篇论文发表有6年或更长时间。因为对于拥有更多论文的研究人员,单个潜在参数的模型估计更准确,我们在这里将我们的分析限制在早期职业合作者和他们的高级合作者,他们在合作时至少有三篇论文。

我们发现,早期职业生涯的研究人员明显更有可能与高λθ我们将精英机构定义为权威排名在某一特定领域排名前十的研究机构(见方法),这表明合作网络的组成本身随环境声望的不同而不同55.这在很大程度上可能是由于如此高的选择效应λθ资深研究人员更有可能在精英机构工作,这反映了早期职业研究人员在获得重要社会网络方面的不平等。特别是,在成对合作的情况下,早期职业研究人员与高λ(生产力)精英机构的高级研究员为0.177,非精英机构为0.145 (t以及,t= 19.3,p< 0.001,科恩的d= 0.09±0.01),与高θ(突出)精英机构的高级研究员为0.141,非精英机构为0.067 (t以及,t= 50.2,p< 0.001,科恩的d= 0.28±0.01)。

然而,无论是哪个机构,与高λ或高θ职业生涯早期的资深合著者在职业生涯中期明显更有可能成为非常杰出的研究人员,他们在给定年份和领域的所有活跃研究人员中获得了前5%的引用(图2)。3.a, c).特别地,至少与一个high合作λ研究人员职业生涯前5年的高级合著者将其在职业生涯第15年成为高度杰出研究人员的概率从16.2%提高到29.5% (t以及,t= 65.0,p< 0.001,科恩的d= 0.34±0.01;无花果。3.a).和,高θ资深合作者将职业中期概率从16.3%提高到39.8% (t以及,t= 81.6,p< 0.001,科恩的d= 0.61±0.01;无花果。3.c).对于这两种类型的合作模式,来自精英机构的初级研究人员在职业生涯中期表现出更高的生产力和突出程度,而来自不太知名机构的同行则表现出更高的生产力和突出程度,这种差异反映了著名环境的价值55.这种基于机构的差距对于早期职业生涯的研究人员来说更大θ合著者比同著者高λ合著者。

图3:资深合著者对初级研究员可能的职业中期影响的影响。
图3

早期职业研究人员(一个)高λ或(c)高θ资深合著者在职业生涯中期基本上更有可能成为精英作者,不管他们的机构声望如何。这种影响的量级对于(bλ和(dθ与高级合著者的职业年龄无关,但随着年龄的增长而适度下降。初级研究员与早期高λ合著者n赞成= 57,552;no = 229,225。初级研究员与早期高θ合著者n对于yes = 30,983;no = 255,794。双面的t-test进行比较。错误条(一个而且c)表示平均值±1.96 SEM。在(bd),实线表示平均值,阴影区域表示95%置信区间。

然而,早期职业生涯的好处很高λ或高θ随着合作者的职业年龄的增长,资深合作者的职业生涯表现出适度的下降(图2)。3.b, d).这一发现与过去关于科学导师关系的研究形成对比5657,这些研究通常依赖于未经调整的引用计数,对于更资深的合作者,引用计数自然更大,这代表了更强的混淆网络效应。通过校正合作的网络效应,我们发现,与高生产力或非常杰出的高级合作者合作的好处并不会随着合作者的资历而增加。与之相反,他们随着职业年龄的增加而减少,并且随着职业年龄的增加而减少λ这表明,在高级合作者的职业生涯早期,通过合作将社会资本从高级研究员转移到初级研究员更有效。我们还通过选择在相关合作时至少有6个出版物和至少10年出版职业生涯的高级合作者来测试我们结果的稳健性,(补充图。15),我们发现不同的阈值并没有质的改变我们的发现。

最后,我们考虑了环境声望对职业中期研究人员潜在生产力和突出性的影响。过去的研究表明,在更有声望的机构工作可以提高早期职业研究人员的生产力和地位55.然而,与过去关于师徒关系影响的研究一样,这些见解来自于学术测量,而这些测量并没有控制协作的网络效应,这种网络效应会随着职业发展而增加。在六个STEM领域中,我们数据集中隶属于精英机构的研究人员在其职业生涯中期(前15年)平均共发表论文21.8篇,比非精英机构的研究人员的20.1篇高出8.5% (t以及,t= 11.5,p< 0.001,科恩的d= 0.11±0.02,图4a).而且,在相同的职业生涯中,精英机构的研究人员平均收到493.7次引用,比非精英机构的研究人员收到的304.5次引用高出62.1% (t以及,t= 27.8,p< 0.001,科恩的d= 0.38±0.02,图4d).因此,在未经调整的学术指标中,精英机构的研究人员的生产力略高,影响力大得多。

图4:精英环境对研究人员生产力和声望的影响。
图4

未经调整平均值的机构差异(一个)生产力及(d)的影响,以及潜在变量(bλ和(eθ职业生涯中期的研究人员。阴影区域表示95%置信区间。然后,(c)生产力及(f)对处于职业生涯中期的研究人员的突出程度与机构声望、首次发表论文的年份以及(i)单独的领域或(ii)领域、共同作者的数量、高论文的数量相匹配λ合著者多,且数量高θ研究表明,精英工作环境可以解释所观察到的差异。双面的t-test进行比较。

我们发现,在著名环境中工作的研究人员的这些生产力和突出优势也出现在我们估计的个体潜在参数中。平均而言,精英机构的研究人员也比非精英机构的研究人员表现出更大的潜在生产力(λ0.394 vs. 0.387;大1.8%;t以及,t= 6.0,p< 0.001,科恩的d= 0.05±0.02,图4b).而且,这些研究人员,平均而言,表现出的潜在突出程度几乎是非精英机构研究人员的两倍(θ= 0.071 vs. 0.037;大91.9%;t -测试中,t= 36.7,p< 0.001,科恩的d= 0.43±0.02,图4d).因此,在控制了合作的网络效应后,我们发现,与原始的学术指标相比,在精英机构工作的研究人员在生产力方面具有较小但仍然显著的优势,但在突出性方面具有更大的优势。在控制了网络效应后,精英环境的优势仍然存在,这表明其他因素可能会导致这些差异55例如,资源的差异、协作网络的大小,或主要适用于职业生涯中期的研究人员的选择效应。此外,我们发现,当我们将所选精英院校的数量修改为前20名时,结果并没有发生质的变化(补充图。16).

这种声望优势可以用职业生涯中期研究者的合作网络组成的差异来解释。根据领域和首次发表年份匹配样本中的研究人员,我们发现非精英机构的研究人员的生产力仅比精英机构的研究人员低6.8%(图2)。4c).然而,进一步匹配变量,量化一个研究人员的合作网络的构成,特别是合作作者的数量,高λ合著者,且数量高θ共同作者,我们发现非精英机构的研究人员的生产力比精英机构的研究人员高2.8% (t以及,t= 3.1,p< 0.01,科恩氏d= 0.04±0.02)。这些网络效应对于个别研究人员的突出地位更为强烈。根据领域和首次发表年份匹配研究人员,非精英机构的研究人员获得的引用比精英机构的研究人员少39.9%,而进一步匹配合作网络变量将这一差距缩小至仅19.9%。因此,相对于性别差异(图。2),我们发现,与环境声望相关的生产力和声望方面的不平等不能完全用合作网络结构的差异来解释,这表明额外的声望相关变量在推动精英机构研究人员更大的学术影响力方面发挥了重要作用。

此外,我们还测试了性别和机构声望对职业中期研究人员绩效的交互影响。我们发现,无论是未调整的测量方法还是潜在参数,机构的声望对研究人员的生产力和突出程度的影响都比性别更大。12).特别是,性别和机构声望对潜在生产力的影响可以忽略不计λ而对于潜在的突出地位,院校似乎比性别的影响更大θ.声望似乎不会推动潜在生产力λ最近的其他研究也支持这一观点,这些研究表明,著名院系的教师生产率更高,在很大程度上可以用协作网络效应来解释:精英院系提供了更多可用的资助研究劳动力,这些劳动力随后与系里的教师共同撰写论文58

讨论

通过调节科学关注、评价和合作,社会网络在塑造科学进步和大多数科学界普遍存在的社会和认知不平等方面发挥着根本作用。然而,基于出版物和引用数量对与生产力和突出程度相关的学术指标进行分析,即使在某种程度上进行了标准化,如在部分作者的情况下或根据期刊影响因子进行了调整,也容易受到网络效应的影响,这些网络效应高于单个出版物的水平。这种网络效应使得人们很难深入了解这些不平等的原因和后果,特别是在科学生涯的跨度内。在这里,我们介绍了两个学者级别的生成网络模型,使我们能够估计代表个人研究人员生产力和突出性的参数,同时控制与生产力或较低或突出的合作者(以及这些合作者的合作等)合作的影响。然后,我们将这些模型应用于198,202名处于职业生涯中期的研究人员的大型数据集,以及他们在70年的时间里和STEM的六个领域中所有的第一篇最后一篇作者合作,以调查合作网络的影响。

我们发现,在生产力和突出程度上观察到的性别差距在很大程度上可以用社会网络的差异来解释。社交网络可以表现得像社会资本一样,对初级研究人员的促进作用会随着高级合作者的年龄增长而衰减。在控制了网络效应后,我们调整后的生产力和显著性参数可以解释与环境声望相关的显著比例(但不是全部)学术差异。这些结果对学术上的性别和制度差异有影响,我们将在以下段落中进一步讨论。

我们估计的潜在参数显示,坚持到职业中期(自首次发表以来15年)的女性研究人员与坚持到职业中期的男性研究人员表现出相同的生产力和突出性(图2)。2).这一发现表明,在“未经调整”的学术指标(如论文数量(生产力)和总引用数(影响力))中,众所周知的性别差异可以用合作作者网络中的性别差异来解释。虽然这一结果并不意味着因果关系,但它确实表明了已知的因果因素,如父母的性别影响54,也可能形成合作网络。通过在调整网络效应后提供新的个体参数,我们的研究结果强调了社会网络在形成职业中期研究人员学术性别差异方面的重要性,这有助于丰富关于科学领域(包括学术文化)性别差异潜在原因和影响的文献19和同质性1516.需要更多的研究来确定女性平均合作作者比男性少的可能原因,以及这些原因在多大程度上与学术因素、偏好或非精英因素有关。

这些结果还表明,合作网络可以被视为一种社会资本的形式,在STEM中以不平等和性别的方式分布。通过这种方式,合作网络可以作为其他社会和认知不平等的共同中介变量,这可能会导致学术贡献的数量或可见性或与科学发现相关的其他因素的差异。专门旨在扩大和支持女性研究人员合作网络的努力,例如,正式的支持和倡导组织、女性参与科学会议,以及为支持密集新合作的女性提供奖学金,似乎有可能有助于缓解学术指标上的性别差距,并广泛支持科学发现。

为了支持合作网络就像一种社会资本形式的观点,我们发现与精英高级研究人员的早期职业合作,正如他们的高潜在参数所确定的那样λθ,似乎提高了他们的年轻合作者的潜在生产力和突出地位,这支持了他们学术生涯的长期发展(图2)。3.).这种效应与附属机构的声望无关,但在有声望的环境中会被放大,这在一定程度上促进了与精英研究人员合作关系的形成。然而,无论高级作者的潜在参数值如何,职业生涯早期与精英高级合著者的合作对职业生涯中期生产力和杰出性的促进作用随着高级合著者年龄的增长而逐渐下降。需要进一步的研究来了解这些高级合作对早期职业研究人员的生产力和杰出性产生持久影响的因果机制,这些影响是否有性别差异,以及是什么原因导致了与年龄相关的影响。

许多可能性都是合理的。这种效应可能反映了认知的僵化,在这种情况下,年长的科学家与他们领域的动态核心之间的联系逐渐减少。它还可能反映出社会饱和,在这种情况下,资深科学家的合作者与初级同事进行新合作的能力逐渐枯竭。一种特别合理的可能性是,这种效应是由与声望相关的选择和社会分层所驱动的。例如,精英高级研究人员更有可能就职于著名的研究密集型机构,因此更有可能与有意从事学术研究事业的学生合作,由于他们享有盛名的血统,这些学生有更好的前景。出于同样的原因,在一个不太知名的机构,有才华的学生将有更少的精英研究人员合作,因此更少地获得有助于早期研究事业成功的各种社会资本。或者,精英机构中处于职业生涯中期的研究人员在生产力和突出性方面的优势可能反映了研究资源的分层,例如,资金、研究小组规模、计算或实验设施等,与精英高级研究人员的早期合作只是增加了最终在这样的机构工作的可能性。确定这些合作的长期影响的潜在原因是未来研究的一个重要方向,对减轻科学中的社会和认知不平等的努力具有具体意义。

总的来说,我们的发现为合作网络在塑造科学事业和调解学术不平等方面的基本作用提供了相当多的新线索。我们的研究结果表明,合作网络体现了一种不均匀分布的社会资本形式,它影响着谁做出了什么科技发现。特别是,合作网络效应可以解释处于职业生涯中期的研究人员在生产力和声望方面持续存在的性别不平等,以及相当一部分在或多或少精英环境中工作的研究人员之间所观察到的不平等。虽然这些结果不是因果关系,但它们确实表明,更详细地了解影响研究人员协作网络规模和组成的因素,可能会使我们更接近于对科学中许多社会和认知不平等的因果理解。合作网络也可能在研究和开发工作领域发挥重要作用,特别是以专利合作的形式59.因此,关注跨学科效应的研究可能会进一步阐明社会资本在科学发现中的动态和影响,以及合作网络在塑造个人研究生涯中的作用。

我们的分析有几个局限性。通过只关注第一个和最后一个作者的合作,我们忽略了所有与中间合作者的合作,无论他们的贡献类型或大小。这种分类选择减轻了大型作者列表的混淆网络效应,但也忽视了团队科学的价值和影响。在本文研究的六个STEM领域中,一个共同的规范是,数据分析、实验和可视化等研究任务由第一作者完成,而最后一位作者通常在研究设计、手稿撰写和资金支持方面发挥更多的监督作用。为了简化模型框架,省略了中间作者的具体和不同的角色以及与中间作者的交互。细化我们的建模框架,以纳入中间作者合作的影响,可能使用作者贡献分类法进行标记,可能会揭示额外的细微差别或感兴趣的次要影响。此外,为了对潜在参数进行可靠的估计,只有少量合作的研究人员被排除在我们的分析之外,这将我们的见解局限于相对多产的职业中期研究人员。因此,我们不能说我们的结果对短记录的研究人员的支持程度。我们基于名字的性别分类使用了美国社会保障局的数据,该数据偏向于英文名字。还需要进一步研究其他种族群体的性别差异,以证明类似的性别网络模式是否持续存在。 And, our analysis of environmental prestige used only a coarse dichotomous variable for elite or non-elite institution, which likely obscures the effects of gradations of prestige. Finally, our analyses depend on crude but easy-to-measure metrics of scholarly contributions, based on publication and citation counts, which can be useful in aggregate but should not be confused with measures of scientific utility.

我们的研究结果表明,在STEM领域的科学过程中,协作网络及其所体现的社会资本在形成和延续社会和认知不平等方面发挥着基本但复杂的作用。他们还建议,可以利用协作网络效应来帮助缓解一些同样的不平等,更好地支持科学发现,并扩大对科学的参与。例如,有针对性地支持与精英资深研究人员的跨机构、早期职业合作,可能通过专门的奖学金,可以支持有前途的年轻研究人员的职业发展,否则他们就会离开研究领域。同样,直接支持女性研究人员的合作网络可能会提高保留率和生产力,特别是在发生性别影响的时候,例如为人父母54.而且,在评估教师职位候选人或基金申请人时,“纠正”协作网络效应的努力可能有助于减轻多重隐性偏见,这种偏见已知有利于拥有丰富高级合作者的精英血统的男性研究人员1525.网络效应是社会过程的一个自然组成部分,是科学过程的基础,并且可能是任何减轻社会和认知偏见的努力的关键组成部分,使学术界更加精英化,对累积优势的影响不那么敏感。

我们注意到,我们的模型是一种通用的方法,可以将重复合作活动(如技术发明、商业伙伴关系和音乐创作)的观察数据分解为个人贡献。将类似的模型应用于其他现象将是未来工作的一个有趣方向,这可能有助于阐明个体差异和对这些群体活动的贡献。正如我们在本文中所做的那样,它还可以进一步阐明这些差异与其他感兴趣的变量之间的关系,特别是这些差异在推动更广泛的社会不平等方面所起的作用。

方法

发表和引用数据

我们使用MAG数据集,包含1950年至2019年发表的期刊文章和会议记录。MAG提供了学术研究领域的5级分类;最高级别0将所有文档划分为19个主要字段。其中,我们选择了六个代表传统科学、技术、工程和数学(STEM)领域的科学领域:生物学、化学、计算机科学、数学、医学和物理学。这些领域发表了科学技术领域的大部分研究论文(见补充图)。1).遵循这些领域的发表规范,我们在分析除计算机科学以外的所有领域时只包括期刊文章。对于计算机科学,其会议记录与其他领域的期刊文章一样,都是同行评审的,我们将期刊文章和会议文章都包括在内。

研究人员隶属关系缺失在MAG中很常见,但很难归咎。MAG数据集包含8040万篇符合上述纳入标准的论文。其中,3600万篇论文提供了作者隶属关系信息,我们在分析中只考虑这些信息。这些从属关系为科学家个人评估环境对合著、职业发展、生产力等的影响提供了必要的信息。MAG中作者没有隶属关系的原因尚不清楚。

我们的分析只考虑了每篇论文的第一作者和最后作者之间的合作。在我们分析的六个STEM领域中,第一和最后的作者位置通常被理解为表示对研究做出最大贡献的作者。在某些情况下,这一规范不适用,例如,在作者按字母顺序排列的特定子字段中,或者由于相同的贡献标志而有多个“第一”或“最后”作者,以及在一些大型合作中。为了解释后一类,我们排除了所有作者超过10人的论文。综合起来,我们的精细化数据集包含1290万独立作者和2000万篇研究文章。我们的第一个-最后一个作者计数方案消除了大作者列表的影响和分数计数的相关性,代价是潜在的少计数贡献和中间作者的影响。大多数作者发表的论文很少,我们的分析集中在198,202名高产作者的职业生涯中期轨迹上,他们在1975-2003年发表了第一篇论文,在职业生涯的第15年至少发表了10篇论文。

我们将高被引论文定义为在给定年份和MAG数据集中注释的0级字段中,分别在期刊和计算机科学会议上发表的论文中获得前8百分位的论文。在MAG中,一篇论文只属于一个0级字段,但在其他细粒度级别上又分为几个不同的字段,因此很难根据这些级别对高被引作品进行定义。理论上,只有当作者在这些领域直接进行比较时,才需要在细粒度级别上标准化引用计数,而且我们的模型自然考虑了这种跨领域的可变性,因为我们的模型基本上估计了研究者特定的参数。

机构声望和精英机构

对于特定的规程,我们使用z-各研究机构历史高被引论文总数的得分,以确定其声望得分

$ $ {p} _{我 }^{{{{{{{{\ rm{本月 }}}}}}}}}=\ 压裂{{N} _{我 }^{{{{{{{{\ rm{高 }}}}}}}}}-\ langle {N }^{{{{{{{{\ rm{高 }}}}}}}}}\ 纠正}{\σ/ \√{{n }^{{{{{{{{\ rm{本月 }}}}}}}}}}},$$
(4)

在哪里\ ({N} _{我 }^{{{{{{{{\ rm{高 }}}}}}}}}\)高被引论文的数量是由机构产生的吗, 〈N>是所有机构高引用论文的平均数量,σ是高被引论文的标准差,和n本月是机构的数量。机构声望分数是特定学科的,但不随时间变化。我们根据这一标准,在每个领域内将前10名的研究机构定义为精英机构。

性别

我们根据基于美国社会保障局数据的分类器为作者分配二元性别标签,该数据记录了与美国新生儿名字相关的历史性别60.因此,我们对性别差异的分析最适用于来自北美或其他英语国家的研究人员。只有对特定性别有95%以上正确率的名字才会被保留用于匹配。因此,我们为我们的分析匹配了126,805名在1975-2003年发表第一篇论文的高产作者,占我们研究选择的所有高产职业中期作者的64.0%,其中20.2%(25,666)是女性。

潜在变量估计

对于每个网络模型和每个领域,我们使用该领域到给定年份为止发表的所有论文,并使用凸优化来估计潜在参数集。我们使用自举校正伪似然估计了1975年至2017年每年30次的重复参数。每年T,我们利用1950年至1950年的所有出版物构建了合作作者网络T.在每一轮自助抽样中,在估计网络模型之前,我们修剪合作网络的所有子图,因为模型参数在这样的结构中变得不可识别。由于修剪而被删除的作者被赋予一个隐变量为0,最终的参数估估值是所有重复的平均值。在我们对时间模式的分析中,作者从第一次或最后一次以作者身份出现到2019年,每年都会收到潜在参数估计。

个别研究潜在参数λ而且θ使用凸优化R包进行估计CVXR61.在给定的领域内,从1975年到2017年的每一年,我们使用30次重复,对截至并包括该年发表的所有论文进行自举,估计模型参数。个人研究人员的λ而且θ参数被记录为跨复制的(自举)平均值。

在我们的网络模型中,我们假设一对合著者在他们共同发表第一篇论文的1年前开始合作。因此,作者合作的持续时间而且j\ ({t} _ {ij }={{{{{{{{\ rm{年 }}}}}}}}}_{ ij }^{{{{{{{\ rm{最后的论文 }}}}}}}}-{{{{{{{{\ rm{年 }}}}}}}}}_{ ij }^{{{{{{{\ rm{第一篇}}}}}}}}+ 1 \)

我们通过检查2017年网络中保留和放弃作者的个人层面属性(如机构声望和性别)的差异,评估了在协作网络树中修剪作者所引起的偏见。在保留人口中,女性作者占35.6%,而在下降人口中,女性作者占31.9%。而且,被保留的作者的平均机构声望得分为5.51,被放弃的作者的平均机构声望得分为3.41,这表明树状子图中的作者通常来自声望较低的机构。

数据操作和可视化

我们使用R包数据。t一个ble version 1.14.0 for processing and manipulating publication and citation data62.本研究所有数据可视化图形均采用R包ggplot2 3.3.5版本制作63

报告总结

有关研究设计的进一步资料,请参阅自然研究报告摘要链接到这篇文章。