安娜·塞维林的肖像

安娜·塞维林和她的同事使用人工智能分析同行评审报告。

被引频次高的期刊有更高质量的同行评议吗?评审通常是保密的,“质量”的定义是难以捉摸的,所以这是一个很难回答的问题。但研究人员使用机器学习研究了生物医学期刊上的10,000份同行评审报告,他们已经进行了尝试。他们发明了衡量质量的替代性指标,称之为彻彻性和助助性。

他们的工作报告在预印本的文章1的研究发现,与影响因素低的期刊相比,影响因素高的期刊的评论似乎花更多的时间讨论论文的方法,但花在建议改进上的时间更少。然而,高影响期刊和低影响期刊之间的差异不大,变异性很大。这组作者说,这表明一份期刊的影响因子是“对一篇稿件的审稿质量的一个糟糕的预测指标”。

在伯尔尼大学和瑞士国家科学基金会(SNSF)领导这项研究的科学政策和学术出版博士Anna Severin接受了采访自然关于这项工作和其他大规模的同行评议研究的努力。塞维林现在是德国凯捷管理咨询公司的健康顾问。

你怎么拿到这些机密同行评审报告的?

pubons网站(隶属于分析公司Clarivate)拥有一个数据库,包含了数百万篇由期刊或学者自己提交的评论。他们给了我们机会,因为他们对更好地了解同行评议质量感兴趣。

我们可以衡量同行评议的质量吗?

没有定义。我与科学家、大学、资助者和出版商的焦点小组向我表明,“质量”同行评议对每个人来说都有不同的含义。例如,作者通常想要及时的建议来改进他们的论文,而编辑通常想要关于是否发表的建议(有理由的)。

一种方法是使用清单系统地对一个人对一篇综述的主观意见进行评分,比如它在多大程度上评论了一项研究的方法、解释或其他方面。研究人员已经开发了评审质量仪器2以及ARCADIA清单3..但我们无法手动在数千条评论中大规模运行这些清单。

所以你衡量的是“彻底性”和“帮助性”?

我们SNSF与都柏林大学学院的政治学家Stefan Müller合作,Stefan Müller是使用软件分析文本的专家,利用机器学习来评估评论的内容。我们关注的是完整性(句子是否可以归类为评论材料和方法、展示、结果和讨论,或论文的重要性)和有益性(句子是否与赞扬或批评有关,提供了例子或提出了改进建议)。

我们从医学和生命科学杂志上随机挑选了10,000篇评论,并手动将其中2000句话的内容划分为上述任何一类、一类或多类。然后我们训练一个机器学习模型来预测另外187,000个句子的类别。

你发现了什么?

期刊影响因子似乎确实与同行评议的内容和审稿人的特征有关。我们发现,为影响较大的期刊提供的报告往往更长,审稿人更有可能来自欧洲和北美。在影响较大的期刊报告中,更多的句子是关于材料和方法的;与影响较小的期刊相比,更少的比例是论文的呈现,或提出改进论文的建议。

但即使在影响因素相似的期刊中,这些比例也有很大差异。所以我认为这表明影响因子并不能准确预测评论的“彻底性”和“帮助性”。我们将其理解为“质量”方面的代表。

当然,这种技术也有局限性:机器学习总是给一些句子贴上错误的标签,尽管我们的检查表明这些错误不会系统性地影响结果。此外,我们无法检查我们编码的评论中所做的声明是否真的正确。

这与其他大规模研究同行评议的努力相比如何?

一个计算机辅助研究4查看了近50万篇评论文本的语气和情感方面,发现与研究领域、审稿人类型或审稿人性别没有关联。这项研究是由欧盟资助的“PEERE”研究联盟的成员完成的,该联盟呼吁更多地分享同行评议的数据。在另一项研究中5PEERE团队的成员发现,同行评议并没有惩罚来自女性作者的手稿(尽管这并不意味着学术界不存在对女性的歧视,作者补充说)。

另一个团队与出版商PLOS ONE合作,从其数据库中检查了2000多份报告,考察了情绪和语气等方面6

我们认为,我们的研究是迈出的第一步,表明有可能以一种系统的、可扩展的方式来评估审查的彻底性和帮助性。

科学家怎样才能更好地研究和提高同行评审的质量呢?

为了改善同行评议,培训审稿人,并就期刊希望从评议中得到什么给出明确的指示和指导方针将是有帮助的。要研究它,真正重要的一步是提出不同利益相关者都同意的同行评审质量的衡量标准——因为不同的群体认为它有不同的功能。让同行评议的文本公开,而不是像一些期刊开始做的那样,将有助于解决这一切。