一堆报纸在桌子上。

机器学习工具使用数十个指标来预测哪些生物技术论文有可能得到最多的关注。信贷:何塞•a . Bernat Bacete / Getty

多年来,研究人员一直在努力寻找公式可以准确地预测未来影响的学术论文。公布的最新尝试——机器学习算法自然生物技术5月17日1——已被证明是有争议的。

这个工具可以帮助格兰特资助者识别研究投资,告知研究人员有前途的领域的研究和潜在的“提高科技创新的步伐”,詹姆斯Weis说:计算生物学家在剑桥麻省理工学院的这项研究的合著者。

但本文描述算法已经被研究者广泛批评,有些人不同意它的建议,一个数学模型可以用来帮助确定哪些研究应该得到更多的资金或资源。

“不幸的是,又一次“有效的”主要由citation-based定义度量,那么“优化”是科学的自我参照,“在推特上分子生物物理学家丹尼尔·科赫,伦敦大学国王学院。安德烈亚斯•本德,在剑桥大学的分子信息专家,英国,写了的机器学习工具”只会延续现有学术偏见”。

除了传统的指标

算法并不是第一个努力预测将最感兴趣的研究人员从长远来看:先前的论文试图预测未来报纸的引用计数研究人员的职业轨迹。Weis说工具如他的团队已经发展很重要,因为学术文献正在迅速增长。“因此,传统的指标和方法,我们确定有前途的研究或研究人员开始分解,或他们越来越有偏见。”

他的团队在一个网络的模型使用一个报纸的地位作为一个潜在的成功,它计算使用29个指标的结合。这包括许多不同的研究者引用一篇论文,作者的变化h指数——衡量生产力和他们的论文——的影响随着时间的推移,作者和其他指标。

“使用这些模式,我们可以识别的研究,虽然也许少引用或来自不知名的研究机构,仍然是表现出高未来趋势暗示的影响,“Weis说。“我们在这项工作的总体目标是探讨我们是否能够使用数据驱动的方法来帮助揭开“隐藏的宝石”的研究,这将继续有效,但这可能不是受益于著名的开箱即用的引用计数,是典型的高,高度建立组。”

先前的模型倾向于依赖较少的指标,Weis说,他的团队的方法可以预测哪些论文最有可能吸引兴趣更大的准确性。

研究人员训练算法几乎170万年42生物科技期刊研究论文发表在1980年至2019年之间,和用它来正确识别一些重要生物技术的研究。他们还用它来确定排名50 2018年发表在这些期刊上的论文。他们预测,到2023年- 5年之后出版这些文件将被证明是最有效的论文发表在2018年的5%。

目前,模型是有限的生物技术,尽管Weis说它可以适应评估在其他学科研究论文。

黑盒算法

研究meta-science大顺Wang在埃文斯顿的西北大学,伊利诺斯州,喜欢精确Weis团队的模式如何确定突破和高影响力的工作。“整体精度是惊人的,”王说,作者2013年科学研究2在另一个数学模型,项目手稿可能吸引最引用。尽管如此,他警告说,这些算法往往一个黑盒子。“虽然这里介绍的方法显示了承诺,我们还需要更好的解剖机制背后的成功预测未来的影响,帮助我们做出更明智的决定。”

其他人则更加怀疑。骰子游戏Waltman,科学与技术研究中心副主任荷兰莱顿大学说,诸如此类的模型不应该被用来决定资助。他指出,一个特定的研究是有效的或高度引用并不意味着相似的研究几年后将会进行。

Waltman还认为,如果投资者开始使用参数标准工具决定多少研究经费分配给一个特定的区域,这将不可避免地导致更多的在这一领域工作的研究人员和相互引用,并最终一定数量的高影响力的工作。“这是一个自我实现的预言”,他说。“但这并不能证明你已经做出了正确的融资决策。”

作为回应,Weis说,许多投资者已经使用“次优”工具来评估拨款提案,包括引用和等指标h指数;他的目标是开发一种方法,不太有偏见,和“提供工具,强调值得研究和调查人员今天可能被忽视”。“我们的工作应该被理解为一个更广泛的科学分析工具箱的一部分,用于结合人类经验和直觉,”他补充道,“以确保我们确实是扩大了研究的范围。”