自然指数
2022年12月19日

人工智能系统没有准备好帮助同行评议者评估研究质量

机器学习工具需要更准确才能取代或辅助人类评估在英国卓越研究框架。

辛格Dalmeet拉⁰

辛格Dalmeet拉
1. Dalmeet辛格·乔是一个基于自由科学记者在伦敦。
看来作者出版物

你也可以搜索这个作者PubMed谷歌学术搜索

你有完全访问本文通过你的机构。

数字全息照片的蓝色透明抽屉与数据和文件夹里面,代表大数据存储。 — 人工智能可能最终帮助授予成绩成千上万的论文提交给英国大学卓越框架的研究。来源:Yuichiro斜纹棉布裤/盖蒂

研究人员负责检查是否人工智能(AI)技术可以协助同行审查期刊文章提交给英国的卓越研究框架(REF)说,系统还没有足够准确的帮助人类评估,并建议进一步测试在一个大规模的试点计划。

团队的研究结果,发表在12月12日显示,人类同行评议者AI系统生成相同的分数高达72%的时间。当平均在多个提交由一些机构广泛的34个科目“单位的评估”,裁判,“人类之间的相关性分数和AI分数非常高”,说数据科学家迈克Thelwall伍尔弗汉普顿大学,英国是这份报告的作者之一。

在其目前的形式来看,然而,该工具是最有用的,当评估研究机构提交的输出很多文章来裁判,Thelwall说。是那么有用的小大学提交只有少数文章。“如果有提交说,只是十期刊文章,然后一个或两个错误可以产生很大的影响,他们的总分。”

Thelwall说该工具需要达到95%的准确率是可行的。他和他的同事因此推荐算法在一个更广泛的范围内进行测试,这样他们就可以从大学部门获得反馈。

他们还认为他们可以提高人工智能系统的准确性通过给它更广泛的访问期刊文章的全文版本以机器可读的格式。目前,该工具使用文献信息和文章元数据来评级。Thelwall推测,他们可以测试AI在接下来的裁判通过展示算法的结果后同行评议者他们提交反馈,并要求该工具是否会影响了他们的发现。

培训问题

一个关键工具的限制是训练样本的文章,不会随着时间的推移变得更大。这意味着系统将无法持续改进其性能,对人工智能的情况通常是这样。这是因为裁判打分研究成果提交到裁判被删除,这样他们不能用于挑战决定以后,和Thelwall和他的同事们只是暂时的访问。

和有限的访问对人工智能工具不仅仅是一个问题。“从research-on-research的角度来看,这是一个悲剧,我们把这一切努力然后我们删除(数据),”詹姆斯•威尔斯顿(James Wilsdon)表示,研究政策学者和在伦敦研究所的研究主任。“大学的恐惧一直将提高法律挑战,有很多的钱,”他补充道。

与当前不足,Thelwall和他的团队说,人工智能系统不应该用来帮助同行评议在接下来的裁判过程中,由于发生在2027年或2028年,但可用于后续审计。

目标客户的担忧

作为他们研究的一部分,Thelwall和他的同事做了一些与同行评议者焦点小组参加了裁判的过程。据Thelwall,一些参加焦点小组的人担心,1000年投入使用的人工智能计算与期刊影响因子相似,有时争议的度量标准用来判断研究人员和他们的工作。“它创建一个反常激励如果大学知道他们的输出可能的得分使用信息,包括《华尔街日报》的影响,“Thelwall说。这种动机可能导致人员被迫发表在影响因子高的期刊,例如。

其他输入到人工智能系统包括团队的生产力生成文章,团队有多大,有多不同的机构和国家代表的数量,和关键词在文章摘要和标题。

一些人认为裁判过程需要更重视研究环境,这样的机构,有一个更好的研究文化与更多的资金奖励。在另一个12月12日报道,威尔斯顿和他的同事们认为审计之类的裁判需要转移注意力从“卓越”和对“品质”,覆盖更多的基础研究质量、影响、流程、文化和行为。

这份报告,后续2015年的分析威尔斯顿合著在英国的评估指标的作用研究,也认为裁判应该避免使用同行评审的所有指标方法到位。此外,它说,英国下议院科学技术委员会应该启动调查大学排行榜上研究文化的影响。

这是必要的,报告说,因为“很多排行榜供应商继续推动和加强有害激励研究文化学术界以外,同时抵制走向责任指标”。

doi: https://doi.org/10.1038/d41586 - 022 - 04493 - 8