重新定义卓越解决解决科学问题的激励机制做法官只把指标当作替代品

图片来源:大卫·帕金斯插画

重新定义卓越:修正激励机制以修正科学

Rinze Benedictus和Frank Miedema

对指标的痴迷遍布科学界。我们的机构,荷兰乌得勒支大学医学中心,也不能幸免。在我们的网站上,我们自豪地宣布,我们每年发表大约2500篇同行评议的科学论文,引用率高于平均水平。

几年前,一个评估委员会花了几个小时讨论提拔几位教员中的哪一位,最终选定了已经获得特别著名的助学金的两位。与此同时,那些花时间起草政策建议的教师们很难解释这是如何增加他们的科学产出的,即使它影响了全国各地的临床决策。

自然特别的:年轻科学家

直接影响患者护理的出版物在评估中的权重并不比其他任何论文高,如果该工作出现在灰色文献中——即官方报告而不是科学期刊上——则更低。一些研究人员被坚决劝阻不要发表可能改善医学但很少被引用的论文。所有这一切导致许多教职员工,尤其是年轻员工抱怨说,发表论文的压力使他们无法做真正重要的事情,比如加强与患者组织的联系,或者努力让有前景的治疗方法在现实世界中发挥作用。

该机构决定打破这种思维模式。我们的大学医疗中心刚刚完成了第一轮教授聘任,采用了一种不同的方法,每年将继续使用这种方法聘任大约20名教授。该机构正在以一种新的方式评估研究项目。

超越指标

2013年,乌得勒支大学医学中心(UMC)、乌得勒支大学和阿姆斯特丹大学的高级教员和管理人员(包括F.M.)举办了研讨会,并发表了一份立场文件,结论是文献计量参数被过度强调,社会相关性被低估1.这引起了媒体的广泛关注,报纸和电视节目专门报道了科学中的“危机”。其他研究也得出了类似的结论23.4.在这次公开讨论之后,我们发起了自己的内部辩论.我们有两个目标。我们希望制定政策,确保对个别研究人员的评判标准是他们的实际贡献,而不是他们发表的论文数量。我们希望我们的研究项目能够创造社会影响,而不仅仅是科学卓越。

每次会议都有20-60名UMC乌得勒支的研究人员参加,许多人因为他们的坦率而被明确邀请。他们中有博士生、年轻的首席研究员,也有教授和系主任。执行委员会,尤其是f.m.,通过公开承认出版压力、不正当的激励和科学上的系统性缺陷,为坦率的批评做好了准备56

与会者就好奇心驱动的研究和临床需求激发的研究之间的正确平衡进行了辩论。他们考虑了病人的建议在确定研究重点、定义良好的博士发展轨迹以及如何权衡科学新颖性和社会相关性方面的作用。我们在我们的内部网站和杂志上发表了这些会议的采访和报告。

第二年,我们重新定义了寻求学术晋升的申请人被要求提交的作品集。没有多少例子可以指导我们,但我们从斯德哥尔摩卡罗林斯卡学院(Karolinska Institute)采用的方法中获得了灵感,该学院要求候选人在科学、教学和其他方面取得一系列成就。

除了其他元素,乌得勒支大学的候选人现在还要提供一篇关于他们是谁以及他们作为教职员工的计划的短文。他们必须讨论五个领域的成就,其中只有一个是科学出版物和资助。首先,候选人要描述自己的管理职责和学术职责,比如为期刊做评审,为内部和外部委员会投稿。其次,他们会解释他们在学生身上花了多少时间,他们开设了哪些课程,他们承担了哪些其他责任。然后,如果适用,他们描述他们的临床工作,以及他们参与组织临床试验和新治疗方法和诊断方法的研究。最后,投资组合涵盖创业和社区外展。

我们还修改了申请人评估程序。委员会主席的正式任务是确保每个候选人都讨论了所有领域。这让我们不会忽视那些具有难以量化的品质的人,比如他们有动力将“有希望的”结果变成对患者真正重要的东西,或者寻求不明显的合作。

打破“文献计量思维”的另一个方面是我们如何评估我们的多学科研究项目,每个项目平均有80名主要研究员。评估方法是由教师组成的一个委员会制定的,他们大多在职业生涯的早期阶段。根据英国研究卓越框架(UK Research Excellence Framework)概述的流程(该框架负责审计英国机构的产出),委员会成员借鉴了案例研究和已出版的文献,定义了可用于广泛评估的属性。这导致了一套半定性指标,包括传统的结果测量,UMC乌得勒支和其他社区的领导力和公民身份评估,以及结构和过程的评估,如研究问题如何形成和结果传播。我们认为这些转变将减少浪费78提高影响力,并吸引研究人员相互合作和与整个社会合作。

持久的改变

UMC乌得勒支大学的研究人员已经习惯了国家评估,所以我们修改评估的提议落在了沃土上。然而,制定这些新政策需要承诺和耐心。

我们的方法有两个方面至关重要。首先,我们没有让自己被只有与资助者和期刊的联合行动才能带来真正变化的信念所麻痹。作为一个机构,我们愿意自己前进。其次,我们确保,尽管改变是由高层激发的,但标准是由希望以这些标准来评判的教职员工制定的。事实上,在国际上对文献计量指标的持续批评引发了充分的辩论之后,第一波集团领导人已经接受了新系统,该系统将在未来几年渗透到该研究所。

在过去几年的讲座和研讨会中,我们最初感到震惊的是,职业生涯早期和中期的研究人员对现代科学的“商业模式”以及科学的真正运作方式知之甚少。但他们很投入,学习能力强,能迅速找到改进科学的前瞻性想法。学生们与高级教师组织了一次头脑风暴会议,讨论如何改变医学和生命科学课程,纳入奖励和激励结构。博士委员会选择“年度导师”是基于监督的质量,而不是像以前的习惯那样,仅仅是监督博士生的数量最多。

扩展的社区讨论得到了回报。我们相信,选拔和评估委员会很清楚,文献计量学可以是一种简化的力量,但评估人员可能缺乏词汇来讨论较难量化的维度。通过正式要求定性指标和描述性投资组合,我们扩大了可以谈论的内容9.我们塑造塑造科学的结构——我们可以确保它们不会扭曲科学。

图片来源:大卫·帕金斯插画

判断:仅仅把指标当作替代品

马克·w·j·弗格森

大约20年前,当我还是英国曼彻斯特大学(University of Manchester)生物科学学院院长时,我做了一个实验。当时,我们用传统的标准评估申请任命和晋升的候选人:出版物数量、期刊质量、h-index等等。

相反,我们决定让申请人告诉我们他们认为最重要的三份出版物是什么以及为什么,并每一份都提交一份。我们问了一些简单直接的问题:你发现了什么?为什么它很重要?你对你的发现做了什么?为了让申请人对这种特殊的评估感觉更舒服,我们还指出,如果他们愿意,他们可以提交一份他们所有其他科学出版物的清单——每个人都这样做了。

这段经历影响了我现在的工作,我现在是爱尔兰主要科学基金机构的总干事。申请人选择的三种出版物告诉了我很多关于他们的成就和判断。他们经常强调自己工作的非传统影响。

例如,一个想成为医学教授的人,他的研究是关于安全地缩短住院时间,他选择了一篇他在免费的、没有评审的杂志上写的文章,医院的医生.当被问及原因时,他回答说,医院管理人员和大多数医生实际上都读过那本杂志,所以那篇文章促进了他的发现被迅速采用;后来,他在一份著名的医学杂志上详细介绍了这一影响深远的结果(他选择不提交这篇论文)。

我相信大多数委员会成员确实阅读了提交的论文,不像在其他评估中,小组成员只有时间浏览详尽的出版物清单。这种方法可能不会改变委员会的决定,但它确实改变了候选人和小组成员的动机。重点是那些重要而有意义的工作。当论文数量或引用数量成为主要的评估标准时,人们往往忽略了基本的问题:这位科学家做了什么,为什么重要?

这位科学家做了什么?为什么这很重要?

但委员会成员经常感到不舒服;他们认为他们的选择是主观的,他们觉得数字更安全。毕竟,生物科学学院刚刚经历了一场重大改革,将研究活动放在优先位置。委员会成员有一个观点——文献计量方法确实带来了一些客观性,可能有助于避免偏见和偏见。然而,这些方法并不一定能帮助少数民族、年轻人或那些致力于解决特别困难问题的人;它们也不鼓励可重复性(参见go.nature.com/2dyn0sq).进行判断是人们在做重要决定时应该做的。

当我从院长的位置上离开时,这个体系又恢复了传统形式。导致文化规范差异的变化很难维持,特别是当它们依赖于少数人的激情时。从那以后的几年里,文献计量评估越来越多地嵌入到世界各地的评估中。最近,反对他们影响力的声音越来越大3.

为了推动科学事业朝着更好的质量衡量方向发展,也许我们需要一群领先的国际大学和研究资助者的共同努力。你所衡量的就是你所得到的:因此,如果资助者专注于评估可靠的研究进展(具有潜在的经济和社会影响),那么这可能会鼓励可靠的、重要的工作,并阻止文献计量游戏。

资助者能做什么?通过调整奖励,这些机构可以深刻地影响研究人员的选择。英国政府已经委托了两份报告210研究如何利用文献计量学,并正在考虑改善全国评估的方法。我们已经看到美国国立卫生研究院(National Institutes of Health)对可重复性给予了更高的重视,对方法的关注有所增加,并制定了在拨款评审员提出的担忧得到明确解决之前不发放资金的政策。荷兰的主要资助机构荷兰科学研究组织(Netherlands Organisation for Scientific Research)已经为重复实验分配了资金。

研究资助者也应该明确鼓励重要的研究,即使是以牺牲发表率为代价。为此,在爱尔兰科学基金会,我们将尝试改变拨款申请表格,类似于我在曼彻斯特的试点。我们还将推出奖励,例如导师奖。我们相信,这些具体的步骤将在长期内激励高质量的研究,抵消当前系统中的一些扭曲,并帮助机构效仿。

如果有足够多的国际研究组织和资助者回到晋升、任命和评估的基本原则上,那么也许可以适当地使用替身——作为支持信息。它们本身不是端点。