简介

2016年出版《科学数据管理和管理的公平指导原则》1支持一种愿景,即有价值的科学产出通过变得更易于发现、访问、互操作和可重用而变得“公平”。从一开始,FAIR指导原则就旨在适用于多种数字资产。越来越多的人认识到研究软件在研究中的重要性,促进了FAIR指导原则在这类数字资产中的应用。

社区认可的研究软件公平原则由研究软件公平工作组(工作组)于2022年发布,该工作组由研究软件联盟(ReSA)、未来研究交流和E-Scholarship (FORCE11)以及研究数据联盟(RDA)联合召集。这一里程碑反映了研究界在理解拥有FAIR研究软件的好处方面的成熟,并作为FAIR4RS工作组共同实现这一目标。FAIR4RS工作组是一个全球性的跨学科社区,其成员对FAIR原则在软件研究中的应用有共同的兴趣,如研究人员、软件用户、开发人员和维护者、政策制定者、基础设施支持人员和资助者。

FAIR4RS原则适用于研究界寻求提高研究透明度、可重复性和可重用性的任何利益相关者。本文强调了FAIR4RS原则的重要性,以及体现了社区高度支持的积极采用信号。必须承认的是,研究软件和数据的可发现性是一个长期的挑战,过去已经有很多努力来解决它23..从这个意义上说,FAIR4RS原则提供了一个综合性框架,整合了这些现有工作的各个方面。

本文组织结构如下。结果部分简要介绍了FAIR4RS原则,并提供了如何将它们应用于不同类型的研究软件的示例。讨论部分考虑了它们的重要性和影响,并提供了在实践中实施的组织示例,供读者学习和利用。最后,方法部分讨论了开发FAIR4RS原则的过程如何利用和扩大了社区对研究软件在最大化研究价值方面的关键作用的理解,从而导致早期采用的非常积极的信号。

结果

在本节中,提出并解释了1.0版本中包含的FAIR4RS原则4.首先,描述每个基本原则(F, A, I和R),然后是用于详细说明的编号指导原则。应该指出的是,FAIR4RS原则和FAIR指导原则都是有抱负的。社区聚集在一起,通过定义简单和研究软件适当的目标,来明确共同的目标,以通知那些发布和/或保存研究软件的人。以下是上下文信息,然后介绍如何将原则应用于三种类型的研究软件的例子。

FAIR4RS工作组将研究软件定义为包括“在研究过程中或为研究目的创建的源代码文件、算法、脚本、计算工作流和可执行文件”。用于研究但不是在研究过程中或出于明确研究目的而创建的软件组件(如操作系统、库、依赖项、包、脚本等)应被视为研究中的软件,而不是研究软件。这种差异可能在不同学科之间有所不同。”5

FAIR4RS原则

FAIR4RS原则2是:

F:软件及其相关元数据对人和机器来说都很容易找到
F1。软件被分配一个全局唯一的持久标识符。
F1.1。表示粒度级别的软件组件被分配了不同的标识符。
定焦。软件的不同版本被分配不同的标识符。
F2。用丰富的元数据描述软件。
F3。元数据清楚而显式地包括它们所描述的软件的标识符。
F4。元数据是公平的,可搜索和可索引的。
答:软件及其元数据可通过标准化协议检索
A1。软件可通过其标识符使用标准化通信协议进行检索。
A1.1。该协议是开放的、免费的、可普遍实现的。
A1.2。协议允许在必要时进行身份验证和授权过程。
A2。元数据是可访问的,即使软件不再可用。
I:通过交换数据和/或元数据,和/或通过标准描述的应用程序编程接口(api)进行交互,软件与其他软件进行互操作
I1。软件以符合领域相关社区标准的方式读取、写入和交换数据。
I2。软件包括对其他对象的限定引用。
R:软件既可用(可以执行)又可重用(可以理解、修改、构建或合并到其他软件中)
R1。软件是用许多准确和相关的属性来描述的。
R1.1。软件被授予了一个清晰的、可访问的许可。
R1.2。软件与详细的出处相关联。
R2。软件包括对其他软件的限定引用。
R3。软件满足领域相关的社区标准。

FAIR调研软件示例

提供了三个研究软件项目如何实施这些原则的例子,以增加对它们在实践中如何应用的理解。值得注意的是,FAIR4RS原则的应用是软件所有者(通常是创造者)的责任,而不是用户的责任。但是,需要学术性的基础结构来提供某些功能,以便将FAIR应用于软件。这些原则可以应用于广泛的研究软件,这里的示例包括用于特定任务的命令行工具、构成复杂研究软件产品的脚本和笔记本的集合,以及其他包或库的图形用户界面。下面三个例子展示了如何实现FAIR4RS原则的部分内容。

  • Comet是一个命令行工具和桌面应用程序,用于串联质谱序列数据库搜索6.它被登记在个人简历中。工具目录的生物信息学工具,其中它有一个全球唯一和持久的标识符(FAIR4RS原则:F1),和丰富的元数据(F2),其中包括标识符(F3),是可搜索和可索引的(F4)。Comet可以通过使用https (A1)的元数据中提供的链接通过浏览器下载。生物的元数据。tools独立于Comet存储库,并且在软件本身无法访问时仍可访问(A2)。Comet使用来自蛋白质组学领域的标准数据类型作为输入和输出数据(I1),这些数据作为功能注释(I2)记录在元数据中。该软件在Apache 2.0开源许可下获得许可,GitHub上的公开可访问项目存储库包括关于其开发的详细信息(R1)。该代码包含对外部软件包的依赖关系,例如Thermo Scientific的MSFileReader库(R2)。

  • “PuReGoMe”项目旨在通过分析实时推特数据,了解新冠疫情期间荷兰民众的情绪7.它为此目的提供了Python脚本集和Jupyter笔记本。PuReGoMe有一个来自Zenodo (F1)的(版本化的)DOI,并在研究软件目录中注册,该目录以可搜索和可索引的形式(F4)捕获最相关的元数据(F2),包括标识符(F3)。软件可以从项目存储库(A1)中下载,而元数据可以独立于注册中心(A2)进行访问。PuReGoMe使用标准文件格式(如CSV文件)进行数据交换(I1),并引用其他对象,如网站(I2)。该项目使用Apache 2.0开源许可证,GitHub存储库有详细的开发历史记录(R1)。代码包含对其他软件的依赖关系,比如各种Python库(R2)。

  • gammaShiny是一个为R gamma包提供增强的图形用户界面的应用程序8.它用于处理现场发光年代测定的伽玛射线光谱测定。gammaShiny已保存在HAL法国国家档案中,它有一个持久的全球唯一标识符8(F1)使用元数据记录的HAL标识符和SWHID,专门标识软件遗产通用软件源代码存档上的软件工件。由于HAL平台是强制性的,gammaShiny使用的是GNU通用公共许可证v3.0 (R1)。软件遗产中的gammaShiny源代码的存档版本包括一个代码元。json文件,用SWHID标识,其中其他元数据可用,包括在CodeMeta - ' softwarerequirequirements ' (R2)中命名的依赖项。

讨论

本节讨论FAIR4RS原则在反映研究社区成熟方面的重要性和影响,并提供了采用示例供读者学习,以促进更容易的实施。

研究群体成熟

FAIR4RS原则的制定是研究界认识到研究软件对全球研究的基础和至关重要的价值不断增加的一个里程碑。虽然改善学术实践是开放科学、科学软件和FAIR社区的共同目标,而使研究软件更加FAIR可以改善研究,但研究软件只是现在才成为公平的一个强烈焦点。

虽然通过将软件和数据视为类似的数字研究对象,许多FAIR指导原则可以直接应用于研究软件,但软件的独特特征(例如,其可执行性、复合性质、持续演变和版本控制)以及开发和共享软件的生态系统(例如,社会编码平台、包管理系统)使得有必要修改和扩展这些原则,以创建FAIR4RS原则。例如,虽然使数据公平的过程通常是在数据发布到存档时完成的,但理想情况下,开源软件应该在最初开发时就开始努力满足FAIR4RS原则,因为其他人可以直接从其开发环境中使用它。

制定社区认可的原则的另一个好处是促进共享实践。使社区参与能够提高对不同利益相关者面临的挑战的认识,以及这些原则可能如何解决这些挑战。FAIR4RS工作组确定了未来工作的一系列机会910他们都强调需要加强社区实践的标准化。这些领域包括元数据和标识符权限、元数据词汇表和元数据属性、软件标识符、软件和标识目标的领域相关社区标准。本文的讨论将使想要遵循这些原则的人更容易了解如何这样做。

采用

FAIR4RS工作组成功地促进了其成果的初步采用,反映了高水平的初步影响。FAIR4RS原则的采纳和实施将为许多利益相关者带来重大成果,包括让资助者更加清楚地了解自己对软件投资的要求,以及为出版商和研究机构提供共享要求的指导方针。FAIR4RS原则也与更大的生态系统和支持研究软件的利益相关者相关(例如,存储库和注册中心)。许多团体和组织正计划采用FAIR4RS原则,包括ELIXIR、澳大利亚研究数据共享(ARDC)、荷兰eScience中心(NLeSC)和ZB MED,并在这一点上处于不同阶段,如本小节所述。这表明了FAIR4RS原则获得的初步组织支持,并提供了其他组织可以考虑实施的政策、指导方针和活动的信息。

FAIR4RS工作组于2022年5月完成了工作,发布了社区验证的原则。RDA软件源代码兴趣组是FAIR4RS原则的维护之家。对于这些原则的关注或疑问可以在这个兴趣小组组织的RDA全体会议上提出,采用者可能有机会报告进展情况。在两年的时间里,社区将再次聚集,看看是否有什么需要改变。

澳大利亚研究数据共享

ARDC是一个由澳大利亚政府的国家合作研究基础设施战略支持的国家设施。ARDC的使命是通过推动高质量数据集的创建、分析和保留方面的卓越表现来加速研究和创新。为了支持这一点,ARDC的研究软件项目正在努力将研究软件视为一流的研究产出。ARDC国家研究软件议程包括在澳大利亚寻求使研究软件产出更公平的活动11.ARDC正在采取一系列行动来实施FAIR4RS原则,首先是政策变化。ARDC的共同投资政策对合作伙伴提出了期望,以使接受ARDC共同投资的项目的产出更加公平。ARDC的FAIR产出政策正在更新,以便在未来共同投资产生的软件产出中适当引用FAIR4RS原则。

在实施方面,ARDC通过合作、活动和指导材料为采纳公平指导原则提供国家支持。这种支持正在扩大,包括FAIR4RS原则,以及通过RDA FAIR4VREs工作组为虚拟研究环境(VREs)制定等效指南。最初的参与重点是通过ARDC平台社区,该社区代表了26个开发国家平台基础设施的项目,总投资为5800万澳元。随后将开展针对澳大利亚更广泛的研究软件社区的活动。有关材料开发的活动已经开始。正在开发FAIR研究软件,以补充非常成功的ARDC FAIR数据自我评估工具。这一新工具将被用于提高对FAIR4RS原则的认识,并帮助各种利益攸关方确定并制定采取FAIR4RS原则的目标行动。最后,虽然目前ARDC本身并不是研究软件的主要生产者,但它将把自己的一些软件输出变成FAIR,以展示这样做的努力和影响。

长生不老药

ELIXIR协调和开发整个欧洲的生命科学资源,使研究人员可以更容易地找到、分析和共享数据,交流专业知识,并实施最佳实践。作为一个由生命科学家、计算机科学家和支持人员组成的欧洲政府间组织,ELIXIR联合了欧洲领先的生命科学组织,帮助研究人员利用生命科学中产生的大量数据,对生物体如何在健康和疾病中发挥作用获得新的见解。这是通过协调、整合和维持ELIXIR成员国的生物信息学资源,并使学术界和工业界的用户能够获得对他们的研究至关重要的服务来实现的。

在生命科学的所有领域推进对生命和疾病的理解,需要研究数据、分析工具、标准和计算服务遵守FAIR指导原则。ELIXIR政策以数据为中心,明确指出“所概述的大多数原则同样适用于其他研究资产,如软件、培训材料和其他数字研究对象”。12,并建议ELIXIR基础设施的所有研究成果都是公平的,包括强烈建议ELIXIR的所有合作伙伴,由ELIXIR开发和支持的软件是公平的。这包括独立工具(如InterMine)、平台(如Galaxy)以及服务(如bio。工具和OpenEBench)。此外,在公平评估和采纳过程的背景下,特别令人感兴趣的是实现和支持研究成果公平的服务,例如公平分享。这是rda认可的资源,由ELIXIR和所有学科的其他组织推荐。在研究软件的背景下,FAIRsharing涵盖:(i)用于描述软件元数据的标准;(二)作为软件输入和输出格式的标准;(ii)软件代码库。

此外,ELIXIR工具平台的最新成就之一是ELIXIR软件管理计划13,是专为生命科学研究人员量身定制的低门槛标准,用于捕获在特定项目或活动的生命周期内生成的软件的生命周期13.作为ELIXIR采用FAIR4RS原则的一个明确结果,路线图已经到位,以确保ELIXIR软件管理计划,目前作为基于数据管理向导的独立工具实现14,与它们完全对齐。具体来说,软件管理计划的章节和个别问题将被明确注释到相应的FAIR原则中,以提高原则本身的意识,并在ELIXIR中促进软件的公平。

在ELIXIR培训平台下也有一些与FAIR相关的培训工作;FAIR数据管理和数据管理培训、FAIR培训、Terms4FAIRskills倡议等。一套新的培训材料将在未来两年内开发,以增加软件管理计划的使用和对FAIR4RS基本原则的理解。

荷兰科学中心

荷兰eScience中心是荷兰研究软件专业知识的国家中心,并有一个开放科学和软件可持续性的内部战略。本文档强调了eScience中心愿景中软件质量、可重用性和可采用性的中心地位。FAIR4RS原则是这一愿景的关键元素,特别是与软件可重用性相关的。

eScience中心通过以下方式采用FAIR4RS原则:

  • 使用FAIR4RS原则来支持可重用软件的创建,作为其调用和项目的一部分。所有eScience中心资助的项目都必须有软件管理计划。

  • 通过技能和知识开发活动,帮助开发实施FAIR4RS原则所需的技能:数字技能培训、制定实用指南等。他们的数字技能计划帮助开发一些必要的技能,以开发尽可能可重用的软件。

  • 更新FAIR软件工具的五大建议15更好地与FAIR4RS原则保持一致。

  • 在(国际)国家层面推动有关政策议程的原则。例如,eScience中心正在与荷兰研究委员会(NWO)合作,为软件管理计划创建国家模板。这些模板的目的是为荷兰的研究组织和科学界以及个人研究人员提供指导,指导他们如何组织研究软件并确保其可持续性。FAIR4RS原则正被视为这些模板开发的起点。模板提供的指导将尽可能与FAIR4RS原则紧密一致。

ZB地中海

ZB MED生命科学信息中心是德国生命科学信息和数据的国家基础设施和研究中心。ZB MED的使命是确保国家提供医学、保健、营养、环境和农业科学领域的信息和文献,包括相关基础科学和相关学科领域,用于研究、教学和实际应用。为了支持这一点,ZB MED遵循并鼓励开放的科学政策,以便所有的研究成果向公众开放,并坚持公平指导原则和良好的研究管理实践。然而,数据只是拼图的一部分。为了使研究具有可重复性和可持续性,需要在所有部分(包括数据、软件、工作流程和其他研究对象)上进行连接的FAIRification。

ZB MED通过在这方面为研究人员提供支持、建议和培训来促进FAIR指导原则。ZB MED目前正在采用和推广FAIR4RS原则,以更好地支持研究软件。ZB MED的研究人员已经遵循了一些与FAIR和开放相关的实践,包括对开源代码的建议16,结合FAIR软件工具的五大建议15.目前,ZB MED正在调整和扩展这些实践,以更好地使其与FAIR4RS原则和同一小组正在制定的采用指南保持一致。此外,ZB MED计划扩大围绕FAIR的传播活动,包括FAIR4S原则,以便更多的国家和国际层面的研究人员理解和采用它们。

方法

一系列组织对FAIR4RS原则的采纳反映了FAIR4RS工作组与研究界进行的广泛协商。FAIR4RS工作组已聘请了约500人(来自34个国家的110多个组织)参与原则的制定,其中包括240多名FAIR4RS工作组成员。“FAIR4RS团队:共同努力使研究软件公平”17和FAIR4RS社区概况18提供关于社区协作方法的详细信息,展示跨研究软件社区的团队合作模型。

FAIR4RS工作组的工作始于2020年7月至2021年3月的子小组,为支持FAIR4RS原则的制定提供了产出。这项工作汇集在一份报告中,并于2021年3月由更广泛的FAIR4RS社区提交反馈10.FAIR4RS原则草案于2021年6月发布19并经历了一个月的正式社区审查过程。如本文所述,FAIR4RS原则的当前版本是这项工作的累积结果。

FAIR4RS工作组在社区参与方面非常成功的部分原因是,自2017年以来,它汇集了一系列努力,将FAIR的各个方面应用于研究软件10因为它寻求与FAIR的一系列数据工作保持一致。通过这种方式,FAIR4RS工作组能够利用和扩大现有的社区势头,以证明实施这些原则的好处。