上个月,美国政府宣布,由联邦资金产生的研究论文和大多数基础数据应该免费向公众开放,这一政策将在2025年底前实施。这是最重要的举措。欧盟的科学资助项目“地平线欧洲”(Horizon Europe)已经要求几乎所有数据都是公平的(即可查找、可访问、可互操作和可重复使用)。这种数据共享策略背后的动机是使数据更易于访问,以便其他人可以使用它们来验证结果并进行进一步分析。

但是仅仅把这些数据集放到网上并不能带来预期的好处:很少有数据集是真正公平的,因为大多数数据集是找不到的。需要的是组织元数据的策略和基础设施。

想象一下,你必须搜索关于某个主题的出版物——比如说,碳回收的方法——但你只能使用文章标题(没有关键词、摘要或搜索词)。这就是寻找数据集的基本情况。如果我想找出所有与碳回收相关的沉积数据,这个任务将是徒劳的。当前的元数据通常只包含管理和组织信息,如调查人员的姓名和获取数据的日期。

更重要的是,为了让科学数据对其他研究人员有用,元数据必须明智地、始终如一地传达实验的要点——测量的是什么,在什么条件下。作为一名构建技术以协助数据注释的研究人员,令人沮丧的是,在大多数领域,使数据FAIR所需的元数据标准甚至不存在。

关于数据集的元数据通常缺乏特定于实验的描述符。如果存在,它们是稀疏的和特殊的。例如,搜索基因表达综合(GEO)的研究人员可能会寻找基因组数据集,其中包含一种疾病或状况如何在年轻动物或人类身上表现的信息。执行这样的搜索需要了解个人的年龄是如何表示的——在GEO存储库中,年龄可以是年龄、年龄、年龄(出生后)、年龄(年)、年龄(年)或数十种其他可能性。(通常,这类信息在数据集中完全缺失。)因为元数据太特别,自动搜索失败,调查人员浪费了大量的时间手工筛选记录来定位相关数据集,并不能保证大多数(或任何)可以被找到。

一些乐观主义者认为,这个问题可以通过参考已发表手稿中的数据集来解决,这些数据集至少包含了实验细节。但通常情况下,没有出版的手稿出现;即使是这样,它的描述也很少足以理解存储数据的形式。因此,数据集的元数据必须独立存在,并且它们需要遵循社区接受的指导方针,列出实验的关键属性。

当存在元数据标准时,技术可能会有所帮助。我在加州斯坦福大学的团队开发的CEDAR Workbench提供了一种创建标准化元数据的通用方法。CEDAR依赖于机器可读的元数据报告指南和特定学科采用的控制术语库,它自动生成表单,提示在线存储数据的人填写元数据字段,并使用给定科学界认可的所有实验描述符注释数据集。(该工具已被用于生物标记物调查和风能实验等不同领域。)结果是可以可靠搜索的元数据,并且使用特定的、一致的术语来表明实验的实际内容。(例如,只有一种方式表示“年龄”。)但是工作台在缺乏基本元数据标准的学科中毫无用处——包括大多数科学领域。

如果我们认真对待数据共享,我们需要制定标准,使数据公平。资助机构必须超越对FAIR数据的简单授权。例如,位于海牙的荷兰卫生研究与发展组织(ZonMw)举办了讲习班,以制定简单的元数据标准,供其赠款接受者使用。这一过程已经为报告与COVID-19和抗微生物药物耐药性有关的结果制定了指导方针,并计划举办更多讲习班。作为资助的一个条件,ZonMw要求新的资助接受者使用这些标准。其他供资方应采取这种更具参与性的做法,在发出要求的同时提供有针对性的援助。这不仅会为有针对性的研究项目带来更好的数据集,而且还会创建社区想要应用的元数据标准。

如果我们真的想要公平的数据,新的国际数据共享授权将会有一个巨大的价格标签。ZonMw研讨会的负责人估计,考虑到研讨会参与者贡献的劳动力,开发一个标准的成本为4万欧元(4万美元)。

科学家和他们的资助者需要认识到,FAIR数据需要的不仅仅是授权——这样的数据需要巨大的投资。研究界必须致力于为元数据创建特定于学科的标准,并在整个科学企业中应用这些标准。