米格尔Acevedo通常有两个问题关于他的研究疟疾蜥蜴。“蜥蜴疟疾中真正得到了什么呢?”(答案是肯定的。),“将我从蜥蜴疟疾?”(不可能)。

蜥蜴疟疾病媒传播疾病生态学与进化的模型1。同事一直在追求同样的问题,在同一地点在波多黎各,自1990年代以来,阿塞维多,一个在盖恩斯维尔的弗洛里达大学的野生生物生态学家,想把那些旧数据与自己进行长期分析。这是说起来容易做起来难。而阿塞维多使用标准化的数据输入模板的数据记录,同事的数据被记录在一个混合纸笔记本,Excel电子表格和手绘地图。“这是那个时代的大多数组织数据,但我们没有标准,我们有今天,”他说。从单表列不一定一致,他们也没有使用相同的单位,它并不总是清楚抽样网站被测量。

最后,什么可能是一个上午的努力了六、七个月,Acevedo说。“这是一个大量的工作,这不是有趣的工作,你知道吗?”

资助者和出版商要求,加上越来越多的强调科学和再现性开放,意味着研究人员越来越多地存放数据与他们的出版物。其他科学家可以使用这些数据来驱动的新研究。但并不是每一个杂志要求作者提供的数据集,和一些作者拒绝这样做,因为害怕得到舀或缺乏时间。(Springer性质的研究数据政策发布自然“强烈鼓励[s],所有数据集支持论文的分析和结论是公开发表的时候”,并要求“共享community-endorsed数据类型”)。

自然问数据科学家发布可用的最佳实践,高质量的数据——这就是他们说的。

工艺的元数据

如果有一件事科学家可以添加数据的价值最大化,这是“元数据,元数据,元数据”,说环境科学家帕特丽夏Soranno在东兰辛的密歇根州立大学。

元数据是描述数据的数据——时间戳和地理定位智能手机相机存储每个图像的细节,例如。元数据基本上解释数据是什么意思,公平,可发现的关键数据,访问、互操作和可重用性2。“数据没有元数据”阿塞维多说,“就像一个乐高没有指令集。”

这些指令应该说什么不同实验实验——显微镜比基因序列数据需要不同的元数据。但根据莎拉增刊,丹尼森大学的生态学家格兰维尔,俄亥俄州,他们通常可以放入一个简单的“自述文件”文本文件列表时,在哪里以及如何收集的数据,以及由谁;许可证下发布;数据采集是否完成;和他们的地位——原料或加工,例如。

值得定义实验变量,包括“码”单位,缩写、预期范围和缺失数据是如何表示(例如,使用“NA”)。如果有许多表或文件,然后解释他们如何相互关连。如果软件被用于数据处理,细节的工具,版本号和运行时参数,安妮·布朗说,一个产品开发的科学家在切斯特菲尔德美国拜耳作物科学,密苏里州。模板README文件,数据字典和项目总结被水晶刘易斯,在推特上分享研究数据管理顾问在圣路易斯,密苏里州(见go.nature.com/43kvzt2)。

阿塞维多,良好的元数据实践使得他的蜥蜴疟疾项目维护。“这就像从创伤中学习,”他说。

结束这份兄弟情

原始数据,探索死角和最终处理的数据集,”在项目的最后,有成千上万的版本的数据”,Ciera马丁内斯说,研究数据科学家埃里克·施密特和温迪数据科学和环境中心的伯克利,加州。所以应该科学家发布哪一个?

“如果你能够分享原始数据和导出数据,这样做,“说恋人Ram数据科学家伯克利数据科学研究所。处理过的数据构成的分析,但原始数据让其他研究人员测试假设和处理策略。

也就是说,原始数据集可以笨拙和昂贵的存储。马丁内斯说,在这种情况下,一个好的经验法则是发布的数据被用来生成数据。

最终,布朗说,发布数据不应该简单地勾一个盒子,但应服务于科学界。所以,问问自己别人可能要从数据,以及如何使用它们。“知道可以帮助您理解,好吧,如果其他研究人员要使用这些数据然后我要确保他们能理解它。”

接受标准

每个项目都是不同的,数据应该发表的期望,应该怎么做。所以,向更广泛的社区寻求指导,马丁内斯说。许多学科都有专用的数据存储库,如基因库和DNA序列的蛋白质数据库和蛋白质结构,分别。但数据也可以发布到一般档案,如Zenodo Figshare和森林女神。问你的出版商(或资助者)有一个首选的存储位置和文件格式,棕色的建议。或者,请咨询您的机构资源图书管理员,表明杰奎琳·坎贝尔,植物遗传学家美国农业部(USDA)农业研究站在艾姆斯,爱荷华州。

较小的数据集可以沉积在GitHub代码共享的网站,但这并不保证持久性、环境数据科学家警告伊森白色的佛罗里达大学的。随时可以删除或修改数据,所以正式归档数据。

从未post数据个人网站,特蕾西说,科学分析师帕萨迪纳市的美国宇航局太阳系外行星科学研究所,加州一个最佳实践文档的数据3。如果你改变工作或退休,个人网站的链接可以成为过时。

考虑到格式

数据应该在一个开放的、非专有的文件格式,艾伦Bledsoe说教授生态数据科学在图森亚利桑那大学;否则,他们可能成为不可读。Bledsoe遇到这个问题时,她不得不从Lotus 1-2-3提取数据——一个科班商业电子表格程序。“试图哄骗这些数据添加另一个步骤,”她说。

文本文件格式,如CSV(逗号分隔值),可以读到很多工具和编程语言,实现公平的“我”数据。与二进制文件,很容易跟踪文本文件是如何随着时间而变化的。最重要的是,避免使用PDF文件表,坎贝尔说,他是美国农业部的助理馆长SoyBase大豆遗传数据库。电子表格很容易导入,她说。但是PDF表格必须手动键入——缓慢、痛苦和容易出错的过程。

包括代码

如果你的代码用于数据分析,它与数据。代码揭示了许多步骤和决策,“实际上,提供更详细的版本的方法部分”,怀特说。在出版之前,测试代码运行在一个干净的计算环境——也就是说,一个没有对象在内存中。删除计算机特定元素,如硬编码的文件路径。添加评论显示你在做什么,和细节如何运行代码,建议约翰Guerra戈麦斯,东北大学的校园计算机科学家在旧金山,加利福尼亚。“认为一个时间旅行者,”他说。“我希望将来约翰知道吗?”

最后,建议Kari约旦、木工的执行主任,找到一个编码伙伴。木工,位于奥克兰,加利福尼亚,车间在科学计算和数据分析,和一个点,它使得在教练培训是“从不单独教”,乔丹说。“不教,不学习,不单独做任何事情。”

例如,怀特说,你可以要求一个更高级的程序员提供高层反馈:“几个大的东西是什么,你可以做这个更容易理解吗?“白色的典型反应这个问题建议长代码块分解成离散函数,消除重复代码,并确保函数和变量名称信息。如果第三方能理解和执行代码,增刊说,“你可能已经做了一个很体面的工作,让你的代码可读”。

认为可访问性

大数据项目通常期待一定程度的技术基础设施的潜在用户。他们对人们如何将消耗做出假设,查询和操作数据。

萨比娜说,这些假设往往不持有Leonelli,教授科学的哲学和历史的埃克塞特大学,英国。“你创建普遍使用的平台,可以无限使用,在实践中失败,因为它没有考虑这一事实可能会有世界各地的团体在不同条件下工作。”

Leonelli的建议:咨询组织,如研究数据联盟或者是国际科学理事会委员会数据,反馈您的数据标准和假设。在可能的情况下,考虑“低技术解决方案”,她说。你能开发一种低带宽版本的数据库,例如,或释放两个低收入和高分辨率图像吗?

没有考虑一系列要求,Leonelli说,结果将是一个只有你和其他类似的资源可以使用。“你生产资源的风险,不考虑这些需求。”

冒险尝试

开放的科学,Bledsoe说,“不是一个非此即彼的游戏”;任何你可以增加价值。“即使你不知道如何去到60开放科学,zero-to-20也是很好的,”她说。

所以,释放您的数据——这给了消费者更多的分析数据,和数据提供者更多的合作机会。

也很吓人,增刊承认:分享就是打开自己的审查。“有一定程度的脆弱性,”她说。“但这也是我们如何变得更好。”