遗传学家已经知道了十多年,他们专注于欧洲血统的人加剧了健康差异1。2018年的一项分析,寻找与疾病相关的遗传变异的研究发现,持续话语权缺失:研究参与者的欧洲血统的78%,而10%的亚洲血统,2%的非洲血统。其他血统每个代表总数的不到1%2。几个项目,如H3Africa3,开始增加弱势群体的参与,参与者和研究者之一。大型生物银行聚集在欧洲和北美,也结合生物样品和与健康有关的数据,设置采样目标增加多样性4- - - - - -6

但即使来自少数民族的数据是可用的,许多研究人员放弃他们7。虽然可以有效的理由分析限制在一个特定的人口,默认丢弃这些数据在伦理上是有问题的:它恶化和否定话语权缺失为研究参与者的努力。

资助机构已经采取措施来提高参与者的多样性为研究招募了——值得注意的是,这导致了更好的表现女性自1990年代以来在临床试验中。但机构较难控制人员的决策分析。科学家们把对方便统计和发布激励,既可以与更大的股票的集体目标冲突。

这里我们建议一个方法用于卫生保健可以帮助研究人员分析决策的伦理以及科学的声音。

排除

估计多久少数数据排除在外,我们检查出版物使用的数据来自英国生物库(UKB;它包含材料从502655人)或美国健康和退休研究(小时;12454人)。生物银行支持全基因组关联研究(GWAS)。这些扫描数据从成千上万的参与者发现与疾病相关的遗传变异。

比较标准的研究人员用来包含或排除在研究数据类型,我们区分参与者从多数(MAJ)和少数(MIN)组在美国和英国。我们使用MAJ不管一项研究关注自称种族,如“白色”,或一个人的祖先的位置上,如“欧洲血统”。我们用分钟来指代所有其他个人,其中包括混合血统和种族。这粗标签有助于描述数据用于统计分析,和并不意味着两组是统一的。我们数分钟数据为“包括”如果任何分析报告性状或疾病与基因型在相关样本。

首先,我们回顾了21篇文章从GWAS目录(www.ebi.ac.uk gwas),包含关键字“英国生物库”(见补充信息)。二十只限制他们的分析MAJ个人UKB数据库中(其中两个还从更广泛的分析数据血统在其他数据库)。我们也查询在线存储库和随机采样20 GWAS UKB使用数据。只有一分钟数据使用。最后,我们回顾了17 GWAS小时在线出版物列表上市。这里,只有6个研究分析MAJ人群有限,也许是因为最小的参与者的比例在美国生物(24%)高于英国(5%)。

总体而言,45的58个研究样本排除分钟数据。如果我们体重表示由个体的次数的数据实际上是分析,最小值表示在UKB降至0.06%(见“离开”;细节的补充信息)。这有问题的情况会奇怪一些遗传学研究人员6,7

排除在外。图形比较少数英国生物库招聘和分析。

来源:c . Ben-Eghan的分析et al。

UKB和小时努力代表本国人口。然而,从少数民族包括个人数据组而不是分析可以被视为事实上的装点门面。未使用的数据不帮助弱势群体。

为什么不呢?

45的研究,排除数据,31日没有理由。剩下的14个研究提供15解释排除。

最常见的解释是恐惧混淆(11/15)。如果一个基因变异发生在一群祖先更常见,这组发生有较高的特定特征,将会有一个有变体之间的相关性和特质。一个例子是儿童哮喘,这是由遗传和环境因素的影响。研究人员可能会混淆作为证据的相关性,这种变体引起儿童哮喘。尽管统计方法,以避免混淆的存在,他们并非万无一失,混淆是一个合法的问题7

没有必要排除数据来减少混淆的风险。分别来自不同团体的数据可以分析。然而,由于少数样本数量小得多,他们有更少的统计力量,因此不太可能揭示新的遗传关联。

这种缺乏权力的second-most-cited原因排除(3/15)。一个动力不足的研究可以被看作是浪费时间,因为它可能不会产生显著的结果。因为找到一个遗传协会就足以获得出版,添加其他人群是有代价的分析。它需要时间,让手稿更复杂,给评论家批评一件事,所以可能会推迟出版。

只是一项研究明确提及以下方法从过去的出版物的理由排斥(1/15),但我们认为,这是常见的。有很好的理由遵循先例:使用标准分析管道降低开发成本和开展广泛的验证和解释的必要性。

在一起,这些三个原因驱动人员丢弃数据从最小数量。

失去了机会

通过省略数据,科学家们浪费一个机会来构建少数民族学生有用的知识。如果研究人员执行GWAS欧洲血统的人群,他们可以经常使用以前公布的结果汇总统计的形式来加强他们的发现。因为总结统计小隐私风险的参与者,他们通常可以在几分钟内自由下载。做同样的与最小的人口数据,没有之前报道需要访问方面的个人信息。这涉及到获取制度伦理批准,请求队列的数据访问,加上清洁和处理数据,最后GWAS表演。这可能需要数月时间。如果最小数据没有分析与MAJ数据,他们可能永远不会被使用。

完成后作为主要的研究的一部分,相比之下,最小值添加小成本分析,可以丰富(见“理由包容”)。

理由包括

作为研究的一部分,哮喘,我们进行了全基因组关联研究嗜伊红血球细胞计数。(嗜酸性粒细胞是白细胞的一个子集,往往升高患者哮喘)。我们做了三个独立的分析。一个是人口大多数(MAJ);两人的少数民族人口(MIN)使用英国生物库定义的自我报告的种族类别(参与者确定为黑色或黑色的英国,那些认定为亚洲,亚洲的英国或中国)。

MAJ分析发现432基因位点(1510独立的基因变异)。两分钟分析独立确定3位点(全基因组意义,P≤5×108),所有这些在MAJ确认分析。超过四分之一的最小分析启用验证确定变异的MAJ人口在名义上的意义(P= 0.05)。跨种族也显示整体一致的结果,除了一个变体显示名义上的意义,但相反的效果在亚洲,亚洲的英国和中国的人口,相对于MAJ分析。没有进一步的证据,这种变体可能不应该用来预测欧洲以外的遗传风险。(有关详细信息,请参阅补充信息)。

这些分析花了10小时的计算时间以及一些深谋远虑。这是无关紧要的相比之下,访问数据的成本。数以百万计的协会变异的证据我们测试现在可以相比在数量和可以用于荟萃分析。这些数据具有特别重要的意义,为研究少数民族人口样本在各个军团可能缺乏统计力量。

四个标准

分析最小数据对股票和发现很重要。但是我们应该如何权衡,直接,个人负担的统计分析和延迟出版吗?一般规则,适用于所有的研究很难定义,但有一个方法应该有所帮助。

在过去的二十年里,政府和伦理学家依靠框架称为责任合理性(A4R)帮助分配稀缺资源在卫生保健,如新的或昂贵的治疗。A4R承认个人在一个多元化的,民主社会给不同的重量不同的考虑,所以可能永远不会达成广泛的原则。相反,A4R侧重于决策过程本身,和制定了标准,鼓励公平和合法性8。简而言之,原因应该透明和相关决策。坚持这些标准应执行和衡量的方式适应新的信息。

A4R标准建议的小变化分析和发布约定,将改善公平和问责制。

透明度。在他们的出版物,研究人员应该状态原因不包括参与者数据。更一般的,他们应该解释设计和分析选择,有可能恶化的不平等。

的相关性。陈述理由排斥应该解释的决定寻求最佳服务社会,考虑到现实世界的约束条件的研究。原因如害怕混淆,有限的权力和先例可能不会达到这个要求如果他们可以通过一个特定的分析方法(例如,使用分层或荟萃分析)。除非更令人信服的理由,我们建议研究人员计算协会统计最小数量和报告主要研究的一部分。

执行。我们建议期刊要求提交手稿证明任何排斥的参与者的数据分析。表单应该问评论家提供了相关原因。

目标不是评论家变成道德仲裁者。相反,他们应该评估是否提供了相关的原因分析。这温和的需求将鼓励分析更包容,促进更广泛的讨论合法理由排斥和澄清对作者的预期。

重要的是,评论者应该不需要最小和MAJ人群的分析结果是一致的。差异应该被讨论,但迫使研究人员解释所有观测将防止共享有用的结果。

修订。研究人员评估的透明度和相关性应该如何改变社会和方法论。我们建议默认数据从最小数量分析变得毫无意义在军团足够的数据变得可用,关注弱势群体9。领域专业团队也可能会搬到一个模型分析最小数据跨多个表型(见,例如,https://pan.ukbb.broadinstitute.org)。这将改变的成本和收益进行后续分析的最小数据。它可以减少对个人的分析研究,同时提供的动力工具,减少负担和风险的分析为后续研究者混淆。

更包容的统计分析不能解决根本不公平现象表示在研究参与者中,更不用说解决主权权益和数据的更广泛的问题10。但是他们是在正确的方向上迈出的一步。承认道德之间的紧张关系和实际问题,遗传学等领域的研究人员可以容纳自己负责使科学进步更有效,更公平。