缺陷,如错误装配和参考基因组序列中发现差距在世界各地使用。但这种情况正在改变。大肠Dewalt / T。菲利普斯,施普林格自然。

当组装变得强硬,强硬的组装。自从第一次测序技术,这是一个艰难的计算拼图组装人类、动物、微生物或植物基因组DNA序列读取1。许多参考基因组缺陷如错误装配和差距。人类基因组参考GRCh38数以百计的差距,缺少大约150 megabases序列。

现在基因组数据生成和分析速度更快,更便宜,也更准确,研究人员可以预期高质量、haplotype-resolved基因组序列运行的端粒,端粒注意Eric Green,美国国立卫生研究院的人类基因组研究所(NIH NHGRI)和他的同事在他们的战略眼光2”。参考序列也可以越来越反映出人类在全球范围内变异和多样性。一群nih的研究人员Telomere-to-Telomere T2T财团已经对人类基因组的粗糙的部分来构建一个完全连续的参考。“我是一个完美主义者,”美国国家人类基因组研究所高级研究员亚当Phillippy说谁该财团凯伦多边投资担保机构,加州大学圣克鲁斯分校的研究员。他们开始已经成长为一个大的努力。“关闭窗口有时被视为书呆子的运动,”帕维尔Pevzner说,加州大学圣地亚哥分校的计算生物学家指gap-closing基因组学。可以学到很多生物学解决高度重复序列,如着丝粒区域,他说。“我们从来没有他们在看之前,“Phillippy说。T2T财团加入了另一个国家卫生研究院计划,人类Pangenome参考财团(HPRC)。计划是350年人类基因组序列代表的等位基因在人们各种血统,多边投资担保机构说。HPRC努力利用现有数据,如1000人基因工程,从2006年和2015年,并导致人类变异的一个目录。两组已经非正式地合作,现在它是一个“自然的走到一起,”多边投资担保机构说。国际合作伙伴加入。

没有差距

关闭缺口和完成基因组可以更容易解析基因组之间的区别。和方法不仅可以直接在人类基因组其他生物,如细菌或脊椎动物的脊椎动物基因组项目。

使用一种称为CHM13hTERT的细胞系,T2T团队发表了序列的染色体X和8。多边投资担保机构说,在最近的一次T2T会议,这是令人兴奋的讨论在这个整个CHM13基因组。“在这一点上我们只剩下五个差距,”她说。他们希望填补这些漏洞的核糖体DNA位点和预计在2021年初发布的完整序列。CHM13来源于子宫增生通常需要手术切除。增生可以形成一个潜在的父亲的精子进入卵子,缺乏一个原子核。在卵子,精子的单倍体基因组复制。Urvashi Surti Magee-Womens医院在匹兹堡发达细胞系。“组装问题大大简化,当我们只需要组装一个基因组与两个基因组,“Phillippy说。团队使用的是CHM13 GRCh38参考基因组的序列,以填补空白。 They plan to look at aspects such as epigenetics, but heed the caveat that CHM13 might differ from diploid human cells. Their next ambition is a telomere-to-telomere assembled diploid human genome. Going from haploid to diploid may not sound hard, but it’s much more complex, he says. “Doing a T2T diploid genome is an unsolved problem to date.”

凯伦多边投资担保机构、加州和亚当•Phillippy NIH NHGRI,联合领导Telomere-to-Telomere财团。信贷:p·德里斯科尔;e·德尔·阿古里亚·三世,NIH NHGRI

忙着丝粒

单倍体和二倍体基因组可以表示成图的节点和边。组装图寻找出一条路来。单倍体基因组,“我只是需要找到一条路径通过图表而不是两条路径,”Phillippy说。

“二倍体绝对是下一个大的算法问题,“Pevzner说。“这将是有趣的,看看很快我们可以达到近乎完美的二倍体总成。“新基因组汇编hifiasm3从实验室的亨dana - farber癌症研究所李展示了一个可以解决具有挑战性的区域如着丝粒,他说。多边投资担保机构长期以来一直研究这些区域,通常称为DNA卫星4。X染色体的着丝粒基本重复单元171碱基对长,她说,和串联重复序列的组合的12 171 - bp重复拉伸2 kb左右长,重复一遍又一遍。2001年,当人类基因组序列公布,差距没有秘密,多边投资担保机构说。DNA卫星等领域被排除,因为例如,他们不能轻松克隆。当她和Phillippy开始合作,他们意识到新的测序technology-ultra-long读取从牛津纳米孔技术(一)和高保真的读取从太平洋生物科学结合Illumina公司短内容技术可以帮助他们达到他们的目标。卫星DNA得名于独特的乐队在氯化铯密度梯度离心法,多边投资担保机构说;乐队”原来是这个串联重复DNA。“什么是具有挑战性的重复,单倍体和二倍体基因组,是找出在属于它们的,她说。它被称为“蓝天难题。“即使这个拼图是组装,研究社区还没有工具来检查在二倍体基因组组装的准确性,她说。 That’s a task that people like Arang Rhie, who is wrapping up a postdoctoral fellowship at NHGRI, are working on.

着丝点的装配困难,因为和所谓的高阶重复,重复的说:“重复类固醇,Pevzner。他和其他人centroFlye使用他的实验室的算法5组装着丝点序列。从算法上,他说,centroFlye大会通过寻找微观云在蓝天。他说,在数以百万计的组装步骤,正确的决策需要。失误可以排除着丝粒组装。一旦该地区聚集,科学家可以探索着丝粒生物学和生物相比较。这将是令人兴奋的,他说,“看看这些新发现的领土。”

做多

“刚刚超过一百万基地”,是最长的阅读Phillippy处理。从CHM13细胞系,(最长的阅读,她说约130万个碱基。Hardip Patel国家土著澳大利亚国立大学基因组学中心处理1.8 -megabase从X染色体和700对碱基读取一个获得松狮蜥在测序的基因组。研究生培训期间,多边投资担保机构使用“老学校”方法,如脉冲场凝胶电泳和读取以今天的标准来看,较短的工作但是她听到世界各地的同事们生成读取数百个碱基。通俗,她说,研究人员称之为“鲸鱼。“当太平洋生物科学和汽水机启动读技术,读取超过10个碱基,技术很容易出错。但这已经发生了巨大的变化,Phillippy说。

太平洋生物科学发展连续读取(CLR),序列模式的仪器做一个长过一个DNA分子。Phillippy说,在一个美好的一天,CLR的错误率阅读一直在10%左右。2019年,该公司推出了圆形共识序列由多个经过一个DNA分子,所谓HiFi读取。“该仪器给出这一共识看,可以99.9%准确的单分子,”他说。五年前,30%的错误率不是没有听说过,他说。“他们取得了巨大的改进,主要是与他们base-calling算法,“通过应用神经网络架构等,主要用于语音处理。“他们现在可以获得远高于90%的准确率。Pevzner说,“HiFi读取出错率”的几个错误‰核苷酸。“永久的超长测序不准确,而且成本更低。这个景观是动态变化的。生物学家仍然主要使用短内容的技术,他说,但完整的总成的未来漫长的读取。

装配工

汇编器已经用于长,容易出错的读取,如猎鹰,miniasm, Flye,铰链,Canu, wtdbg2,沙士达山和瓮安。高保真读取出现时,适用的装配工具萎缩主要HiCanu列表6和hifiasm3,Pevzner说。他和他的团队刚刚开发了一个叫jumboDB7。在亨李看来,PacBio的音标是另一个高清晰读取最优化的汇编程序。虽然嘈杂的阅读汇编器可以应用于音响读,他说他们不利用基准确度高、不会匹配HiCanu和hifiasm。

汇编HiCanu和hifiasm使用string-overlap图形代表基因组编码算法的信息分析和显示一个参考和替代路径沿着DNA序列,Pevzner说。可选路径代表在不同的位点变异。图基因组更容易解决单。弦图,节点读取和重叠读取的边缘,他说。

在他的实验室里,他用de Bruijn组装方法,将读到k即,序列长度的字符串k。“德Bruijn是小有点违反直觉的,”他说。读取转换为k- m字符串。每一个k- m图中的一个节点,和“边缘连续表示字符串的长度k出现在阅读,”他说。De Bruijn图“汇编程序的算法引擎”比如黑桃,Flye wtdbg2,但他们不是设计制作图与大k即。内存和计算时间成为禁止的。整体还有待观察,图方法,de Bruijn重叠/字符串方法或方法,将最有效的读大会,他说。

准确读技术帮助人们朝着haplotype-resolved大会,说李也是T2T财团的一部分。“没有多少意识到今天hifiasm / HiCanu组件我们生产质量更高的组件可以是一年前,”他说。“已经日夜的区别。“大会场针对telomere-to-telomere二倍体样品的组装,着手制造技术更容易更大的社区,他说。“还有多倍体基因组和基因组,更难组装,”他说。“这些会让我们忙至少在未来五年。”

他汇编wtdbg2堪比其他汇编的准确性,但它更快,“主要是由于更好的工程,”李说。在他看来,沙士达山可能是最快的汇编程序对纳米孔写道,“尽管它消耗更多的内存。“wtdbg2主要问题,他说,在于它会崩溃类似的节段重复或重复一个副本。“这将导致一个明显较小的基因组,”他说;组装小于“真正”的基因组。这是一个常见的问题吵了阅读汇编、李说,但它是更严重的wtdbg2沙士达山。Hifiasm HiCanu”没有这个问题,这使得他们更好的汇编器。”

Hifiasm比wtdbg2更快,因为准确读取最能简化算法,李说。Hifiasm可用于haplotype-resolved组装,但它只适用PacBio HiFi读取。他认为这个工具可以用于超阅读,但这需要大量的工程工作。”

她联合计算方法,称为trio-binning,可用于单体型,(说。使用父母的k即作为标记,该工具可以退出读取更多的标记从一个父母。“但是总有这一小部分misassigned读,”她说。在她看来,hifiasm可能是有利于分区单。

即使有更准确的读取,议会仍需进行质量评估。对于这个任务,她联合Merqury8。该软件可以显示不同的汇编程序得到正确的和错误的,什么Phillippy说。(说父母k即可以用来验证单体型逐步和Merqury生成装配评估指标k即,不使用参考。“映射偏见”可以使评估组件的质量。例如,当评估一个亚洲组装基因组与人类的引用,“任何形式的Asian-specific变化将会称为一个错误,”她说。特别是在基因组的重复区域,这种偏见可能更加明显。“k-mer-based清除那些基于映射方法的偏见,”她说。

一个pangenome

高度准确telomere-to-telomere总成给更好的理解人类的多样性,适应当地环境,帕特尔说,他是一个外部合作者HPRC。当数据显示这样的签名,”提供了一个途径了解灵活的基因组,”他说。许多软件工具出现在程序集找到基因的细微差别。

pangenome可以分析在祖先9。利用population-focused pangenome项目的项目编号,如基因聚合数据库在非洲的人类遗传和健康(H3Africa),探索健康和疾病的基因组资源的一个平台在非洲。大部分的世界人口生活在南半球,应该包括更多的基因组项目,帕特尔说。这些数据可能是公开的,但可能需要许可。有时没有被授予许可,“好,我们需要尊重同意的过程,”他说。个人可能希望分享他们的数据但试图控制它的使用方法。沟通和信任可以帮助克服怀疑,他说。项目组织者必须公开数据使用和存储。“我们作为科学家,我们人类必须尊重个人的利益,一个社区的利益,一群人在他们的利益分享他们的信息,”他说。“信任是关键元素。“澳大利亚和新西兰指南等数据主权上下文。 “Our indigenous leaders are showing us the right path,” he says.

当pangenome适当数据收集和评估他们的复杂性,他和其他人在生物信息学社区将开发工具与图论方法分析它。可以表示为多个高质量的参考基因组pangenome图表。研究人员可以定义不同的变体通过图表找到最合适的路径,他说。Haplotype-resolved基因组非常重要,他说,因为他们是准确的表征的基因组存在于细胞中。表示这不是haplotype-resolved”将自己的错误。“这pangenome努力是下一个大挑战,,像气候变化,“这些都是21世纪的挑战,”他说。“我们只是需要继续工作。”

T2T和人类Pangenome财团加入,“希望我们会使其在未来几年做常规成百上千的人类基因组T2T,“Phillippy说。“我们仍然有很多工作要做一面的方法实现它。”

pangenome字段可以在两个方向上移动,李说。pangenome将提供一个方法来编码复杂的变化,包括那些在临床上重要的基因,一个任务会失败,大多数现有的方法,他说。“带注释的复杂变化,我们可以更系统地研究他们的进化和功能的影响,”他说。从他的实验室的方法叫做minigraph开始工作在下一代的图论工具,但有相当多的未解决的问题。“minigraph,李说,“崩溃同源序列如果没有差异超过100个基点。“pangenome也有助于基础正确使用短读的结构性变化,他说。他的合作者在其他机构开发了长颈鹿和PanGenie的工具,他称之为“承诺”,和“两者的结合将产生更大的影响,”李说。“最大的问题pangenome社区的接受。我现在没有一个明确的答案的。”

在人类Pangenome参考财团,科学家们从数百人因此等位基因测序DNA中发现许多血统的人参考序列。来源:a .达席尔瓦/盖蒂

完成基因组

席勒大学水生具有极大,克里斯汀•Kusel,连同她的实验室,包括博士后Overholt,研究微生物多样性和交互在地下水等环境。在他们的项目是一个在拥挤的微生物取样井在德国Hainich临界区域探索,全世界的这类网站之一10。“我们发现,包括牛津纳米孔长读大大提高微生物基因组的质量我们能够恢复,“Overholt说。他们能够恢复更多的基因组,这“反映了一个更大的地下水微生物的多样性。”

团队执行宏基因组分析样品,例如,找到一个含水层的主要代谢途径。但是这是很难发现途径链接到特定的微生物。结合Illumina-based short-reads位于安大略省的长阅读帮助他们。宏基因组组装,他们选择metaSPAdes metaFlye和使用Illumina公司为期读取短读“波兰”。这种方法增加了一倍以上发现的细菌和古细菌metagenome-assembled基因组,和数据有更大的系统发育多样性。质量指标比单独使用Illumina-based读取更有利。使用长读本身产生更少的基因组,Overholt说。他们获得一些在大量阅读,每个成千上万的碱基对。有这样的信息,他说,最小化,在某些情况下避免来自污染等问题基因或序列误认为属于另一个有机体。长读更有可能包含重要的系统发育标记基因,帮助科学家们将机体内建立系统发育关系。 It’s also easier “to link your new genome to already produced datasets that used those marker genes.”

装配着丝点的重复和高阶重复有点像组装一个谜只有蓝色的天空。信贷:DigitalVision向量/盖蒂

团队的混合方法,长期和short-read-based宏基因组大会,是提高组织的能力重建从环境样品基因组和产量为微生物和病毒比较基因组学项目改进的数据,更多的单一标记phylogenomic研究和一个更好的方法来做更完整的代谢重构。Overholt说,与地下水仍很难获得足够的样本的DNA序列在安大略省的流动单元。技术最大化回收DNA的数量往往“分解”长DNA片段,不适合读测序。但是,他说,这个领域的进步很快,也开发新的工作减少输入DNA测序的方法。这样的进步,随着进一步优化提取方法,将有助于恢复环境的DNA样本。

从环境样品生成长读是非常困难的,Pevzner说,集团开发的metagenome汇编metaSPAdes metaFlye,等等。这样的样本,“即使是50个碱基已经是一个成功,”他说。样品准备是具有挑战性的,因为不同的细胞溶解在不同条件下的不同的膜。“无论你汇编多好,你永远不会得到完整的基因组与短的读取,“Pevzner说。在某种程度上,大会将总是支离破碎。MetaFlye是他和他的团队开发的算法与读测序组装复杂的宏基因组数据集生成技术。使metagenome装配困难的是一个示例可以包含许多微生物物种有相似序列。就像单体型,metaFlye使用图论方法deconvolve这样的相似之处。

高保真读入宏基因组还不常见。“现在正在生成的第一个数据集,”Pevzner说。在最近的工作中,他和他的团队执行metagenome组装与高保真的读取,一个团队非正式地称之为“完整的宏基因组方法。“科学家们发现他们可以增加羊肠道微生物组的覆盖率数据集生成与高保真的读取和组装完整的基因组。没有可能,按一个按钮,生成100年或200年完整的基因组从宏基因组样本,但HiFi读大会使这一切成为可能。高度准确metagenome组件将帮助人们找到方面否则错过。例如,天然抗生素产生了重复编码酶产量non-ribosomal肽生物合成基因簇。支离破碎的组件之前阻止了他们的发现,他说但是新的读工具会帮助这些项目。

欢迎新来的

T2T pangenome工作吸引了许多测序技术感兴趣,long-read-related装配计算生物学和其他挑战,多边投资担保机构说。作为DNA卫星生物学家,她希望一些新进入者想要探索重复DNA。“我发现我们有一个全新的人出现,年轻的同事,”她说。婚姻之间在基因组学技术和一种新的发现读程序集所带来的阴谋,挑战这些程序集。她看到的好奇心和兴趣构建人可能开始自己的实验室在未来几年。她说,该财团,欢迎来自各领域的专业知识的新进入者加入现有的努力。“我们试着尽快把我们所有的东西,所以人们可以独立工作,也和开发自己的问题和研究项目”。