在技术领域有句老话:“没有人会因为购买IBM而被解雇”——指的是该公司曾经无处不在的电脑。如果把IBM换成位于加州圣地亚哥的生物技术公司Illumina,今天的DNA测序也会出现同样的情况。

Keith Robison是马萨诸塞州波士顿Ginkgo Bioworks的计算生物学家,他在一个名为Omics!组学!他说,对于大多数实验室来说,Illumina“是真正安全的赌注”。然而,IBM主宰计算机市场的日子已经过去了,Illumina现在面临着多个竞争对手,他们都在寻求挑战——甚至可能是推翻——目前测序市场的巨头。

研究人员自然也在关注这一问题。佩德罗·奥利维拉(Pedro Oliveira)是法国国家测序中心(也称为基因镜)dna测序实验室的负责人,该实验室位于Évry。该实验室最近与几个大型欧洲研究项目合作,包括欧洲参考基因组图谱,这将带来每周4个基因组的预期工作量。Genoscope的首要任务之一将是增加Illumina仪器的库存,但这不会是其购物清单的限制,Oliveira有广泛的平台可以考虑。

一些仪器使用互补方法生成跨越数千个核苷酸的长序列读取,而Illumina的“短序列读取”通常在100到200个碱基范围内。但在过去的一年里,我们也看到了近6种相互竞争的短读系统的推出,每种系统都在质量、效率、尤其是成本方面吹嘘自己的优势。Oliveira说:“我们正生活在令人兴奋的时刻,因为这是廉价测序的开始。”但考虑到大多数科学家仍在等待看到实际数据,并评估这些平台与他们的项目匹配程度,选择的范围可能令人生畏和困惑。

安全的赌注

Illumina在2007年收购了一家名为Solexa的公司,从而进入了测序市场。Solexa的“合成测序”(SBS)技术利用了在活细胞中制造DNA的相同机制。DNA模板链由DNA聚合酶读取,它依次钉住与模板链互补的核苷酸。

四个DNA组成单元中的每一个——A、T、G和C——都与一种特定的荧光颜色和一个“终结者”化学基团相结合,阻止进一步的DNA合成。灵敏的光学器件从产生的荧光中识别出添加的核苷酸,之后标签和终止子被移除,循环重复。整个过程发生在一个类似晶圆的“流式细胞”中,大量的DNA目标同时成像,每次运行产生数百万甚至数十亿个短读取。

这种方法取得了惊人的成功。据估计,截至2022年,全球超过90%的测序数据是在Illumina机器上生成的go.nature.com/3abj7ng).多年来,已有数十家潜在竞争者向Illumina发起了挑战,但大多数都半路而废了——其中许多人被记录在“NGS墓地”中(参见“NGS墓地”)go.nature.com/3xwvmkt).在瑞士苏黎世功能基因组学中心(Functional Genomics Center Zurich)负责短读测序的凯瑟琳·阿基诺(Catharine Aquino)将这一成功归因于专业技术。她说:“只是其他公司在图书馆准备或测序方面不太可靠。”

Illumina的产品组合包括用于少量样本快速分析的紧凑型台式系统,如成本为2万美元的iSeq测序系统,以及更大的高端NovaSeq 6000,该系统成本近100万美元,但每2天可以生产多达6万亿碱基(6万亿碱基)的序列——大约是人类基因组长度的2000倍。Illumina公司首席技术官Alex Aravanis表示,Illumina公司的新型NovaSeq X系列生产级测序仪使用了重新设计的流池,可以适应更大密度的测序反应,同时还采用了重新设计的SBS化学结构和升级的光学系统。该公司报告称,其今年开始发货的新系统每次运行产生的数据最多是上一代NovaSeq 6000的三倍,将每个人类基因组的测序成本降低到仅200美元。

一系列备选方案

除了人类基因组组装和突变分析之外,新的应用还以更低的成本推动了对更多更好的短读数据的需求。这包括从表观遗传学到染色体构象再到蛋白质组学的一切。阿基诺估计,目前她的实验室60%的工作涉及单细胞RNA-seq,这是一种渴望测序的技术,可以分析数千或数百万个单个细胞的基因表达。为了满足这一激增的需求,初创企业和老牌企业都进入了这个领域。

中国基因组学巨头华大基因(BGI)在深圳分拆出来的一家老牌公司——美大基因科技(MGI Tech),在类似illumina的SBS方法上做出了与众不同的改变。MGI和Illumina都使用生化过程在流细胞表面生成每个模板DNA链的多个副本,从而增强荧光信号,但MGI的DNBSEQ平台使用了一种成本更低(尽管更劳动密集型)的方法,将模板转化为“DNA纳米球”阵列。加拿大蒙特利尔麦吉尔基因组中心的基因组科学负责人Ioannis Ragoussis在他自己的设备中使用了DNBSEQ仪器,他说:“数据质量真的很好,而且比Illumina更具成本效益。”

在这些新产品中,圣地亚哥奇异基因公司(Singular Genomics)的G4台式系统可能最像Illumina公司的系统。但G4还采用了流式细胞设计,可以更容易地同时进行多个测序实验。位于亚利桑那州凤凰城的转化基因组学研究所(Translational Genomics Research Institute)负责新兴技术的副总裁斯蒂芬妮•庞德(Stephanie Pond)表示:“它实际上是针对这些更小、更灵活的项目。”G4进行了beta测试。

Ultima Genomics的流式细胞甚至更有特色。总部位于加州纽瓦克的Ultima公司没有使用包含复杂通道的密封盒来协调试剂的流动,而是将测序试剂应用于旋转圆盘的暴露表面。由此产生的离心力将这些材料均匀地分布在圆盘表面,降低了流池设计的复杂性和所需试剂的数量,从而降低了每次运行的成本。Ultima还通过使用标记核苷酸和未标记核苷酸的混合物来降低成本,而不仅仅是更昂贵的标记分子1.在一项研究中,麻省理工学院布罗德研究所(Broad Institute of MIT)和马萨诸塞州剑桥市哈佛大学(Harvard)的早期用户在单细胞基因表达实验中记录了与Illumina大致相当的性能2

一个晶圆旋转器,它使用硅片对基因进行测序,图片来自加利福尼亚的Ultima基因组公司。

Ultima Genomics的仪器在一个旋转的圆盘表面进行测序反应。图片来源:Carolyn Fong/纽约时报/Redux/eyevine

最后,还有圣地亚哥的Element Biosciences和加州门洛帕克的Pacific Biosciences (PacBio)为新的短读仪器开发的化学物质。这两种方法都依赖于标准SBS方法的两阶段替代方案,其中荧光标记的核苷酸不是永久地结合到新合成的DNA中,而是短暂地结合到正在生长的链上。一旦它们被成像,它们就会被洗掉,被未标记的核苷酸取代。

这导致了更自然的DNA合成过程,同时也允许仔细优化标记步骤,Element和PacBio公司都强调了他们方法的准确性。PacBio公司已经以其复杂的长读取系统而闻名。“我们已经看到了非常高质量的数据,”纽约市威尔康奈尔医学院的基因组学研究员克里斯托弗·梅森(Christopher Mason)说,他使用Element公司的AVITI系统来分析太空飞行对人体生理的影响。

权衡利弊

测序仪大致分为两类:生产规模的仪器,包括Illumina的NovaSeq,以及较小的台式仪器,如Illumina的NextSeq。目前,只有Illumina和MGI在全谱范围内运作;其他短期阅读公司的目标是特定的吞吐量水平。

生产规模的仪器是巨大和昂贵的,但这样的吞吐量对于许多大规模基因组学或单细胞RNA-seq研究是必不可少的,而且这样的仪器往往形成核心测序设备的骨干。布罗德研究所(Broad Institute)首席基因组学官Stacey Gabriel表示,她所在的中心是世界领先的基因组学机构之一,几乎所有的测序都使用这种仪器。她说:“我们有32个NovaSeq,我们非常努力地运行它们。”她补充说,她的团队将用新的NovaSeq X仪器来增强这一能力。

Ultima也在这一领域推出了UG 100,但其目标是用更低的测序成本来抵消其硬件的高成本。该公司声称,它有可能以100美元的价格提供完整的人类基因组序列,这是NovaSeq x的一半价格。Broad研究所是UG 100的首批用户之一,Gabriel说,尽管这项技术仍在成熟,但她看到了将其纳入他们的全基因组分析和高通量分析(如单细胞转录组学)的工作流程的明显机会。

史黛西·加布里尔的肖像。

“我们有32个novaseq,我们非常努力地运行它们,”麻省理工学院和哈佛大学布罗德研究所(Broad Institute of MIT and Harvard)的首席基因组学官斯泰西·加布里埃尔(Stacey Gabriel)说。图片来源:Casey Atkins摄影

当涉及到购买决策时,设备和试剂只是计算的一部分,公开宣布的每个基因组的价格不包括劳动力、维护和其他支持成本。拉格西斯说,每年的服务合同费用可能是仪器基本成本的10%,这使得许多实验室甚至无法负担中等价位的台式仪器。最重要的是,生产规模的仪器只有在满负荷运行时才比台式仪器更具成本效益。庞德说:“有很多项目规模不够大,或者是试点规模的项目,真的很难‘喂饱野兽’。”对于处理多个实验的实验室来说,这也可能是一个问题,这些实验不能同时在单个流单元中运行。

台式计算机可能更适合这里,这是PacBio, Singular和Element目前竞争的领域。这类仪器的价格通常在20万美元到40万美元之间,而且以每千兆字节最低的价格提供最多数据的竞争非常激烈。梅森说:“成本仍然是最大的驱动因素之一,因为人们最终只能从助学金中得到这么多钱。”梅森补充说,MGI一直在利用这个压力点来推动其产品的采用,甚至向一些愿意花一定金额购买常规试剂的实验室免费提供仪器。

质量是另一个重要的考虑因素,在这一点上,Illumina也设定了很高的标准。对于大多数读数,Illumina的系统将在1000次中“调用”999次正确的碱基,这一精度标准被称为Q30,据报道,其最新一代的“XLEAP-SBS”化学技术将这一精度提高了三倍。PacBio公司声称,他们的新型Onso仪器(仍在beta测试中)的错误率为万分之一或更低(Q40),梅森说,他用经过验证的基因组样本进行的测试已经证实了这一点。“在阅读的开始,它甚至更好,”他说,报告质量几乎比Q40好一个数量级。Mason认为,进一步优化onso生成数据的计算工具箱可能会带来更好的性能。

2022年预印本3.Element Biosciences的科学家还强调了使用AVITI仪器对人类基因组测序中的大多数碱基实现Q40质量的能力,该仪器于去年6月开始发货。与PacBio相比,该公司也有价格优势,与Illumina的每个人类基因组200美元的成本相当,比Onso低约7倍。从原则上讲,更高质量的reads减少了常规基因组研究所需的测序量,并可以为应用提供决定性优势,例如在“液体活检”分析中分析循环肿瘤来源的DNA。加布里埃尔解释说:“在正常DNA的海洋中,副本相对较少,所以你必须进行非常深入的测序。”

选择测序平台时的另一个考虑因素是与现有工作流的兼容性。例如,Element的工作流程在很大程度上与标准的Illumina流程一致,而Ultima和MGI需要额外的处理步骤,这可能会在现有的管道中引入减速带。“这不是不可克服的——只是增加了更多的时间和劳动,”梅森说。可能还需要进一步的自动化来简化流程。

稳定性和可靠性也是至关重要的,因为即使是短暂的停机时间也会中断实验室的运行。阿基诺说,Illumina在这方面的声誉一般都很好。她说:“有时甚至在我们发现问题之前,我们的工程师已经在那里了。”“所有这些公司还需要几年时间来建立支持系统和积累经验。”

要长

并不是每个测序应用都能很好地应用于短读技术。因此,英国的PacBio和牛津纳米孔技术(ONT)等公司也在努力发展他们的长读取技术。

这两家公司都提供直接分析横跨数万甚至数十万个核苷酸的单个DNA分子的系统。对于PacBio来说,这需要将模板DNA链注入固定在固体表面的聚合酶中,然后使用复杂的光学设备检测DNA合成过程中单个标记核苷酸的添加。ONT系统根据DNA链通过微小蛋白质孔时发生的电流的独特变化来确定核苷酸序列。总的来说,这些系统提供了短读系统难以或不可能获得的见解,包括染色体DNA的巨大结构变化、mRNA转录物结构和完整的微生物基因组。这两个系统也可以直接识别和映射表观遗传修饰。

PacBio提供了一些市场上精度最高的仪器,这要归功于一种名为“HiFi”的过程,设备可以反复读取同一段DNA,消除过程中的随机错误。然而,它们在历史上一直受到高成本和低吞吐量的阻碍。阿基诺说:“PacBio的100个样本需要一年的时间,而Illumina的100个样本可能只需要两天。”但该公司的新款Revio仪器改变了这一局面。这款仪器售价77.9万美元,计划于今年开始发货。PacBio公司报告称,该系统的吞吐量比当前系统高出15倍,只需1000美元就能生产出高质量的人类基因组。

ONT提供了一个独特的多功能和便携式平台,可以像应用于超长读取应用程序一样轻松地应用于短读取应用程序。研究人员经常在实地使用ONT系统,梅森甚至将它们发送到国际空间站。“我们可以在许多偏远地区看到应用,”他说。ONT还提供了市场上成本最低的测序硬件,包括1,000美元的MinION,它可以在标准笔记本电脑上运行,在最新版本的平板电脑上也可以运行。

相比之下,ONT公司的高性能PromethION可以在3天内测序多达14万亿碱基,并且采用了一种不同寻常的商业模式,其中大部分前期成本都与购买运行测序实验所需的消耗品有关。拉格西斯说:“你得到了一种仪器,它的价格与你想要使用多少个流体单元有关,而你不必购买它。”他指出,这可能比在实验室打开第一个流体单元之前花费30万美元或更多更有吸引力。去年10月,ONT推出了该平台的最新版本,便携式P2 Solo系统,该系统每次流细胞运行最多可以生成两个人类基因组,用户只需花费1万多美元即可入门。

在这样一个拥挤的市场中,变化是永恒的,投资新技术需要信心的飞跃。Oliveira说:“每六个月就适应一种新技术是非常困难的——它对社区的基准测试、测试以及生物信息学团队提出了很多要求。”目前,他的团队正在仔细权衡这些新兴平台的利弊,以及它们将如何补充或取代他现有的硬件。但总的来说,竞争是一件好事,它能提高业绩、降低成本。“我们正在使测序大众化,”他说。