简介

COVID-19大流行已过去两年多,许多国家继续面临SARS-CoV-2感染的大规模流行1这主要是由新型病毒变异的出现和传播引起的2以及获得疫苗的机会不平等,特别是在大流行早期3.456.基因组监测对于研究许多快速进化的病原体至关重要7用于研究SARS-CoV-2的进化和传播,设计和优化诊断工具和疫苗,并快速识别和评估流行病学特征改变的病毒谱系,包括Alpha/B.1.1.7、Beta/B.1.351、Gamma/P等令人关注的变体。1, Delta/B.1.617.2和Omicron/B.1.1.529。这些世系由于其更强的传播性和潜在的免疫逃逸,对自然感染和/或疫苗诱导的中和抗体造成了更大的全球公共卫生风险89.感兴趣变异(VOIs)也需要持续监测传播性、疾病严重程度或抗原性的变化10.这种具有更高流行潜力的变异一直要求采取更具体的措施,与它们构成的风险成正比,为此,政策制定者需要知道“什么”病原体在当地存在,“在社区中在哪里”传播,“什么时候”这种变异可能到达,“为什么”它们代表更大的风险,以及“谁”面临的风险最大11.没有这些问题的答案,就无法实施有效的公共卫生政策,生命就会受到不必要的影响(高发病率:长冠,后遗症)或失去生命(高死亡率)。在此次大流行期间,基因组信息一直有助于低收入、中等收入和高收入国家制定措施,遏制变体的影响,这些国家实施了基于证据的政策,以应对挥发性有机化合物的出现和蔓延121314151617181920.21222324252627.为了帮助指导公共卫生应对不断演变的变种,必须近实时跟踪全球流行的SARS-CoV-2谱系的多样性82829.世界各地的数据生成器一直在向可公开访问的数据库中提交数量空前的SARS-CoV-2基因组:截至2022年6月9日,通过GISAID数据科学计划托管的EpiCoV数据库共享了1130万个共识序列(FASTA)30..在国际核苷酸序列数据库合作组织的档案中还可以找到超过550万条序列31450万个原始读取序列(FASTQ)32.相比之下,自2008年以来,通过GISAID共享了1,614,498个流感序列33.尽管公平共享病原体基因组数据的模型有所改进34在美国,全球基因组监测的强度存在显著差异。在这里,我们研究了2019冠状病毒病大流行2年(2020年3月至2022年2月)全球公开获取的SARS-CoV-2基因组监测数据,以确定与测序强度和及时检测变异相关的关键方面,并调查监测差异的后果。

结果

SARS-CoV-2基因组监测的全球差异

为了研究SARS-CoV-2基因组测序强度的时空异质性,我们探索了2020年3月至2022年2月每个国家每周测序的COVID-19病例百分比(图2)。1及补充资料1).有人建议对至少5%的SARS-CoV-2阳性样本进行测序,以检测流行率为0.1 - 1.0%的病毒谱系35但我们发现,在全球189个国家中,只有13个国家(6.8%)对其确诊病例总数进行了5%或以上的测序,而在189个国家中,有86个国家的确诊病例测序比例低于0.5%。1而且2而且S1).在大流行的头两年,只有7个国家或地区主要依赖其他国家的测序能力,其25%或更多的基因组测序来自国外(图2)。S2及补充资料2).截至2022年2月底,尽管高收入国家(HICs)和低收入/中等收入国家(LMICs)报告的病例总数相对相似(分别为23270万例和1.991亿例),但高收入国家提交的每例COVID-19病例序列多10倍(分别为3.53%和0.35%)(补充数据)3.).发病率大多为中等或较低(每10万人中<100例)的国家能够对较高比例的病例进行排序(图2)。1 b而且S3而且S4).例外的是,一些国家,如丹麦、日本和英国,尽管在大流行的头两年面临每周高COVID-19发病率(每10万人中有>例)的情况,但仍能够在大多数周内保持>5%的测序强度(图2)。1而且2 a, B而且S4).

图1:SARS-CoV-2全球基因组监测差异。
图1

根据2020年第10周(3月1日)至2022年第8周(2月26日)收集的基因组,每个国家、每个流行病学周(EW)报告的病例测序百分比,并将元数据提交给GISAID,截至2022年3月18日。序列提交的最新数字和测序病例的比例可在GISAID提交仪表板上获得,网址为“gisaid.org”。根据UNSD地理坐标,国家按区域分组,使用ISO 3161 -1命名法突出显示排序案例总体比例最高的国家:NZL新西兰、JPN日本、BRN文莱、MDV马尔代夫、TJK塔吉克斯坦、ISR以色列、DNK丹麦、LUX卢森堡、POL波兰、SVN斯洛文尼亚、EGY埃及、GMB冈比亚、COG刚果共和国、DJI吉布提、BWA博茨瓦纳、CAN加拿大、NIC尼加拉瓜、BES博奈尔和SUR苏里南。

图2:基因组测序强度和及时性。
图2

一个每个国家测序病例的频率和总体百分比(颜色如图所示)。1).该图总结了图中所示的数据。1,在那里x-axis表示案例已排序的ew的百分比,y-axis显示病例的总体百分比(如图所示)。1作为最右边的一列)。使用ISO 3161 -1命名法强调了每个区域测序病例总体百分比最高的国家:NZL新西兰、JPN日本、BRN文莱、MDV马尔代夫、TJK塔吉克斯坦、ISR以色列、DNK丹麦、LUX卢森堡、POL波兰、SVN斯洛文尼亚、EGY埃及、GMB冈比亚、COG刚果共和国、DJI吉布提、BWA博茨瓦纳、CAN加拿大、NIC尼加拉瓜、BES博奈尔和SUR苏里南。B每个国家、每个地理区域的每一次电子战测序病例的百分比。每个圆代表一个EW,至少有一个序列的情况;圆直径代表发病率,这里定义为每个国家每EW每10万人报告的病例数。CCOVID-19大流行第一年(2020年3月至2021年2月)和第二年(2021年3月至2022年2月)不同地理区域收集的基因组周转时间分布,按提交年份分组(n= 8,947,455个基因组)。小提琴图中的元素表示中位数TATs(白色圆圈)、四分位范围(黑色矩形)以及数据集中的最小和最大数据点(黑色垂直线)。箭头突出显示大流行第一年和第二年之间tat中位数的变化。

尽管非洲和亚洲许多国家报告的COVID-19发病率在大多数周内较低(每10万人每周病例<10例,见图。S3而且S4),尚未达到与日本(4.6%)、冈比亚(9.3%)或新西兰(11.6%)类似的基因组监测水平,这些国家在大流行的头两年经历了类似的低COVID-19发病率(图2)。2 a, B而且S3而且S4).正如我们在下一节中所示,社会经济因素可以解释不同收入阶层国家之间的这些差异:58%的低收入国家(124个国家中有72个)和中上/下中等收入国家(UMCs和lmc)在大流行的头两年测序的病例不到0.5%,而在高收入国家中,只有21.5%的国家(65个国家中有14个)观察到如此低水平的监测(图)。1而且2及补充资料1而且5).然而,通过比较第一年和第二年,在HICs、UMCs和lmc中观察到测序强度的重要增加,每周测序病例的百分比分别增加了4.7倍、15倍和22.5倍。对于lic,没有观察到测序强度的重大改善(图。S5A).

基因组监测的另一个关键方面是及时性,我们通过观察周转时间(TAT;定义为19个地理区域SARS-CoV-2基因组测序从样本采集到向GISAID提交基因组之间的时间(图2)。2摄氏度;参见参考文献。36).我们观察到,在2020年底检测到更具传染性的变体(VOCs)后,几乎所有地理区域都降低了其TAT(图2)。2摄氏度看Fig。S6).北欧国家有最快的TAT(图。2摄氏度),在第二个大流行年将中位TAT从20天减少到10天。全球TAT的总体下降也与世卫组织和ECDC在检测到Alpha VOC后于2021年初发布的一系列SARS-CoV-2测序公告和指南相匹配37383940.在第二个大流行年,我们只观察到北非和西非的tat大幅增加(图2)。2摄氏度).当我们根据收入阶层比较各国的及时性时,除低收入国家外,所有阶层都观察到改善,低收入国家在第二个大流行年的TAT中位数较高(TAT中位数从71天变化为109天,见图。S5B).从定期收集的样本中快速生成和共享病原体序列数据对于最大限度地提高基因组数据对公共卫生的影响至关重要4142.例如,在英国和玛瑙斯,VOCs Alpha和Gamma在2-3个月内分别达到了50%的频率4344在美国,Omicron的疫情传播速度更快,不到一个月就在南非占据了主导地位45.这些例子表明,快速的tat对于早期识别和及时评估VOC的传播性至关重要41.高收入国家和中低收入国家对挥发性有机化合物和挥发性有机污染物的快速检测和表征,突出了快速基因组监测工作如何有助于地方和全球公共卫生应对的积极例子。基因组监测,特别是在低收入和中等收入国家,提供了关于四种新型挥发性有机化合物(Beta、Gamma、Delta和Omicron)早期传播和传播能力的关键信息,这一重要成就也为人兽共患疾病出现风险最高的地区的大流行防范奠定了基础。

在测序能力有限和/或TATs长的国家,更负担得起的基于pcr的检测,如基于目标失败(例如,“S基因目标失败”)来区分VOCs的RT-PCR检测,对于提供一些变体(如含有导致目标失败的特定缺失的VOCs Alpha和Omicron)传播的证据非常有价值46.然而,这些测试只有在对一个新谱系的足够多的基因组进行测序后才能部署,不仅要验证其公共卫生相关性,而且要确认允许差异RT-PCR检测的独特等位基因(缺失或广泛的遗传变化)的存在和高患病率。因此,如果没有快速测序和基因组表征,就像我们在2021年底为欧米克隆公司观察到的那样4546在美国,基于pcr的低成本方法无法开发或部署。

快速变异检测的抽样策略

然后,我们研究了基因组测序强度和TAT对SARS-CoV-2谱系检测的影响。首先,我们发现全球观察到的世系数量与每个国家可用的SARS-CoV-2基因组数量相关r= 0.96,p值< 0.0001)和每个国家测序病例的总体比例(Pearson的r= 0.51,p值< 0.0001)(图S7),与英国的情况相似47.这表明,有限的基因组测序强度推迟了对具有改变流行病学和抗原特征的新病毒谱系的识别和反应。

为了研究快速检测变异的策略,我们使用丹麦的元数据模拟了测序病例的百分比和TAT对可靠检测先前确定的SARS-CoV-2谱系的影响,丹麦拥有最全面的SARS-CoV-2基因组监测系统之一(见图“材料和方法”)。S8).在这里,我们假设了随机抽样的推荐场景,即病毒基因组测序的样本是独立于样本元数据(如年龄、性别或临床症状)选择的48.当计算在不同测序强度下检测到至少一个罕见谱系(0-5%流行率)基因组的概率时,我们发现每周至少测序300个基因组才能检测到95%概率为每周流行率为1%的人群中流行的谱系。对于每周5%的流行率,这个数字下降到每周75个基因组(图。3).这些数字与特定地点的疫情和人口规模无关,假设抽样具有代表性,只能说明是否存在某种世系,而不能说明其流行程度。通过模拟集中在一个国家人口最多的地区的非随机采样场景,我们观察到,检测谱系的能力下降,但当TAT低于21天,且测序强度至少占所有病例的0.5%时,仍具有一定的有用性(图2)。S9).对于其他国家来说,成功检测来自个别地区的国内血统还将取决于人口密度和人口流动性的分布,这些方面值得在未来的研究中进一步研究。平均而言,高收入国家的基因组监测规划在目前的tat和测序强度下,在随机采样的假设下,应该能够以最大概率检测到流行率为5%的流行病毒谱系(图2)。3 b和表1).然而,在随机抽样的情况下,低收入国家通常每周平均测序10个基因组,可能会错过流行率高达21.7%的SARS-CoV-2谱系(表2)1).这将极大地限制这些国家从基因组测序数据中获得的研究线索(表2)1).在这里考虑的排序病例的0.05-5%范围内,增加采样强度,并在较小程度上降低TAT,极大地提高了病毒谱系的快速检测(图5)。3 b).

图3:不同基因组监测场景下SARS-CoV-2谱系的检测,假设随机采样。
图3

一个在不同的测序制度下,检测到一个罕见谱系至少一个基因组的概率。B减少基因组测序周转时间(TAT)与增加测序百分比的相对重要性,以给定谱系(在模拟数据集中)在达到100例之前被检测到的概率来衡量(如图所示)。S8)n= 100次重采样。C- - - - - -G考虑到TATs为7天、14天、21天、28天和35天,检测到最常见的10个血统中的任何一个的概率n= 100次重采样。

表1不同收入水平的经验国家排序能力和每个水平启用的调查线

接下来,我们模拟了25个场景,有100个重复,其中我们改变了采样频率(从0.05到5%)和TAT(从7天到35天),以计算在谱系达到100个病例的累积规模之前,至少检测到给定谱系的一个基因组的概率(图2)。3 b),使用来自良好特征设置的数据集作为“基本真相”(见“材料和方法”和图。S8).模拟场景显示,当在给定环境下实现每周5%的测序百分比和7天的tat时,总能在达到100例之前检测到病毒谱系。当每周测序病例的比例下降100倍至0.05%时,TAT为7天时,在达到100例之前及时检测到病毒谱系的概率下降到4%,当TAT为35天时,进一步下降到2.0%(图2)。3 b).然而,这些估计适用于随机抽样的情况。当抽样是非随机的时候,例如,当只关注一个国家人口最多的地区时,检测血统的能力就会下降;然而,即使在非随机抽样情况下,至少0.5% TAT <21天的报告病例的测序仍然是成功检测的重要因素(图2)。S9).

对于0.5%的测序病例(78%的高收入群体和40%的低收入群体)和21天的TAT(在高收入群体提交的25%的基因组中观察到,在低收入群体提交的5%的基因组中观察到)的乐观情况(补充数据)4),我们发现在100个病例之前发现谱系的概率为34%。在整个大流行期间,许多国家报告的每周发病率高达每10万居民100例(图2)。1 c而且S3而且S4).例如,在高发病率的情况下,对于巴西北部亚马逊州的一座拥有220万居民的城市玛瑙斯来说,0.5%的测序阈值相当于每周随机选择的11个基因组。通过21天的TAT,这将允许以34%的概率检测给定的谱系(图。3 b).对于São保罗市(1240万居民),这个数字增加到每周62个基因组。对于巴西(2.126亿居民)来说,在上述高发病率的情况下,这将对应于从随机样本人群中选择的1063个每周基因组。尽管在78%的高收入国家,每周近实时测序病例的0.5%比例是SARS-CoV-2基因组监测的合理基准(补充数据)4),这通常是诊断中心和资金充足、分散的基础设施密切协调的结果,以集成测序数据和样本相关的元数据(参见参考文献。49).

与基因组监测能力相关的因素

而许多hic能够依靠以前建立的网络和实验室基础设施来进行分子测试和测序5051在美国,包括巴西、南非和印度在内的许多中低收入国家首次检测到四种VOCs43525354-在基因组监测的快速发展中面临着额外的挑战515556.病原体基因组学与大流行应对的其他方面,例如监测和检测能力、医疗用品、实验室试剂、公共卫生和社会措施以及疫苗开发,相互补充,但往往争夺有限的资源57.为了调查社会经济因素如何影响全球SARS-CoV-2基因组监测反应,我们探索了每个国家COVID-19病例测序百分比与20个国家层面的社会经济和健康质量协变量之间的相关性(图2)。4及补充资料5).我们发现测序病例的百分比与人均研发(R&D)支出显著相关(r= 0.47,p值<0.0001)(图4)、人均本地生产总值(r= 0.37,p值<0.0001)(图4 b)、社会人口指数(r= 0.31,p值<0.001)(图;4摄氏度),并在COVID-19大流行之前建立了流感病毒基因组监测能力(r= 0.30,p值<0.001)(图;4 d及补充资料6).

图4:病例排序百分比和社会经济协变量。
图4

与COVID-19测序病例总百分比相关性最高的协变量(在图中所示的期间)。1,地理区域颜色如图所示)。一个人均研发支出(斜率= 1.30,CI = (0.76, 1.84),t-value = 4.76)。B人均GDP(斜率= 0.75,CI = (0.44, 1.05),t-value = 4.83)。C社会人口学指数(斜率= 0.25,CI = (0.07, 0.44),t-value = 2.70)。D2019年每例流感死亡病例测序基因组的总比例(HA段)(斜率= 0.89,CI = (0.40, 1.37),t-value = 3.62)。协变量与周转时间的相关性见图。S10.配色方案与图中相同。1而且2.实线表示线性拟合;相关性是皮尔逊相关系数;p的值进行报告t-统计使用双侧假设,零假设是线性趋势的斜率为零。没有必要进行多次比较调整。*购买力平价,2005年美元。

2019年,向GISAID提交SARS-CoV-2基因组的国家中,共有74%(189个国家中有140个)也向同一数据库共享了流感病毒序列。当按收入阶层进行比较时,我们观察到目前对SARS-CoV-2进行测序的大多数umc(77%)和hic(78%)在2019年之前已经在公共数据库中报告了流感病毒序列。对于低收入国家而言,这一比例降至37.5%,这表明许多低收入国家在COVID-19大流行期间启动或加强了其基因组测序计划。在国家卫生、研究和发展方面的投资差异继续影响着各国扩大基因组测序强度的能力285158在美国,许多中低收入国家最近在基因组监测方面取得了进展(图2)。S5)以及测序工作与已建立的基因组监测能力的联系,为未来的大流行防范计划描绘了一幅令人鼓舞的画面。

当我们探索与平均TAT(补充数据)的相关性时7),我们发现医疗服务可及性和质量指数(r=−0.56,p值<0.0001),全民健康覆盖(r=−0.56,p值<0.0001),卫生工作者密度(r=−0.56,p值<0.0001),以及人均卫生支出(r=−0.54,p值<0.0001)与平均TATs显著相关(图;S10及补充资料7).我们的结果只量化了社会经济协变量、测序强度和TAT之间的相关性,并不能被解释为因果关系。未来的研究应侧重于可能影响基因组监测的其他变量,特别是在中低收入国家,如培训实验室和生物信息学人员、元数据标准、与进口消耗品相关的成本,以及可能因边境关闭和旅行限制而加剧的装运延误2855565859.与延迟报告VOCs相关的其他因素包括,在报告潜在VOCs时,社会和政治耻辱以及对旅行的负面影响,以及担心其他研究人员窃取和发表研究结果60.在病毒基因组学活动侧重于回顾性基因组学研究以调查SARS-CoV-2再感染的国家,预计tat时间也会更长61,疫苗突破感染62,以及过去的流行动态6364

讨论

加强病原体基因组监测工作,特别是在中低收入和中等收入国家,应成为改善全球大流行防范的优先事项60.我们的研究结果表明,全球SARS-CoV-2基因组监测工作目前高度不平衡,并取决于社会经济因素以及大流行前的实验室和监测能力。我们的结果表明,对总确诊病例中0.5%的TAT低于21天的病例进行测序,可以为针对SARS-CoV-2和未来新出现病毒的基因组监测研究提供基准。除了世卫组织和其他国际公共卫生当局提供的指导外(见3738406566676869),正在进行的了解病毒基因组测序障碍和采样选择策略的调查将为未来的监测计划提供有价值的信息。实施宏基因组方法发现病毒,然后采用病毒基因组特异性测序方法,有助于克服分子和综合征监测策略的现有局限性70.采用具有代表性的基因组监测策略的标准化协议4048根据公平的数据共享协议,建立数据和最低元数据标准,高效和便利地获取信息65以及学术界、公共卫生实验室、私人实验室和其他利益攸关方之间的合作,对于最大限度地提高基因组监测的成本效益和公共卫生影响至关重要。虽然随机采样策略可以为SARS-CoV-2变体的出现和频率估计提供准确的信息,但我们注意到,基因组采样策略应被视为病原体和问题特异性的486566.例如,可能需要对按疾病严重程度分层的样本进行非随机选择,以确定与临床结果相关的基因或突变71

世界各地正在开展几项旨在提高基因组测序能力的全球努力,包括非洲-非洲疾病控制中心、泛美卫生组织COVIGEN网络、世卫组织东南亚区域区域基因组监测联盟以及世卫组织全球风险监测框架ACT-A。全球必须作出努力,提高国内基因组监测能力,并提供可持续的研究资金,以加强测序能力和疫情分析,特别是在中低收入国家。还迫切需要改进人、动物和人-动物界面的病原体监测72.保留和扩大在SARS-CoV-2大流行期间取得的现有地方能力努力,对于遏制和应对下一个“X病”至关重要。72

方法

基因组监测和流行病学数据

为了获得每个国家每周和累计测序病例的百分比,我们使用了与提交给GISAID的基因组“暴露国”相关的元数据30.截至2022年3月18日,收集自2020年EW(流行病学周)第10期(2020年3月1日)至2022年EW第8期(2022年2月26日)。我们从约翰霍普金斯大学系统科学与工程中心(http://github.com/CSSEGISandData/COVID-19),以及来自联合国经济和社会事务部(Department of Economic and Social Affairs)的各国人口数据73.按照世界银行现行的收入分类对国家进行了分组74.我们使用自定义管道“子采样器”(http://github.com/andersonbrito/subsampler75

基因组监测能力相关的协变量分析

与卫生系统相关的协变量可从卫生计量与评估研究所(IHME)获得。76的GDP数据也可从IHME获得77,人均研发支出数据可从联合国教科文组织获得78.对于IHME中的协变量76我们选择了2019年的值,2015年的GDP数据,以及2013年至2019年的研发支出,我们计算了国家层面的平均值。2019年收集的流感病毒基因组数据(HA段)来自GISAID30.2019年流感死亡估计数据下载自IHME 2019年全球疾病负担研究76.相关性和协变量细节在补充数据中提供5.为了计算相关性,排序病例的百分比为对数10改变了。应用于协变量的转换在补充数据中提供5,在“变换”栏。对于每个协变量,我们通过应用广义线性模型来估计线性拟合,回归协变量(可能是转换的,如补充数据所示)6)在日志上10-已排序案例的转换百分比;p与估算斜率对应的值见图。3.而且S10

基因组采样场景模拟

如图所示。1丹麦在此次COVID-19大流行中拥有最全面的基因组监测计划之一,截至2022年2月26日,对约14.5%的报告病例进行了测序(2,733,807例病例和396,994个基因组,覆盖率为>70%;访问日期:2022年3月18日)79.为了模拟测序病例的百分比和TAT(样本收集和基因组提交之间的时间)在特定国家检测先前确定的SARS-CoV-2谱系中的影响,我们使用了丹麦COVID-19基因组联盟获得的基因组元数据,收集日期为2020年EW 10(3月1日)和2022年EW 8(2月26日)。79

为了评估报告的样本收集日期和基因组提交日期之间的时间延迟对GISAID的影响,我们生成了提交日期调整后的基因组列表,以模拟TAT,表示样本收集和基因组提交之间的7至35天(5周)的延迟。考虑到丹麦每个EW测序病例的高百分比(通常超过20%),我们通过模拟每个EW测序病例的不同百分比(0.05、0.1、0.5、1和5%)的场景,生成了几个基因组数据集。在这样做的过程中,我们能够模拟25个场景(每个场景100个重复),使用不同的TAT组合和测序病例的百分比,以评估这两个参数如何影响我们检测循环谱系的能力(以概率表示)。具体来说,我们根据给定TAT后可获得的测序病例的目标百分比,对观察数据的每一列进行随机采样(将它们视为所有循环谱系的病例计数),忽略了从未达到100个样本基因组的罕见谱系。测序病例百分比和TAT的每种组合都产生了一个EWs中可用的基因组表。该过程重复100次以减轻随机抽样效应,结果用于生成每个循环谱系的检测概率。对100个重复进行汇总,得出每个流行病学周中每个谱系的检测概率。为了模拟测序病例的不均匀地理分布,我们还模拟了一个与上述情况类似的场景,但在模拟中只使用丹麦首都地区哥本哈根的测序强度,并将其与丹麦所有地区的实际谱系频率数据进行比较(图2)。S9).数字3表示不从泊松分布中抽取0的概率,其平均值是谱系流行率和排序案例的乘积。在无花果。3 b,我们展示了在给定的采样频率和延迟下,在模拟重复中计算出的检测概率,在完整数据集中达到100例的累积规模之前,能够至少对给定谱系进行一次检测,而没有延迟(“基本事实”,见图。S8).数字3 c g类似地,将其绘制出来,但要及时,询问使用“ground truth”数据集中的第一个谱系实例作为其出现,随着时间的推移,需要多长时间才能检测到给定的谱系。

报告总结

有关研究设计的进一步资料,请参阅自然研究报告摘要链接到这篇文章。