一对中国男女戴着口罩在野生动物市场工作。

2013年,人类禽流感爆发期间,香港一个市场上出售的活鸡。图片来源:Jerome Favre/Bloomberg via Getty Images

2021年2月,据报道,7名俄罗斯家禽农场工人感染了H5N8禽流感。以前从未发现这种亚型的禽流感会感染人类,病毒的基因序列很快被上传到基因数据存储库GISAID。对于华盛顿特区乔治敦大学的生物学家科林·卡尔森来说,这是一个机会。他说:“我立刻想到,‘我想通过FluLeap来运行这个游戏’。

FluLeap是一种机器学习算法,它使用序列数据将流感病毒分为禽流感病毒和人流感病毒。该模型已经在大量流感基因组上进行了训练,包括H5N8的例子,以了解感染人类的基因组和感染鸟类的基因组之间的差异。但该模型从未见过H5N8病毒被归类为人类病毒,卡尔森很好奇它是如何看待这种新的亚型的。

有点令人惊讶的是,该模型以99.7%的可信度将其识别为人类。该模型并没有简单地重复训练数据中的模式,比如H5N8病毒通常不会感染人类,而是似乎推断出了与人类兼容性的一些生物学特征。卡尔森说:“这个模型能起作用,真是令人震惊。”“但这只是一个数据点;如果我能再做一千次,那就更令人惊叹了。”

病毒从野生动物传染给人类的人畜共患过程导致了大多数大流行。随着气候变化和人类对动物栖息地的侵蚀增加了这些事件的频率,了解人畜共患病对于预防大流行或至少更好地做好准备至关重要。

研究人员估计,地球上大约1%的哺乳动物病毒已经被识别出来1因此,一些科学家试图通过对野生动物进行采样来扩大我们对这种全球病毒群的认识。这是一项艰巨的任务,但在过去十年左右的时间里,一门新的学科出现了——研究人员使用统计模型和机器学习来预测疾病出现的各个方面,比如全球热点、可能的动物宿主或特定病毒感染人类的能力。这种“人畜共患病风险预测”技术的支持者认为,它将使我们能够更好地将监测目标对准正确的地区和情况,并指导最有可能需要的疫苗和治疗方法的开发。

然而,一些研究人员怀疑预测技术是否有能力应对病毒体的规模和不断变化的性质。目前正在努力改进这些模型及其所依赖的数据,但如果要减轻未来的大流行,这些工具将需要成为更广泛努力的一部分。

病毒狩猎

一些研究人员长期以来一直认为,扩大我们对病毒多样性的认识将有助于管理大流行威胁。PREDICT是由美国国际开发署(USAID)资助的一个耗资2亿美元的项目,花了大约10年时间寻找动物病毒。到2020年结束时,它在34个国家的野生动物、牲畜和人类样本中鉴定出了949种新病毒。

事后看来,PREDICT的一些发现似乎很有先见之明。2017年的一项研究2据估计,蝙蝠体内有数千种未被发现的冠状病毒(人们普遍认为蝙蝠是SARS-CoV-2病毒的来源),并预测东南亚将是SARS-CoV-2所属家族中病毒数量最多的地区。它还将涉及人类与野生动物高度接触的活动(如野生动物市场)与冠状病毒的患病率较高联系起来。

2017年的另一项研究3.收集了哪些病毒感染哪些哺乳动物的数据,创建了一个病毒-宿主关联数据库。“我们的目标是了解哪些病毒能够感染人类,我们最常从哪些动物身上感染新病毒,以及导致这些模式的潜在因素,”生态学家和研究负责人凯文·奥利瓦尔说,他就职于纽约市生态健康联盟,这是一个专注于生物监测和保护的非营利机构。该团队的分析表明,特定宿主物种中可以感染人类的病毒比例受到人类与该物种的亲缘关系密切程度的影响,以及影响人类与野生动物接触的因素,如该物种地理范围内的人口密度和城市化程度。该团队使用统计模型来预测可能藏有大量未发现病毒的动物群体和地区——在南美、非洲和东南亚等地区,蝙蝠以及啮齿动物和灵长类动物的特征最为突出。研究人员还发现了与病毒人畜共患病相关的特征,比如它可以感染的物种范围。

该团队表示,这些信息可以帮助指导监控工作。加州大学戴维斯分校的流行病学家Jonna Mazet说:“它使我们能够预测风险最高的地区。”确定具体的威胁还使当地研究人员和卫生保健工作者能够调整缓解和应对能力。马泽特说:“它让社区可以说,‘我们有这个、这个和那个,我们可以用这些方法降低风险’。”

PREDICT原本只是一个试点项目。“它产生了很多数据,但这只是九牛一毛,”奥利瓦尔说。“我们需要更大的东西。”因此,研究人员在2016年提出了全球病毒项目(GVP),该项目被视为政府机构、非政府组织和研究人员的全球伙伴关系,目的是发现哺乳动物和鸟类中的大多数病毒(大多数人畜共患病毒源自哺乳动物和鸟类)。然而,面对一些研究人员的批评,它从未得到资助。Mazet说,它现在是一个非营利组织,旨在为各国提供开展病毒式调查所需的知识。美国国际开发署于2021年10月启动了一个规模较小、成本低得多的项目,名为“新发病原体发现与探索-病毒性人畜共患病”(DEEP VZ)。

一群蝙蝠倒挂在漆黑的夜空下。

蝙蝠携带许多未知的冠状病毒。图源:AttilaBarsan/Getty Images

对GVP的一种批评是,这项任务的规模根本无法管理。PREDICT研究人员估计4哺乳动物和鸟类体内有167万种未知病毒,尽管这一数字存在争议,但毫无疑问,病毒群是庞大的。它还在不断变化,所以一次性的发现努力是不够的。“RNA病毒的进化速度非常快,”澳大利亚悉尼大学的病毒学家爱德华·霍姆斯说。“所以你必须继续做下去。”

还有人怀疑该项目是否能识别出潜在的流行病。“在了解病毒进化和生态方面,我对此没有任何问题,”霍姆斯说。“但作为一种预测工具来了解接下来会发生什么,这是行不通的。”其中一个问题是,一些宿主物种和病毒家族已经被深入研究,但其他的却几乎没有接触过。现有的数据也倾向于已经蔓延的病毒5.因此,新西兰奥塔哥大学的病毒学家Jemma Geoghegan说,迄今为止,大多数预测都是基于“完全有偏见的数据”。此外,即使发现了一种病毒并对其基因组进行了测序,许多可能影响其引发大流行可能性的因素仍不清楚,例如它感染人类和在人与人之间传播的能力。福尔摩斯说:“然后你必须做所有这些实验,这将花费数年时间和大笔资金。”

这就是机器学习可能提供的捷径。与其试图完全描述每一种新病毒,模型可以用来标记高优先级目标进行进一步研究。科罗拉多大学博尔德分校的病毒学家Sara Sawyer说:“我们需要的是一个下游分类系统,这样我们就知道哪些病毒需要进行深入的病毒学研究。”

模型内部

当一种病毒被发现时,除了它的基因序列之外,人们通常对它知之甚少。因此,仅使用病毒基因组就能对其进行分类的模型将特别有用。英国格拉斯哥大学的计算病毒学家Nardus Mollentze和他的同事已经开发了一个这样的模型,该模型在一定程度上通过测量病毒与人类基因组的部分遗传相似性来评估病毒6.病毒所承受的进化压力可能会导致与宿主基因组中的基因片段相似——要么是为了逃避先天免疫系统,要么是为了帮助复制。当对861种已知病毒库进行测试时,该算法可以将它们分类为人畜共患病或非人畜共患病,准确率为70%。

此后,Mollentze加入了病毒出现研究计划(Verena),这是一个由研究人员组成的联盟,旨在开发和改进人畜共患预测模型。Mollentze与Verena的研究人员合作,将他的算法与利用哪些病毒感染哪些宿主的知识的技术结合起来,包括推断未知宿主-病毒关联的方法。这种组合方法将性能提高了大约10个百分点7.未来,病毒如何与宿主在分子水平上相互作用的知识可能会被纳入。“这一切都将是关于蛋白质和生物化学的,”指导维伦娜的卡尔森说。“这就是它的未来。”

一个重要的目标是了解哪些模型运行良好,以及为什么。有些模型只是根据数据中的模式进行分类,有些则推断出这些模式的原因,但很难将它们区分开来。“有一个问题:我们只是教机器重复它们已经知道的事情,还是让它们学习可以带入新领域的原则?”卡尔森说。

为了取得进展,验证模型的过程将至关重要。例如,一些研究试图预测哪些物种携带人畜共患病毒,结果好坏参半,但几乎没有系统的比较,因此很难知道哪种方法有效。为了解决这个问题,在2020年初,Verena的研究人员将哪些蝙蝠物种可能携带贝塔冠状病毒的预测作为案例研究8.他们创建了8个统计模型,并用它们生成了一个可疑主机列表。在接下来的16个月里,发现了47种新的蝙蝠宿主。当研究人员将这些数据与他们的预测进行比较时,他们发现一半的模型的表现明显优于随机预测。这些模型包括物种寿命或大小等特征。其他四个模型没有考虑到这些特征,表现很差。

数据开发

任何人工智能(AI)算法从根本上都受到其输入数据的限制。索耶说:“当算法接受大量高质量数据训练时,人工智能就能工作。”“但每年只会发生少量溢出效应,关于病毒的数据往往很脏,有很多缺失的信息。”大多数研究人员都认为目前的数据是不够的。马泽特说:“我们没有足够的高质量数据来做好预测工作。”

在某种程度上,建模依赖于科学家收集新数据,但迄今为止,病毒发现工作的动机是考虑到风险最高的地方和情况。卡尔森说,建模者实际上需要的是旨在提高地理和分类覆盖率的抽样。为模型提供更多这类数据改变了可以提出问题的范围。卡尔森说:“有了100万个数据点,你就可以展示森林砍伐是如何增加蝙蝠中的病毒流行率的。”“有了一万亿点,你就可以像预测天气一样预测溢出效应。”

要想接近这一目标,就需要全球合作,将开放数据共享作为规范,每个人都遵守数据标准。这方面的障碍更多的是政治、文化和伦理上的,而不是科学上的。例如,围绕出版物的学术激励是快速数据共享的障碍。确保共享基因数据的国家从中受益也是至关重要的。奥利瓦尔说:“这是关键问题,解决这个问题需要建立信任。”“确保你不仅在疫苗方面有所回报,而且在培训、能力建设和论文合著方面有所回报。”

2014年生效的国际条约《名古屋议定书》(Nagoya Protocol)规定了各国对包括生物样本在内的自然资源的主权,并允许各国要求签订利益分享协议以换取这些样本的使用权。然而,一些实验室现在可以仅仅利用基因测序数据合成病原体或开始开发疫苗。卡尔森说:“我们在国际法中没有任何规定来处理序列数据。”“名古屋不适合那样的世界。”类似的问题有一天可能会应用于人畜共患病风险预测。卡尔森说:“我们正在使用全球南部的研究人员收集的数据。”“利用这些数据创造一项技术意味着什么,存在一些合理的问题。”

预测和准备

为了使建模对现实世界产生影响,它必须导致公众可访问的工具,提供可操作的、与当地相关的信息。建模还需要与实验工作更好地结合起来,以探究病原体的特征。就像一个模型可能标记出候选病毒供进一步研究一样,这些调查也可能产生用于验证和改进模型的信息。然而,跨学科的交流目前是有限的。索耶说:“这些社区不怎么交谈,甚至不怎么阅读彼此的报纸。”

建模者还需要清楚地传达他们工作中固有的不确定性,以及他们预测的含义,这样他们就不会过分夸大好处。Olival说:“没有人说我们会有下一次大流行的确切时间、地点和物种。”研究人员正在处理概率问题,而意想不到的事情可能而且确实会发生。

即使在最好的情况下,预测工具也不能完全防止疾病爆发。卡尔森说:“我绝对不认为我们应该把世界安全寄托在这些模式上。”但是,与改进的全球监测系统、有针对性的疫苗开发和全球卫生保健能力建设一起,它们的价值是显而易见的。卡尔森说:“它们让我们做两件事:了解周围发生的事情,分清主次。”最终,这可能有助于减少流行病的发生频率。卡尔森说:“我们可以更好地预防其中一些疾病。”“但这要求我们在我们正在做的事情上做得更好。”