介绍

自引入动态因果模型定量预测COVID-19冠状病毒流行以来12,随着新数据的出现,模型的结构已逐步优化。在本技术报告中,我们描述了模型的结构,并对提交时(即2020年11月6日)的各种结果进行了说明性预测(注:如后记所述,本文提供了在特定时间点发生的COVID-19 DCM的特定实例的动机和解释。由于动态因果建模的性质,模型的最优结构必然随着可用数据的增多和模型复杂性的增加而改变。可以在这里找到该模型连续变化的每周记录3.)。这些说明性的例子侧重于识别具有最大证据的模型,以及这如何保证预测的有效性。

动态因果模型(DCM)与大多数流行病学模型的区别在于预测减轻结果——并量化与这些结果相关的不确定性。这与不考虑流行率对社会行为反应的影响的定量流行病学预测形成对比。通常,这些预测是在几周内进行的,并且基于对各种数据最近轨迹的拟合曲线;例如,参考文献。45。相比之下,动态因果模型考虑的是最有可能发生的事情,它基于一个能最好地解释所有可用数据的生成模型。这就要求建立一种社会行为反应模型,以减轻病毒传播,如保持社交距离、封锁、检测和追踪等。反过来,这需要详细考虑如何生成各种类型的数据。例如,它必须模拟测试能力的波动和抽样偏差,因为人们在有症状时自我选择。这种建模的优点是,模型产生的任何数据都可以用来告知模型参数,这些参数可以反映潜伏状态的波动,例如感染的流行程度。潜在状态是指那些不能直接估计,必须从可观测数据中推断出来的总体状态。

动态因果模型关注的不是最坏的情况,而是最可能的结果,同时考虑到对病毒传播的预测、行为干预方面的反应以及衡量流行病方式的变化(例如,确诊病例、死亡率、住院率、检测能力等)。至关重要的是,动态因果模型带来了两件事。第一种是使用变分程序来评估任何给定模型的质量或证据。这意味着模型适应可用的数据;从某种意义上说,最好的模型是在给定当前数据的情况下,拥有最多证据的模型。随着时间的推移,模型的复杂性增加,以一种准确解释数据所必需的方式。从技术上讲,日志证据(也就是边际似然)是准确性减去复杂性——两者都是数据的函数6

动态因果模型的第二个优点是在条件依赖性的估计中适当地结合了不确定性。换句话说,它允许一个参数的不确定性影响另一个参数的不确定性。这意味着动态因果模型通常具有大量的参数,因此所有参数的条件不确定性是一起处理的。这提供了一个通常非常富有表现力的模型,可能看起来过于参数化。然而,通过优化模型参数上的先验概率密度,可以使用贝叶斯模型选择优化复杂性(cf,参数的有效数量)789。请注意,追求这种形式的结构学习的能力取决于能够估计模型证据或边际可能性,这是主要的原因理由用于动态因果建模的变分程序101112

可以利用这些潜在的优势对各种数据类型进行建模,以拟合流行病学轨迹的表达模型,并隐含地产生可测量结果的后验预测密度。换句话说,将行为反应参数化——比如社会距离——作为潜在状态的函数,使模型能够以适当的不确定性猜测我们未来将如何反应。这是上述缓解反应预测的基础。

本报告的其余部分简要描述了使用10种数据的当前预测。这些后验预测密度基于补充信息中描述的COVID-19 DCM的实现,并在随附的带注释的MATLAB代码中进行了详细说明(参见软件说明)。

动态因果建模

流行病数据的卷积、生成或正演模型(这里来自英国)基于四个因素,每个因素对应一种不同的潜在状态,每种状态都有若干不同的水平。其中一个因素是感染因素)可以被认为是传统的(SEIR)流行病学模型。其余因素涉及人口流动和可能受影响也可能不受影响的人与人之间的波动接触,以及依赖于但与感染因素无关的感染的临床进展。这允许感染的有症状和无症状的临床必然结果。最后一个因素与测试有关。这是生成模型的一个关键部分,因为它生成的数据被认为是关于流行病进程的信息。

补充信息中描述的特定DCM是基于单个区域的原始模型1。它后来被扩展到处理社区内部和社区之间的病毒传播2。这是解释二次波的必要条件13。在这种情况下,动态因果模型的早期应用与当前应用之间的另一个区别是多模态数据的使用。图4中的例子。1使用10个数据来源(详见补充资料):

  • 根据标本日期报告的基于PCR检测的确诊病例

  • 按死亡日期报告的COVID-19检测呈阳性后28天内的每日死亡人数

  • 以需要机械通气的病人人数来衡量的重症监护病房占用率

  • 每天进行PCR检测的次数

  • 根据使用聚合酶链反应检测的无偏见社区调查得出的感染人数

  • 根据使用抗体测试的无偏见社区调查,血清呈阳性的人的百分比

  • 根据COVID症状研究估计的报告症状的人数

  • 由政府发布的对再生产比率的估计

  • 机动性,由交通部估计的汽车使用量来衡量

  • 位置,由谷歌的移动数据估算;例如,工作场所的活动。

图1
图1

各种结果模式的后验预测,从确诊病例到生殖比率。黑点对应于正文中列出的公开来源的平滑经验数据。蓝线和阴影区域对应基于后验预测密度的后验期望和90%贝叶斯可信区间。垂直的蓝色虚线表示执行分析的日期。

请注意,其中一些所谓的数据将被视为传统模型中的估计值,例如有效再生率。然而,动态因果模型将这些估计视为数据特征,因为它们是基于历史数据的。换句话说,动态因果模型直接从潜在状态(如感染流行率的变化率)产生潜在的繁殖比率。这意味着它可以根据遗留数据预测估计,假设伴随着这些常规估计的是随机效应。

数字1显示数据(黑点)和后验期望(蓝线)的预测,以及相关的90%可信区间(阴影区域)。在这里,我们考虑上面列出的前八个结果。请注意,数据可用的时间段(以及两次观测之间的时间间隔)因数据类型的不同而不同。然而,由于生成模型在连续时间内运行,从爆发开始到未来,所有数据点都可以使用。在这里,我们看到确诊病例的第一波和第二波表现出明显的不对称性,第二波确诊病例的数量要多得多。这在很大程度上反映了所进行的检测数量,正如每日死亡人数(平均超过7天)的非对称分布所证明的那样,预计每天死亡人数将达到200人左右的峰值(注:请注意,这一预测适用于2020年11月初(特别是11月8日)按日期计算的死亡人数,而不是按报告日期计算的死亡人数(截至撰写本文时,至少有一天报告的死亡人数超过400人)。这一模式反映在需要机械通气的患者人数、社区调查估计的感染流行率以及使用COVID症状研究报告的症状上14

该模型还显示,在撰写本文时,血清阳性率从7%下降到5%,预计在未来几周内会再次上升。繁殖比从2以上开始,在第一次封锁期间降至1以下,在夏季降至最低约0.7。此后,该指数升至1.5左右,10月份跌至1以下。注意,相对于dcm的后验期望,传统的再生产比率估计值略微高估了。至关重要的是,这张图中的黑点(上下置信区间,基于SPI-M:英国政府科学大流行性流感建模小组的共识)15)一直在向后移动两周从他们报告之日起及时。这就是上文所说的历史或回顾性估计的含义。换句话说,对再生产比率的估计与几周前的事态有关。在撰写本文时,这一点尤为重要,因为刚刚宣布了全国封锁,目的是将生育比控制在1以下。根据这一分析,在宣布这一消息时,它已经低于116

数字2显示了基于交通部和谷歌移动数据的移动和位置的等效结果。它表明,春季的全国封锁将接触率降低到新冠肺炎前水平的25%左右;此后,它们再次缓慢上升,直到在第二波开始时感染再次出现。在无花果。2其中,100%为新冠肺炎前的迁移率。

图2
图2

流动性的后验预测。该图使用与图1相同的格式。1。在这种情况下,数据以大流行前数值的百分比表示;即根据谷歌移动数据估计的交通使用和工作场所活动。有关数据来源,请参阅正文。

不确定性量化是动态因果模型提供的数据同化的一个固有方面。换句话说,动态因果模型是卷积模型,它使用贝叶斯或变分方法来吸收数据和随之而来的不确定性。在这个特殊的动态因果模型中,所有的不确定性都存在于模型参数中,例如各种速率常数和概率(见表5)1及补充资料)。然后,这种不确定性传播到依赖于时间的潜在状态,并最终传播到结果(由上图中的阴影置信区间表示)。

表1动态因果模型参数。

虽然有效,但变分程序是出了名的过于自信。由于他们处理条件依赖的方式,他们低估了不确定性:参见讨论和参考文献。17。为了弥补这一点,通过将后验标准差乘以8倍,夸大了上述数字中的置信区间。至关重要的是,这些置信区间不包含模型本身结构或形式的不确定性。换句话说,尽管该模型已被优化以最大化模型证据,但不能保证这是所有可能模型中最好的,几乎可以肯定它不是。

数字3.图中显示了产生预测的潜在状态。12。上面两个面板显示了先前数据(黑点)的三个结果:每日使用聚合酶链反应检测的确诊病例、每日死亡人数和重症监护占用率。左上方的面板显示速率,而右上方的面板显示累计总数。其余小组报告这四个因素潜在状态的波动情况。每个因素都有两个面板,分别显示相应的级别。有关这些潜在状态的含义以及如何解释它们的更详细的解释,请参阅补充信息。

图3
图3

后验预测和潜在状态。上面的两个面板显示了先前数据(黑点)的选定结果:这里是使用PCR检测的每日确诊病例,每日死亡人数和重症监护入住人数。左上方的面板显示速率,而右上方的面板显示累计总数。其余面板详细描述了这四个因素潜在状态的波动情况。每个因素都有两个面板,分别显示相应的级别。为了清楚起见,省略了一些级别,因为处于任何级别(任何给定因素)的概率总和为1。有关这些潜在状态的含义以及如何解释它们的更详细的解释,请参阅补充信息。

感染小组包括在(封锁)内和(旅行)和(旅行)之间限制接触的先前阈值有效的或活跃人口(虚线)。正是这些阈值在初次爆发后产生了二次和后续波的周期性表现。这里需要注意的一个关键问题是,在这个例子中,大约70%的人口仍然容易受到未来感染(2021年1月之后)。其余人群接触病毒的风险较低或已获得有效免疫力;不管他们是血清阳性还是血清阴性。

表格1提供参数的简要描述,它们的先验密度和后验密度通过拟合上图中的数据提供。先验精度对应于对数变换先验的方差逆。虽然(非负)尺度参数被实现为概率或比率,但它们被估计为对数参数。先前的平均值和范围是基于上述来源的,并且已经使用贝叶斯模型约简的连续版本逐步优化8。请注意,一些参数具有狭窄的(信息丰富的)先验,而其他参数则相对不知情。先验置信区间和后验置信区间的上下限包含90%的概率质量。请注意,这些是概率范围,如果数据需要,后验估计可以超过这些范围。

预测效度

动态因果模型通常用于检验关于产生数据的因果结构的假设。这取决于贝叶斯模型比较,其中每个假设或模型都使用模型证据(变分界)进行评分。这使人们能够找到对手头数据的最佳解释,具有最大的预测有效性。这是因为交叉验证的准确性与模型证据密切相关:换句话说,最大化模型证据通过最小化复杂性来排除过度拟合,并确保对新数据的泛化61720.。这对于流行病学建模来说尤其具有先见之明,因为“新数据”与未来有关,这意味着泛化与预测有效性相对应。使用未经过适当贝叶斯模型选择的预测模型可能具有较差的预测有效性,因为它们过于拟合(如果太复杂)或欠拟合(如果不够表达)。图1所示为示例。4

图4
图4

预测第二次高峰:左图显示了英国剑桥大学MRC生物统计部门在第二次高峰之前和之后的预测。这些投影是在适当的日子里从仪表板上截取的屏幕截图。右边的面板显示了使用动态因果模型的等效预测。上面一行显示了第二个峰值之前的预测,而下面一行显示了几天后的等效预测。日期由垂直的红线表示。红色椭圆突出了数据中最近趋势过拟合的例子。

数字4说明流行病学(传播)模型预测的失败5没有使用变分模型比较进行优化。左图显示了英国剑桥大学MRC生物统计部门在第二次激增的第一个高峰前后不久的预测。这些预测是基于从仪表板上抓取的屏幕4在适当的日子。右边的面板显示了使用动态因果模型(取自仪表板)的等效预测21)遵循贝叶斯模型选择;具体来说,是基于变分自由能证据界的贝叶斯模型缩减。MRC于11月11日至20日发布的第一份预测预测,每天的死亡人数将呈指数级增长,“11月21日可能在380至610人之间”。事实上,正如动态因果模型预测的那样,死亡率在11月9日达到高峰,为398例(7天平均值,于11月20日评估)。关键是,动态因果模型预测在峰值前后是一致的。相反,MRC预测没有预测效度,在峰值前后预测相反的趋势(用红色椭圆表示)。此外,动态因果模型在确诊病例激增之前预测了这一峰值,尽管幅度较小且提前了3周(见图2)。5)。

图5
图5

动态因果模型预测在8月初确诊病例增加之前将出现第二波疫情。这一数字摘自一份关于第二波原因的内部报告13

临近预报的一个重要应用是估计再现比(R-number)。如上所述,这通常被用作评估何时应考虑各种缓解措施的参考点。然而,当使用未经优化的模型进行估计时,对生殖比率等事情的估计原则上可能会变得不准确和有偏差。一个例子如图所示。6。左图显示了来自剑桥大学MRC生物统计部门(伦敦)的期望值(黑线)和可信区间的繁殖比率。右图显示了基于构成SPI-M的几个建模组的共识的上、下间隔(蓝点)15(代表英国)。

图6
图6

来自MRC生物统计单位(左图)和动态因果模型(右图)的生殖比率估计。黑线对应于最佳(后验)期望,阴影区域对应于可信区间。叠加在动态因果模型估计上的蓝点报告了政府报告的共识值的范围22。这些是在报告期结束前2周绘制的。垂直的红线表示估计日期为11月中旬。

在这两种情况下,在英国新感染人数达到顶峰时,生殖比率估计都在1以上。这在数学上是不可能的,因为在入射峰值时r值应该恰好是1。相反,基于动态因果模型的估计(见图2)。6和补充资料)表明,在死亡率达到峰值前约3周,生殖比率降至1以下(右图中的黑线)。动态因果模型估计值与MRC和共识估计值(SPI-M)估计值的幅度相似;然而,后者比前者晚了两周。简而言之,用于激励各种非药物干预和评估其相对影响的回顾性评估可能不适合指导时间敏感的决策。

讨论

DCM对COVID-19的主要贡献是将传统(SEIR)模型置于更大的社会行为反应模型中,最重要的是,将传统模型置于人们如何寻求检测或医疗保健的模型中。这涉及到一个多因素模型,其中SEIR模型构成了几个因素中的一个。这使得DCM能够产生广泛的测量和结果,因此使用更多的经验(现实世界)类型的数据来优化模型及其预测有效性。我们通过比较边际可能性优化过和没有优化过的模型的预测,说明了这一点。

优化模型(隐含其预测有效性)的一个关键考虑因素是正确地获得模型的粗粒度或表达性。因为模型证据可以写成准确性减去复杂性——其中复杂性为用于提供数据的准确预测的自由度打分——最佳模型取决于它试图解释的数据。这意味着模型证据(或变分自由能)可用于评估具有不同自由度的模型。例如,可以考虑社会距离和戴口罩对不同变量敏感的模型(例如,社会距离随着住院率的增加而增加,而戴口罩随着患病率的增加而增加)。如果这个更复杂的模型比一个更简单的模型有更多的证据——在这个模型中,社交距离和戴口罩被纳入有效接触率(即,每天有效接触的人数,就像目前的模型一样)——那么这将允许社交距离和戴口罩的独特模型。

有人可能会问,与其他方法相比,DCM的相对优势是什么?例如机器学习(ML)。与ML相关的DCM之间的两个关键区别是:(i)生成模型方面的显式公式和(ii)不确定性量化。如果想要使用优化模型(和参数)进行场景建模,则生成模型是必要的:例如,参考文献。2324。例如,如果有人想问放松对接触率的限制将如何影响病毒传播,他可以改变一个参数,将流行率与接触率联系起来,并预测后果。使用ML是不可能做到这一点的,因为在患病率或接触率方面没有可解释或可解释的参数化25。话虽如此,如果模型的某些部分不需要解释,它们可以使用ML进行优化。26他使用长短期记忆(LSTM)来估计动态行为模型的(可解释的)潜在状态与(可观察的)结果之间的似然映射(不可解释的)参数。

DCM量化不确定性的能力(信心积累)意味着任何预测或情景建模都可以以一种直接的方式配备可信区间。2728。使用通常不学习概率密度或信念的ML是不可能做到这一点的。相反,DCM使用变分贝叶斯显式地处理概率密度。

变分贝叶斯基于变分演算,应用于所谓的平均场近似;也就是说,对未知变量的后验密度进行因式分解,使其具有已知且易于处理的函数形式。这种函数形式允许评估模型证据(即边际似然)的较低(变分自由能)界限,这是模型比较所必需的。该DCM中使用的特定平均场近似是直接的;即,分解成两个多变量高斯分布(i)状态之间转换的参数(和似然模型)和(ii)数据中随机波动的精度。由于后验密度大于各自参数的对数,因此(非负的)尺度参数实际上具有对数正态分布。

在DCM中,使用变分自由能(即证据下界)的(牛顿)梯度上升来优化后验密度(充分统计),其中至关重要的是,后验的高斯形式使梯度能够进行分析评估。这就是变分拉普拉斯10。实际上,变分拉普拉斯的优势在于它的计算效率,相对于其他的抽样方案:29例如,用分钟代替小时。更重要的是,变分自由能被认为是比基于抽样方案(例如,Metropolis Hastings)的近似更好的模型证据近似值,例如贝叶斯信息标准,谐波平均值(请参阅参考文献)。30.讨论),等等631

变分程序的一个缺点被称为过度自信问题。换句话说,在使用平均场近似时,因子的边际后验密度通常过于精确,因为它们排除了条件依赖性17。为了适应这一点,可以对参数的后验协方差进行缩放,这样后验预测密度的90%可信区间就包含了大约90%的经验数据点。在目前的情况下,这涉及到将后验标准差按8倍进行缩放。

后记

本报告侧重于COVID-19大流行期间特定时间点的模型结构。该模型随后被用于制作英国流行病学轨迹和预测的每周仪表板摘要3.。附带的指示板包含到每周报告的链接,这些报告列出了对模型的更改。在本文中,我们故意没有更新示例—或模型的描述,这可以被理解为后续建模的初始基础。

然而,人们自然会问,在随后的几个月里,这种模型是否证明有用。答案是肯定的和否定的。在提交本报告之前,DCM显示出高度的预测有效性,被广泛认为是第一波期间最准确的住院和发病率预测1。然而,在阿尔法变种出现后,它未能预测英国第二波流感的进程。这说明了贝叶斯模型选择的重要性,以及最佳模型如何随着可用数据的增加而变化。在这种情况下,上述DCM不能模拟传播风险的增加。随着α变量的出现,包括波动传播风险和季节性影响(用时间基函数建模)的模型提供了更大的模型证据,因此取代了目前的模型32。随后,需要进一步更新模型,以适应疫苗接种、横向流动装置测试的大规模推出、年龄分层数据等。

有趣的是,DCM对英国流行率、住院率和死亡率的预测优于基于传统流行病学模型的预测;尤其是最坏情况的建模。这并不奇怪,因为DCM的目标是根据手头的数据预测最可能的结果。相反,合理的最坏情况建模的目标是在各种可能发生也可能不发生的预先确定的情况下预测结果。我们希望在即将到来的一年里,利用全球数据,回顾性地量化DCM的预测有效性。

结论

在动态因果建模中,一切都是根据模型的边际可能性或证据进行优化的,由变分自由能或证据界评分。这就产生了一个重要的结论,即最好的模型是手头数据的函数。反过来,这意味着在疫情初期的最佳模式并不是在疫情过半时的最佳模式。随着可用数据越来越多,模型需要变得更具表现力(或更复杂),以便提供对这些数据的准确描述。复杂度取决于先验在模型自由参数上的紧密程度。有一个最优的复杂性,与拟合的准确性相结合,支持模型证据。

这种最优复杂性可以通过贝叶斯模型比较来确定。换句话说,模型是根据允许哪些参数变化以及哪些参数先验地受到更多约束来定义的。这种模型优化本身就是一个自适应的持续过程,原则上,只要数据不断到达,就可以继续进行。如上所述,尽管贝叶斯模型比较在整个疫情中都得到了应用,但并不能保证模型的基本形式——或其粗粒度——一定是最好的。这将取决于对模型空间的彻底搜索,这是一个困难的问题。这一问题可能在该流行病进入流行阶段时得到解决。