介绍

Τhe COVID-19的传播往往以地理聚集性疫情的形式表现出来123.。这种模式可能是由于传播发生在公共娱乐设施、公共交通工具、宗教场所和购物中心等室内公共场所3.或者其他发生社会互动的建筑123.4。为了遏制当地疫情并阻止任何持续传播,地方卫生当局需要根据当地需求作出反应,并灵活地调整COVID-19检测、传播链的接触者追踪和宣传活动。然而,为了迅速确定需要采取这种有针对性行动的地区,需要更好的工具,例如精确的流行病地理空间预测,以确定当地的疫情。

几个研究小组专注于严格以数据为导向的方法,通过使用统计方法在最新可用数据上寻找时间模式,并将过去的轨迹外推到未来,对COVID-19的传播进行预测567。由时间序列分析产生的预测通常产生广泛的预测精度范围,但当预测窗口在1到10天之间时,它们对短期预测特别有用567。然而,大多数关于COVID-19预测的研究缺乏高地理分辨率,并且侧重于预测确诊病例678910一些机构也在调查死亡人数811。然而,更好的地理分辨率对于指导地方检测战略至关重要,而世界卫生组织(世卫组织)已建议将检测阳性作为评估流行病控制时需要考虑的主要标准之一12。例如,高检测阳性可能表明社区传播增加和病例识别延迟。

与此同时,单一模型的另一种选择是所谓的集合预测方法,该方法已在几种传染病的模型中取得了不同程度的成功13。它通过使用加权平均将两个或多个不同的预测模型的输出合并为一个模型,从而将它们结合在一起511与单独研究的每个模型相比,它有可能提供更好的预测能力和准确性14

本研究的目的是开发和评估四种不同的统计模型和一种集成模型在预测2020年7月至2021年6月瑞典乌普萨拉县人口规模较小的地区(992至19226名居民)COVID-19检测阳性方面的表现,使用为期一周的预测窗口。这些模型被认为涵盖了一系列的统计方法,包括梯度增强(GB)、随机森林(RF)、自回归综合移动平均(ARIMA)和综合嵌套拉普拉斯近似(INLA)。最后,将所有四个模型的不同结果合并到一个加权集合中,以研究组合是否会提高预测性能。模型的变化取决于协变量和用于参数估计的方法,以及模型中包含的空间和/或时间自相关结构。

方法

数据集

我们研究了瑞典乌普萨拉县的数据,乌普萨拉县是瑞典人口第五多的县(388,394名居民),总面积为818,962公顷,人口密度为47.7人/公里215。该县包括8个市,并进一步划分为50个服务点区域。服务点区域被定义为一组邮政编码,由国家邮政服务机构PostNord提供相同的包裹收集和投递服务。在瑞典,这样的服务点通常与主要的杂货店和零售店位于同一栋楼里。通过这种方式,服务点区域类似于人们连接和相遇的边界。

预测模型中使用的所有数据都是由乌普萨拉县议会和CRUSH Covid计划(一个由乌普萨拉大学多学科研究人员组成的团队)收集的,目的是通过监测关键空间区域的时间疾病趋势,帮助当地卫生当局遏制当地Covid -19的爆发。通过使用多种数据源,CRUSH Covid一直在每周一整理一个综合数据库,并每周向卫生官员和公众通报每个数据源的描述性统计数据。

我们考虑了以下类型的数据来构建我们的预测模型:(1)服务点区域的地理位置;(2)各区人口规模、性别分布、邻里剥夺指数等人口特征16;(3)根据每个地区、邻近地区以及国家层面的COVID-19 RT-PCR检测数量和结果,每周COVID-19传播的直接指标;(4)各地区及全国每周住院人数、患者占用ICU病床数;(5)每周间接指标,如全国1177医疗咨询热线和疑似COVID-19紧急电话112的呼叫次数17;(6)疫苗接种覆盖率信息(分别在至少3周或2周之前接种过欧洲药品管理局(EMA)批准的1剂或2剂COVID-19疫苗的居民的累积比例);(7)在工作场所、零售区域和娱乐空间的社会环境中增加联系的指标,以及在城市层面上使用谷歌Mobility数据的在家时间的变化。表中包含了所有变量的完整概述S1见补充资料。

时间变量数据是在2020年6月29日至2021年7月4日期间每周持续收集的,但国家1177医疗咨询热线的covid -19相关电话数量除外,该数据自2020年11月16日起可获得。

利息变量

结果设为检测阳性的预测值(\ ({y} _{我t} \)),即在接下来一周内进行的所有COVID-19检测中COVID-19确诊阳性病例的比例(t),为每个服务点社区().选择七天预测窗口有三个主要原因:(1)大多数数据每周只能获得一次,并且每周汇总一次;(2)乌普萨拉县议会的公共卫生机构将每两周召开一次会议,希望知道下周他们需要在哪些地方增加检测工作,因此每日估计的相关性较低;(3)短期预测往往比长期预测更精确11。在“预测模型章节中,我们描述了本研究中使用的四种预测模型,分别基于GB、RF、ARIMA和INLA。

绩效评估

为了评估不同的模型,我们考虑了随着新数据在整个大流行期间进入而移动的训练和验证数据的时间序列窗口。我们从一个20周的初始训练数据集开始,并用它来预测\ ({y} _{我t} \)为周\ (t = 21 \)所有领域我\ \ ()。我们计算\ ({RMSE} _ {t} \)作为一周的均方根误差\ \ (t)在所有领域我\ \ ()为了比较不同模型的性能:

$ $ {RMSE} _ {t} = \√6{\压裂{{\总和}_ {i = 1} ^ {{N} _{我}}{({\ widehat {y}} _{我t} - {y} _{我t})} ^ {2}} {{N} _{我}}},$ $
(1)

在哪里\ ({\ widehat {y}} _{我t} \)预测的积极和\ ({y} _{我t} \)观察到的正能量在面积上吗我\ \ ()和周\ \ (t),\ ({N} _{我}\)是面积的总数。由于每周都有新数据,所有以前的数据都用于培训和\ ({RMSE} _ {t} \)是否使用每周的验证数据进行更新\ \ (t)。因此,对于每个模型,我们创建了一个时间序列\ ({RMSE} _ {t} \)在星期\ \ (t)\((21 \点{N} _ {t}) \)。一个较低的\ ({RMSE} _ {t} \)值表示性能越好。

最后,我们考虑了一个naïve模型来评估与基线模型相比所有模型的性能。在naïve模型中,对面积的预测我\ \ ()和周\ \ (t)仅仅是基于在面积上观察到的值我\ \ ()在前一周\ (t - 1 \)

$ $ {\ widehat {y}} _{我t} = {y} _{我,t - 1} $ $
(2)

与其他模型类似,我们评估\ ({RMSE} _ {t} \)在星期\ \ (t)\((21 \点{N} _ {t}) \)。为了比较模型间差异的显著性,采用具有显著性水平的双尾配对Wilcoxon符号秩检验,对不同模型的整个RMSE时间序列进行相互比较\α= 0.05 (\ \)。为了检验模型与基线(naïve)模型相比是否提高了性能,使用具有显著性水平的单尾配对Wilcoxon符号秩检验,将不同模型的整个RMSE时间序列与naïve模型的RMSE时间序列进行比较\α= 0.05 (\ \)

预测模型

我们比较了四种预测模型的结果。考虑到预测COVID-19检测阳性没有已知的参考标准,我们选择了这些模型,试图涵盖一系列统计方法,包括使用外部回归、时间序列分析和时空分析。更具体地说,选择梯度增强和随机森林作为基于树的模型,允许大量的外部回归量,同时能够自动检测特征的重要性。由于流行病学文献中常用的时间序列预测模型为ARIMA模型,因此本文选择ARIMA模型进行无外部回归的时间序列分析18。选择INLA模型分析数据的时空协方差结构。

使用梯度增强的多元回归

对于GB模型的训练,使用表所示数据集的23个预测变量S1(补充材料)。我们在R中使用了“gbm”包,它实现了Friedman描述的方法1920.。GB机器使用短决策树(“决策树桩”)作为变量选择和回归的底层机制。我们调整了与GB相关的四个参数,以确保实现最佳模型拟合,即:(1)每个模型拟合使用的树的数量(“n.trees),(2)每棵树的最大深度(interaction.depth(3)终端节点的最小观测数(n.minobsinnode),(4)每棵树的收缩参数(收缩”)。关于这些参数的详细信息可以在Greenwell等人的文章中找到。21。通过比较得到的最优值和选择的搜索范围,我们确保搜索空间足够大。这是以迭代的方式完成的。一方面,我们的目标是将最优值完全封闭在搜索空间内。另一方面,为了加快计算速度,在计算出的最优值附近尽可能缩小搜索空间。

随机森林多元回归

对于射频模型的训练,23个预测变量的数据集如表所示S1(补充材料),类似于GB模型。RF回归模型22使用“randomforest”包实现23在r中,RF学习器使用决策树的集合来训练模型并进行预测。我们计算了1000棵决策树(ntree= 1000)。在决策树的每个分支中使用的变量数量(mtry)在累积计算的每个阶段都进行了调整,因为最优值在1到6之间变化,这取决于训练集中包含的周数。保证了调谐范围的最大值为mtry大于所有计算出的最优值,以确保搜索空间足够大。调谐范围的最小值mtry在累积过程的每一步中设置为1。在训练过程中,基于空间域上重复的十倍交叉验证,对每个时间点进行参数调优,即迭代地将服务点区域划分为90%用于训练和10%用于测试,直到10次迭代后所有服务点区域都用于测试。提供最小RMSE的参数集被认为代表最佳模型。

使用ARIMA进行单变量时间序列预测

ARIMA方法考虑了一个纯时间序列模型,基于测试阳性的时间自相关,而不使用其他潜在的预测因子。在平均定心之后,我们考虑以下方程。首先,考虑自回归部分(AR):

$ $ {\ widehat {y}} _{我t} ={\总和}_{\τ= 1}^ {t} {\ varphi} _{\τ}{y} _{我,t - \τ},$ $
(3)

对于时间滞后\ \(τ\)\ \(左1 \ T点\ \),在那里\ \ (T)为模型中使用的先前观测时间点(周)的总数,即AR部分的顺序。在Eq. (3.),\ ({\ widehat {y}} _{我t} \)这周的预测是积极的吗\ \ (t)和区域我\ \ ()\ \ varphi \ ()是标度系数。接下来,我们考虑移动平均线(MA)部分。在MA部分,根据下式估计AR方程中的误差项:

$ $ {\ widehat {y}} _{我t} ={\μ}_{我}+{\总和}_ {q = 1} ^ {q}{\θ}_ {q} {\ varepsilon} _{我t-q}, $ $
(4)

对于时间滞后\(问\)\((1 \点Q) \),在那里\(问\)是移动平均模型的阶数。此外,\({\θ}_ {q} \)定义为时滞的模型参数\(问\)我\({\μ}_ {}\)表示漂移。如果\({\θ}_ {q} \)与零(\α= 0.05 (\ \)),则将估计值与预测正性相加\ ({\ widehat {y}} _{我t} \)从Eq. (3.).上述两个方程称为ARMA。为了让ARMA提供稳健的估计,时间序列需要是平稳的,这意味着输入在整个时间序列中具有恒定的平均值和恒定的方差。对于非平稳时间序列,进行微分,使时间序列以微分形式变得平稳。ARIMA模型是对微分时间序列数据进行的ARMA分析。

每个ARIMA (\(p, d, q\))模型由三个参数定义\ (p \)\ (d \)\(问\),在那里\ (p \)为时间轴参数的个数,\ (d \)微分的次数,和\(问\)为MA参数个数。一个简单的非平稳模型的例子是ARIMA(0,1,0):一个随机游走模型,即一阶自回归模型:

$ $ {\ widehat {y}} _{我t} ={\μ}_{我}+ {y} _{我,t - 1}, $ $
(5)

在哪里我\({\μ}_ {}\)反映了长期的趋势。

另一个例子是ARIMA(1,1,0),它包含一阶非季节分量,适用于随机漫步模型残差存在自相关的情况:

$ $ {\ widehat {y}} _{我t} ={\μ}_{我}+ {y} _{我,t - 1} + {\ varphi} _{1} \离开({y} _{我,t - 1} \右),$ $
(6)

大量的其他参数组合\ (p \)\ (d \)\(问\)也是可能的。我们使用了R中的“forecast”包24通过auto.arima()函数模拟给定输入序列的最低AIC值的组合。该函数使用最大似然估计(MLE)估计AR和MA过程的参数。

利用INLA进行多变量时空预测

该时空模型包括一个考虑时间自相关的分量和一个考虑相邻区域之间空间自相关的分量。我们考虑以下模型:

$ $ {\ widehat {y}} _{我t} = {\ widehat{\β}}_{0}+{\总和}_ {k = 1} ^ {k} {\ widehat{\β}}_ {k} {x} _ {k, t - 1} +{\总和}_ {h = 1} ^ {h} {f} _ {h} \离开({z} _ {h, t - 1} \右)+ {\ varepsilon} _{我t}, $ $
(7)

在哪里\ ({\ widehat {y}} _{我t} \)预测的正能量在面积上吗我\ \ ()为周\ \ (t)。模型由截距组成\ ({\ widehat{\β}}_ {0}\),一些线性协变量\ ({\ varvec {x}} = \离开({x} _{1}, \点,{x} _ {K} \) \)乘以它们各自的系数\ ({\ widehat{\β}}_ {k} \),以及一组函数\ ({\ varvec {f}} = \左\ {{f} _ {1} (\ cdot) \点,{f} _ {H} (\ cdot) \ \} \)用协变量定义\ ({\ varvec {z}} = \离开({z} _{1}, \点,{z} _ {H} \) \)。函数的形式h f \ ({} _ {} (\ cdot) \)可以根据模型中的时空自相关进行调整。最后,\ ({\ varepsilon} _{我t} \)误差是假设的吗\ ({\ varepsilon} _{我t} \ sim正常\离开(0,{\σ}^ {2}\)\)

在这个模型中,我们根据以下协变量在大多数训练周的显著性来考虑:相邻区域的平均正性我\ \ ()在前一周\ (t - 1 \),区域内的测试数我\ \ ()在前一周每10万成年人中\ (t - 1 \)即该地区每10万名成年居民中救护车人员评估为疑似COVID-19的紧急呼叫次数我\ \ ()在前一周\ (t - 1 \),地区人口密度我\ \ ()、周\ (t - 1 \)与区域基线日相比,每天进出工作空间的访客的平均百分比变化我\ \ (),以及表示是否面积的二进制变量我\ \ ()是否在前一周最积极的前10名中\ (t - 1 \)。当估计后验分布的95%可信区间不包含零时,认为协变量不同于零。

除了这些线性协变量,我们在时间序列中包含了一个阶为1的自回归结构函数。我们使用Besag-York-Mollie (BYM)规范对相邻区域之间的空间依赖性进行建模25。下面,我们定义\ ({\ upsilon} _{我}= {f} _ {1} (i) \)由于面积比效应,其中的空间结构残差我\ ({\ upsilon} _ {} \)是使用一个内在条件自回归结构(iCAR)建模的:

$ $ \ upsilon_{我}\左| {\ upsilon_ {\ ne我}\ sim正常\离开({m_我}{\,S_{我}^{2}}\右)}\正确。$ $
$ $ m_{我 } \, = \,\ 压裂{{\总和{_ {{j \ N \离开(我\右)}}}\ upsilon_ {j}}} {\ # N \离开(我\右)}\,文本{和}}{\ \,S_{我}^ {2 } \, = \,\ 压裂{{\ sigma_ {\ upsilon} ^ {2}}} {\ # N \离开(我\右)},$ $

在哪里\ # N (i) (\ \)与area共享边界的相邻区域的个数我\ \ ()。最后,该模型包含一个非结构化的时空交互组件。

我们使用R中的“INLA”包对所有模型参数进行贝叶斯估计和干扰26。与使用马尔可夫链蒙特卡罗(MCMC)模拟的更传统的贝叶斯方法相比,INLA在相当短的计算时间内提供估计,而近似值与MCMC提供的估计一样好,甚至更好27。我们对所有参数使用无信息先验。

整体模型

在建模期结束时,我们评估了四个模型的预测的加权集合是否会改善结果。观察到的积极性\ ({y} _{我t} \)等于不同模型的加权平均值吗\ \ (v)\((rf, gb, inla, arima)\)

$ $ {y} _{我t} ={\ω}_{0}+{\总和}_ {v}{\ω}_ {v} {\ widehat {y}} _{我t v}, $ $
(8)

在哪里\({\ω}_ {0}\)是截距\({\ω}_ {v} \)模型的重量是多少\ \ (v)。采用普通最小二乘估计方法对权重进行估计。naïve模型被排除在外,因为它是所有其他模型(包括集成模型)进行比较的基线模型。

道德宣言

研究的所有部分均按照2013年修订的世界医学协会《赫尔辛基宣言》进行。该研究得到了瑞典伦理审查委员会的批准(Etikprövningsmyndigheten,申请2020-04210和2021-01915),该委员会放弃了知情同意的需要,因为只提取了总体群体水平的信息。

结果

梯度增加

在累积计算的每个时间步上都要重复参数调优,因为当越来越多的每周数据加入到训练集中时,估计的最优参数会发生变化。调优以优化GB的四个参数在表中所示的值之间变化S2见补充资料。参数保持在选择的调谐范围内,表明模型有足够的自由度进行优化,除了n.trees它被迫不低于300。除第一个训练集外,最佳收缩始终为0.2。因此,将其固定为0.2可以通过减少对每个训练集再次优化的计算成本,从而大大节省计算机运行时间。在多次测试运行中观察到,当调整网格的范围或分辨率发生变化时,RMSE的时间演变仅发生微小变化,表明模型对参数变化具有鲁棒性。

在累积计算的每个时间步上记录基于基尼指数的变量重要性。它在不同的时间点之间变化显著。数字1显示整个时间序列上的变量重要性平均值,其中较低的等级表示较高的重要性。它显示每10万居民(周)的病例数\ (t - 1 \)),每10万居民病例数(周)\ (t - 1 \)和周\ (2 \)综合),滞后检验阳性(周\ (t - 1 \)),以及相邻区域的平均阳性率(周\ (t - 1 \))起着最重要的作用,第三点指向时间自相关,后者指向一定的空间自相关。

图1
图1

梯度提升,每个变量重要性的平均排名(随时间)。级别越低,重要性越高。

预测阳性率与真实阳性率比较得到的均方根误差(Eq. ())1))与交叉验证时计算的均方根误差(RMSE)进行比较,如图所示。S1见补充资料。基于训练数据估计的平均均方根误差更低,发展更平稳。这可以作为可能的过拟合的参考,特别是当变量的值每周急剧变化时。

随机森林

为RF调整的唯一参数是采样变量的数量,以便在决策树中进行拆分(mtry).为每个森林建造的树木数量(ntree)保持不变为1000,远高于默认值(ntree= 500),从而保证收敛性。结果是最优的mtry值在累积计算过程中在1到6之间变化,而调优网格范围为1到15。

各时间点的排名平均值(图2)。2)与英国的数据非常相似:每10万居民(周)的病例数\ (t - 1 \)),每10万居民病例数(周)\ (t - 1 \)和周\ (2 \)综合),滞后检验阳性(周\ (t - 1 \)),以及相邻区域的平均阳性率(周\ (t - 1 \))是最重要的预测因子,表明存在一定的时空相关性。

图2
图2

随机森林模型中所有时间点的重要性排序的平均值。级别越低,重要性越高。

同样,对于RF模型,过度拟合似乎也起到了一定的作用:训练过程中通过交叉验证估计的平均RMSE大多低于Eq()计算的真实RMSE。1),如图所示。S2见补充资料。此外,基于估计的平均RMSE的曲线更加平滑。当发病率急剧变化时,偏差特别大。

自回归综合移动平均(ARIMA)

ARIMA模型进行训练和预测\ ({\ widehat {y}} _{我t} \)对于每个区域我\ \ ()独立地,产生50个独立的模型。表格S3在补充资料中显示了不同的参数集在不同区域的分布。大部分地区(32%)的时间序列遵循无历史依赖,ARIMA(0,0,0)的结构,15个地区(30%)的时间序列遵循一阶自回归模型的结构,其中一阶非季节差异和一个常数项。其余的区域有不同的参数组合\ (p \)\(问\)\ (r \)。然而,所有区域的时间序列都至少有一个微分,这表明没有一个时间序列在水平上是平稳的。9个区域(18%)至少有一个MA参数,这表明时间序列相对于长期平均值会随着时间的推移而自我修正。根据表中的结果S3,阳性率显然受随机游走过程的支配,随时间的波动因素很大,不能单独用阳性率的历史值来解释。

积分嵌套拉普拉斯近似(INLA)

INLA提供了固定参数(截距和线性协变量)和随机效应(空间自相关、时间自相关和时空相互作用效应)的贝叶斯估计。INLA不是对模型中的系数进行单一估计,而是提供参数的后验分布,从而可以评估其不确定性和重要性。由于模型每周都会随着新数据的输入而重新训练,因此参数的后验分布也会每周变化。数字3.的后验分布\({\β}_ {k} \)模型中包含的六个协变量中,为2021年第21周。当零超出95%可信区间时,参数被认为是显著的。请注意,没有变量被缩放,所以根据单位,\({\β}_ {\ mathrm {k}} \)可以取很小的数字,尽管很重要。截距\({\β}_ {0}\)与零无显著差异。

图3
图3

后验分布\ ({\ upbeta} _ {\ mathrm {k}} \)2021年第21周的预测模型。灰色虚线表示零。

从后验分布可以得出,相邻区域的平均正性对下一周的正性有很大的影响。同样,每10万名居民的检测次数与表明该地区上周是否在前10名阳性程度最高的二元变量之间也存在很大的正相关关系。与人口密度之间也观察到微小但显著的关系。随着时间的推移,与疑似COVID-19紧急热线112的通话次数之间的关系有所不同。以2021年第21周为例,如图1所示。3.在美国,拨打112的电话没有显著影响,但它被纳入模型,因为它在其他几周的大部分时间里都很重要。预测的积极性与每天进出工作空间的访客的平均百分比变化呈负相关。这与预期相反,因为人们会期望积极性随着工作场所旅行的增加而增加,但这种反比关系可能是由实施的限制造成的,例如,当大流行的严重程度和阳性率增加时,更多的人被要求在家工作。限制与其对阳性率的影响之间的滞后效应可能导致了这种反向关系。

对相邻区域平均正性的协变量计算处理了数据中的部分空间自相关结构。同样,每10万居民的检测次数、被评估为疑似COVID-19的紧急热线112的呼叫次数,以及前一周的前10个代码,都是数据中时间相关性的一部分,也是时空交互效应的一部分。因此,考虑剩余的空间、时间和时空自相关的随机效应系数很小,大多数与零没有显著差异,个别例外取决于周\ \ (t)和区域我\ \ ()

模型比较

将所有模型的性能相互比较,并根据RMSE值与naïve模型进行比较。由于RMSE值是每周在新数据输入时计算的,因此我们可以比较模型随时间的性能。数字4显示模型性能随时间的进展。请注意,在计算第一个RMSE之前,前20周被用作训练数据。因此,该时间序列不涵盖全年,但包括大流行的第二波和第三波。这些波在RMSE时间序列中也可见,表明当正值增加时模型性能下降。该数字还清楚地表明,模型在2021年第2周之后提高了性能,这标志着第二波大流行的结束(即响应变量的大幅增加和减少),这是模型看到的第一波。RF、GB和INLA模型显著(p值< 0.001)优于naïve模型和ARIMA模型,但它们之间的性能差异不显著。

图4
图4

不同模型随时间变化的RMSE。

数据56分别为Heby地区和Älvkarleby地区预测正性的时间序列。这些地区显示了在整个大流行期间病例数保持相对较低的地区(Heby)和受大流行影响较严重的地区(Älvkarleby)的例子。随机森林模型、梯度增强模型和INLA模型能够很好地捕获两波感染(注意,这是第二波和第三波感染,因为在第一波感染时没有可用的数据)。由于参数的组合,ARIMA模型无法捕获Heby的任何时间变异性\ (p d q \)的(0,0,0)。50个地区中有8个地区出现了这种组合(表1)S3见补充资料)。在Heby和Älvkarleby中,预测都滞后于观测结果。

图5
图5

Heby是该地区受大流行影响较轻的地区,预测和观察到的检测阳性时间序列。

图6
图6

在受大流行严重影响的区域Älvkarleby观察到和预测检测阳性的时间序列。

数字7显示了在大流行第三波感染高峰期2021年第13周观察到的和预测的阳性病例图。INLA、RF和GB模式通过其空间协变量捕获了一些空间变异性,但没有一个模式能够捕获与观测到的正性中发现的相同数量的空间变异性。尤其是在城市内部(图底部)。7),我们观察到INLA、RF和GB很好地捕捉了空间变异性。在乌普萨拉县的农村地区(图的上部)。7)空间变异性的捕获不太一致。

图7
图7

2021年第13周(第三波大流行高峰期)观察到的和预测的检测阳性图。乌普萨拉县(上)和乌普萨拉市的放大图(下)。

最后,我们评估了四种模型预测的线性加权集合是否会改善结果。估计的重量是\({\omega}_{INLA}=0.4, {\omega}_{RF}=0.4\)\({\ω}_ {GB} = 0.2 \)。该模型不包含截距(\({\ω}_ {0}= 0 \)).由于ARIMA模型权重较大,故排除\({\ω}_ {ARIMA} \)估计为零,并没有显著提高模型性能。加权集合略微提高了整个时间序列的RMSE平均值为0.039,而RF、GB和INLA模型为0.040,ARIMA模型为0.055,naïve模型为0.046。基于配对Wilcoxon符号秩检验,加权集成优于所有其他模型(集成与GB的p值为0.02,集成与其他模型的p值< 0.001)。

采用配对Wilcoxon符号秩检验比较不同模型的预测性能,并检验其显著性差异。由于RMSE时间序列的时间自相关性不能保证样本之间的独立性,因此我们进行了额外的测试,以评估RMSE时间序列之间的差异是否显著不同于零(\α= 0.05 (\ \)),在考虑了数据中潜在的AR1过程后。这些检验得出的结论与成对的Wilcoxon符号秩检验相同。

讨论与结论

四个模型中有三个在预测瑞典乌普萨拉县地方一级的检测阳性方面优于naïve模型,并显示出中等的准确性。RF和GB模型显示出类似的性能,这是意料之中的,因为这些方法都基于决策树并使用相同的协变量集。在研究均方根误差和平均排名的时间过程时,它们在预测能力上的相似性变得尤为明显。有趣的是,尽管INLA模型依赖于完全不同的模型和不同的协变量选择,但在全年中,INLA模型也显示出与RF和GB模型相似的性能。例如,GB和RF模型在很大程度上依赖于每10万居民的病例数和1177个呼叫数据,而INLA模型依赖于112个紧急呼叫数据和前10个代码,这些代码表明一个地区在前一周是否处于最积极的前10个代码之列。在所有模型中,滞后正性和邻近区域正性是重要的协变量,谷歌Mobility数据相对重要。结合GB、RF和INLA加权预测的集成模型略微提高了预测性能。然而,应该注意的是,我们使用的集成模型本质上是简单的,目的是为了看看不同模型预测的线性组合是否会导致模型预测的任何改进。对未来研究的建议是探索机器学习文献中可用的不同和更复杂的集成模型。

良好的地理分辨率对指导当地检测战略至关重要,检测阳性已被建议作为评估疫情控制的主要标准之一12。例如,高检测阳性可能表明社区传播增加和病例识别延迟。阳性样本百分比的增加也可能表明,检测指南和策略主要针对有症状的患者,检测能力不够广泛,无法包括所有可能的接触者和需要隔离和进一步追踪接触者的COVID-19无症状患者。检测阳性率高也可能是当地检测供应不足或使用检测设施受到限制的结果。为此,乌普萨拉县议会在2020年和2021年期间确实利用了两个移动检测站,这些检测站被战略性地重新安置到本周(目前阳性)表现出最高阳性率的目标地区。我们在这里表明,与仅依赖当前的积极性相比,使用我们的预测模型有可能改善对下周表现出高积极性的高风险区域的识别。通过我们的每周预测模型,我们表明,与仅依赖当前的积极性相比,该模型可以提高对下周表现出高积极性的高风险区域的识别。

我们研究的一个优势是,我们在同一环境中使用了四种不同的模型,在地理上明确界定的区域内,可以获得全面的医疗保健数据,从而能够从多个角度了解大流行的状况,这种状况可能会受到感染随着时间的推移以异步方式传播的影响。我们的数据集每周更新一次,我们的模型不断校准,并根据有关感染和传播率的科学和经验知识不断改进参数。通过每周从多个资源中合并新的知识和数据,我们的模型逐渐基于越来越多的数据,这反映在准确性随着时间的推移而增加。

RF、GB和INLA模型的时间预测性能都比较好。尽管无法捕捉到强烈的峰值和阳性的突然变化,但这三种模型都能够捕捉到主要趋势和感染波。滞后检测阳性是RF、INLA和GB最重要的预测因子之一。这可能是图中所观察到的预测明显滞后的部分解释。56。然而,这些模型仍然优于naïve模型,该模型纯粹基于一周滞后的测试阳性,这表明其他协变量有助于预测性能,但需要更多的数据来进行更准确的预测。ARIMA在不同地区的表现差异很大,这些地区都有各自的模型和各自的参数集。模型的很大一部分依赖于预测与前一周相似的值,与用于比较的naïve模型相同。对于某些领域,预测更差(例如,预测一个恒定的值,如图2所示)。5),而对其他地区的预测则更为复杂,显示出在数据中模拟长期时间趋势的能力。我们的模型提供了提前一周的短期预测,符合将移动检测站迁移到最需要它们的地方的预期目的。由于流动性和社会接触方面的公共限制的巨大时间变化,以及新变体的出现和天气条件等其他季节性因素,这些模型在预测较长时间时可能会失去预测能力。

GB和RF模型包含区域特异性协变量,间接捕获了一些空间变异性(如邻近地区的社会经济特征和积极性)。INLA模型的目的是通过这些空间协变量以及数据中的空间自相关结构来捕获空间变异性。然而,该模型并没有捕捉到比空间协变量所涵盖的更多的空间变异性。然而,这并不奇怪,因为其中一个协变量包括邻近区域的正性,这涵盖了与空间自相关模型相同的空间结构。GB、RF和INLA模型都能更好地捕捉乌普萨拉市内部的空间变化率,而不是该地区的农村地区。这可能是由于农村地区之间的互动少于城市内较小服务点区域之间的互动。此外,该地区郊区的农村地区与邻近县的城市的互动比与乌普萨拉市的互动更多,而邻近县的数据未包括在内。ARIMA模型完全基于时间自相关,因此没有设计用于捕捉任何空间变异性。

关于空间单位,对我们来说能够在最好的水平上做出预测是很重要的。我们想要了解脆弱的社区,并了解哪些地区最需要有针对性的检测工作,这样预防工作就可以根据当地的需求进行调整。然而,我们没有使用邮政编码级别的分辨率,因为许多单位的人口规模太小,导致预测不可靠。市政当局界定的城市区域也不充分,因为它们的范围很广,无法在早期发现当地的疫情。相反,我们决定使用服务点区域作为解决单元,从而考虑在访问邻近的超市、药店和使用公共交通工具时可能接触病毒的可能性。在瑞典,商业建筑综合体容纳了大型杂货店和零售店,休闲区,以及独特的国家邮政服务点,来自邻近邮政编码的人口和社会经济特征相似的当地居民聚集在一起。以邮政服务点区域为代表的城市交叉点是COVID-19可能发生大量传播的地方。

可能影响我们预测检测阳性能力的一个限制因素是缺乏不同地区之间和邻近县之间个人日常活动模式的详细数据。此外,我们的模型没有考虑重大公共事件的影响,也没有考虑政府实施的限制措施随着时间的推移而变化的严重程度。另一个潜在的限制是,在瑞典以社会经济剥夺为特征的社区中,检测率较低28这可能导致病例通报率和检测阳性与较富裕地区相比存在差异。然而,在我们的模型中,包括邮政编码地区的“NDI”和“具有外国背景的居民比例”在RF和GB中仅产生中等重要性,并且不影响INLA模型。此外,乌普萨拉县议会只能在需要预先预约的情况下提供协助的现场检测,或者在特定时间段内在指定地点进行上门检测。家庭检测方案可以提高远离检测站地区的检测率,同时维持一个自检结果的中央报告系统将是有益的。同时,污水分析SARS-CoV-2已被证明是衡量疫情的有效工具29然而,在乌普萨拉县,只有有限的当地数据,而且只有有限的时间,在乡村一级,一些地区与市政污水系统没有联系。对未来流行病的一项建议是,以系统的方式从不同来源和规模水平收集数据,以便能够更好地捕捉趋势并协助预测工作。最后,我们还经历了数据的一些延迟和(或)修订,这往往导致在做出预测时低估了该地区住院和接种疫苗的居民人数,尽管这种差异在几周内就得到了回顾性纠正。例如,医院里的患者可以根据进一步的检测结果更新诊断,回顾性地将他们重新分类为COVID-19患者。然而,即使需要反复修订,当数据的总体质量良好和一致时,现有指标仍然可以很好地了解随时间和空间的传播趋势5只要很好地理解了局限性和潜在不准确的方向。

为了准确预测COVID-19,人们进行了多次尝试,采用了各种方法和指标,精密度和准确度范围很广11。Da Silva等人。9在试图对巴西的COVID-19病例和死亡进行空间预测时,与支持向量回归(SVR)和RF相比,线性回归和人工神经网络(ANN)表现最佳。他们还怀疑,考虑到在研究期间感染的传播记录为线性轨迹,这些方法在应用于巴西的情况下可能具有优势。在埃塞俄比亚使用ARIMA预测COVID-19病例的其他研究30.和美国的向量自回归10长短期记忆(LSTM)和双向LSTM比ARIMA和SVR具有更好的鲁棒性和准确性31。在我们的研究中,我们发现使用不同方法的性能相当相似,这表明输入数据的质量和类型可能是改进预测的限制步骤。一般来说,病毒在任何特定环境中的传播取决于各国之间可能有很大差异的周围环境条件。这些条件要么是由人类控制的(政府政策、行动限制、在家工作的可能性、公共交通网络的密度),要么是根本无法预测的(病毒的生物学特性、气候特征)。因此,指望一种病毒传播的单一预测模型可以成为全球标准是不现实的,而是根据每个国家的情况和现有数据有各种各样的模型可供选择11。我们的研究确定了一些检测阳性的重要预测因素,值得在不同国家进行调查,并在有类似数据时建立未来的模型。特别是,护士帮助热线电话和紧急热线电话是对模型提供信息的变量,在其他国家也应该可以访问。

由于数据可得性的差异、流动和社会接触限制的时间和强度的差异、社会互动和网络中存在明显的跨文化特征以及当地气候和天气的差异等原因,局部预测模型可能无法在各国和各大洲推广。我们可以认识到,各种类型的数据都可以提供信息,数据的局部拟合是必要的。将各种来源的数据结合到预测模型中可以帮助当地努力遏制病毒性疾病的传播。