主要

COVID-19大流行已经沉淀前所未有的全球公共卫生政策干预和群体行为的改变。理解局部暴发SARS-CoV-2会极其困难由于不可避免的通过test-by-request策略确定偏差发生1。此外,情况下,住院和死亡数据滞后指标由于感染和报告和临床结果之间的延迟时间2,3。这可以受到疫情最初集群的趋势低下的人口,由于减少了感染严重程度和更高比例的无症状的感染,他们表示在临床数据可以更有限4。根据选型混合的力量,它通常需要几周或几个月感染渗入到older-aged人口、医疗指标的点可以检测大量爆发。因此有效症状监测的必要的观察数据,辅助临床结果暴发的早期检测和识别,这样充足的公共卫生干预措施可以限制传输。

COVID-19等呼吸道疾病,了解个人的移动模式的核心计算传输速率(β)和感染的力量(λ)更准确地跟踪个体之间的有效联系。COVID-19大流行使得移动数据使用电信提供商5、基于web的企业6,7和公共交通组织8帮助了解接触模式和坚持非药物干预措施(npi)。Jeffrey et al。9使用移动数据从O2和Facebook应用程序作为实际的移动模式的代理在英国监控坚持2020年3月国家封锁。这种类型的数据进一步采用有效地动态流动网络模型,使模拟SARS-CoV-2流行10。然而,问题依靠移动数据作为有效的代理的联系人11因为增加流动性本身可能不会与增加传播。这是最明显的在小说的对数生长期SARS-CoV-2变体和任何分析使用这些数据只能说明变化的行为的一个组成部分,可以增加或减少传播12。使用移动数据似乎有最大的实用程序,用于国家或地方有npi的政策和相关行为的改变可以更有效地解释9;这些数据继续被用于传输造型的科学顾问组突发事件(SAGE)13,14英国政府。

数字的使用搜索和报告可能为症状监测提供见解,无法找到与传统流行病学指标。平台如谷歌趋势提供一个接口分析相对搜索量(rsv)对于一个给定的位置,提供实时监控人群中的发病率。互联网报告的行为一直在探索新兴埃博拉病毒等病原体15,发现类似的实用程序的传统监测监控集群和爆发。谷歌趋势表明潜在的呼吸道病毒的监测H1N1和基于矢量的西尼罗河病毒16。此外,谷歌趋势数据被用来评估坚持npi COVID-19流行在台湾通过观察,例如,对口罩的需求17。过去的研究18,19,20.,21讨论了谷歌趋势作为识别早期的数据源增加国家的发病率COVID-19几乎以相同的方式作为Google流感趋势。Google流感趋势22监测的经验23插图辅助数据源的需要,精心设计算法和不断调整随着疫情的发展占时间搜索行为的变化。谷歌趋势的融合多个数据源(Twitter,住院和Google流感趋势)作为流感监测系统24单独使用谷歌趋势显示改善模型性能的承诺和说明这种方法的应用程序来检测SARS-CoV-2传播的变化。

测试数据在地区范围内的解释是混淆视听25通过确定偏差,关键的利益团体可以通过:排除地理不切实际的测试中心,金融的影响如果被迫分离,无症状感染和测试可用性感染或症状出现的时候。国际的研究强调了提高积极性和COVID-19测试率最低的最贫困地区26,27,28。这已被证明是加剧了贫困农村地区与当地不连接测试中心,并在少数民族可以排除在有效的公共卫生信息。进一步强调工作缺乏同步性,可以观察到的测试数据和临床结果之间复杂的特性转化更精细的空间尺度上的更小的数字29日。这可能是由于空间集群测试,这是特别受目标测试策略30.和空间异构机构测试。然而,age-severity感染梯度也可能导致预期之间的分歧的水平测试积极性和观察临床结果的数量由于暂时的不同成分。这强调的重要性使用流行病学结果相关的公共卫生政策背景和早期干预的要求的基础上,小说在循环变异的特点。

有效的症状监测的SARS-CoV-2需要有症状的患病率,寻求治疗行为,移动模式和测试需求要监视地图,了解广泛的传染病。通过互联网寻求治疗行为的互动参与31日已被证明是重要的理解疾病传播。然而,这种方法的应用程序(特定于COVID-19症状)小空间尺度上,还有待探索其潜在功能爆发的先兆。我们评估谷歌趋势的适用性,谷歌移动,电信移动,国民医疗服务制度(NHS)通路119电话和网站测试需求作为造型疫情的预测功能。我们有多个机器学习模型,暂时滞后特性的灵敏度分析,评估其预测性能COVID-19捕捉局部暴发。我们设计了空间数据的神经网络,我们称为spatio-integrated长期短期记忆(SI-LSTM)和spatio-integrated卷积长期短期记忆(SI-CNN-LSTM)算法。

主要指标分析

我们进行了一次评估的主要指标population-normalized聚合酶链反应(PCR)阳性测试,住院和死亡从地方当局COVID-19区(小伙子)在英国。我们初步调查评估的可行性主要医疗保健、社会保障和辅助医疗数据来源。这包括全科医生电话,临床人员缺勤,照顾家里发病率报告和学校所带来的困难。我们进一步探讨1108 COVID-19-related谷歌趋势web搜索词,NHS COVID-19移动应用程序32、谷歌移动、电信移动,COVID-19测试请求网站旅行和NHS通路119个电话。领先指标评估使用广义可加模型和负二项错误的结构和动态时间扭曲。数据源被排除在外,如果他们有完整的地理覆盖范围,不能及时采购(这将是公共卫生相关的操作响应),发现滞后或并发的临床目标变量。结果表明,流行阶段最一致的领先指标94谷歌趋势而言,电信移动,谷歌移动、网站测试请求旅程和NHS通路119个电话。

谷歌趋势数据是每小时收集的所有四个国家的英国,4013年导致数据位置;他们按比例缩小的小伙子地理使用谷歌提供的纬度和经度坐标映射到国家统计办公室(ONS)边界33。从谷歌移动数据收集6和电信运营商5小伙子,据报道,中间层超级输出面积(MSOA)33,分别。准备的数据映射到小伙子级别使用国家统计局查找34通过提取等,人口和人类别(居民、工人、访客)信息。旅行网站测试请求数据来自测试和跟踪Adobe分析平台,措施有症状和无症状的旅行预订系统通过测试。进一步分解的数据旅程是否完整或不完整的最后阶段。完成在线测试可用性被定义为个人的旅程,直到它们提供一个测试的最后阶段,不能进行相对于个人,完成了网站的旅程。Adobe geolocates请求者的基础上他们的互联网协议和一个查找表创建聚合Adobe小伙子水平位置。119年成立数量作为NHS的联系电话2020年5月测试和跟踪服务35,提供了一种书COVID-19测试和询问测试结果;它的范围已经扩展到疫苗接种的任命过程。与上面提到的其他来源,数据集被聚合小伙子地理使用ONS查找表34。只有两种选择:调用在“测试enquiry-request测试”是作为电话的原因,和所有调用,不管原因。

造型疫情风险

爆发的风险评分系统是population-normalized COVID-19-positive PCR情况下,住院和死亡率。pcr阳性的情况下通过匿名数据的组合列表收集的英国卫生安全局(UKHSA),这是来自全国病理交换数据集36。住院数据得到承认病人护理(APC)的数据集37COVID-19阳性,其中包括个人和八天前十五日内承认,和低聚合的超级输出地区童子的水平。死亡率数据得到UKHSA COVID-19死亡linelist英格兰,苏格兰和公众的仪表板38和北爱尔兰39(注意,我们没有访问死亡率数据为威尔士小伙子地理)。PCR检测和死亡率数据,包括进行分析评估了回填(也就是说,多久之前最后一个完整的一天数据)在最近7天内包含之前作为一个目标。住院APC数据定义了每月的时期医院信托必须声明他们的招生活动数据和最后一个完整的一天包括在内。每日PCR测试,每个孩子住院和死亡数据规范化每百万,平滑滚动窗口期7天。定义的阈值代表相同比例的这些分布在定义的时间窗口的小伙子在英国流行。风险评分标准是动态的和由每日比例的变化情况下,住院和死亡,由变异的影响严重,可用性测试在一个国家,发现率和疾病流行率信息inter-location异质性的指标。

初步进行了单变量分析风险评分COVID-19的目标,使用集成一个自回归移动平均(ARIMA)模型适合使用修改后的Hyndman-Khandakar算法流行相变点。肤浅的学习算法(随机森林40,XGBoost41,“绿带运动”42和幼稚的贝叶斯42)都是经过训练的领先指标的特性,从15 - 40天相对滞后风险评分的目标。我们没有预期大于这些时期的初步分析表明,模型性能迅速恶化后40天。随机反对者40天被排除在外的流行阶段评估模型的性能。K倍交叉验证是为每个模型(包括k= 10)除了主要训练模型,对整个训练数据集。11模型从而培训数据:十在每个交叉验证分割和主要模型的训练数据。训练模型被使用XGBoost堆叠创建一个模型算法43。叠加由培训二级学习者称为meta-learner优化性能的基础的学习者。

我们开发了深度学习算法来提高算法学习的地理空间数据,已被称为一个SI-LSTM(无花果。1),SI-CNN-LSTM(无花果。2)算法(请参阅方法为进一步的细节)。SI-CNN-LSTM架构利用卷积神经网络的功能放大能力层使用的一种重量分享与当地知觉提炼和压缩参数的数量,有助于提高学习效率LSTM层44。这些模型是使用定制开发信号发生器的功能45小伙子在英国时间序列和产生滞后的批次特性为目标变量。模型的特征是使用日志预处理变换稳定方差,并随后规范化是零均值和标准差。由于包含负迁移数据,我们使用一个偏移值对数变换,以确保步骤之前产生了真正的价值。这是进行加速过程的全局最小值误差表面和减轻的概率被困在当地的最适条件。模型的目标是在一个炎热的编码分类的输入数据转换成一个向量分类熵损失所需的功能46

图1:SI-LSTM算法的体系结构。
图1

每个位置的特性是美联储在作为输入网络分支包含LSTM层,当分布式辍学层和致密层,产生一个输出。张量进一步连接产生的主要模型输出为每个区域。

图2:SI-CNN-LSTM算法的体系结构。
图2

每个位置的特性是美联储在作为输入网络分支包含当分布式一维卷积层,当分布式max池层,当分布式压平层,LSTM层,致密和辍学层,产生一个输出。张量进一步连接产生的主要模型输出为每个区域。

最终的模型体系结构包括一个每周七天lookback捕捉趋势特征,训练数据的顺序的洗牌,和随后的学习速率下降时期如果验证发现损失的增加。在最后一层SI-LSTM SI-CNN-LSTM,我们引入了一个连接网络之间所有的地理位置,使模型性能可以通过内部优化和inter-location特征权重。363个独立的输入分支合并通过结合张量列表最后LSTM层为每个位置在单个连接轴,产生一个张量图中描述。3。最后LSTM层产生一个2阶张量的形状(b,u),b批处理大小和吗u是单位的数量LSTM层。连接后的张量l位置,由此产生的张量形状(b,)。最终的致密层softmax激活函数来确保输出向量y{,…C}C类是规范化的,y可以解释为目标的概率是类。然后叉损失函数定义为:

图3:地理空间连接网络空间集成层的小伙子在英国。
图3

363个独立输入的合并分支通过结合张量的列表,从最终LSTM层为每一个位置,在一个连接轴。

$ $ {{{\ mathcal {L}}}} \离开({y_i、t_i} \右)= - \ mathop{总和\}\ limits_ {i = 1} ^ C {t_i \ log y_i} $ $

在哪里t是一个炎热的编码目标向量。然后我们使用RMSprop优化功能的反向传播阶段。

结果

单变量预测

单变量ARIMA模型,使用修改后的Hyndman-Khandakar算法47进行了逐步的性能调优,使用pcr阳性病例,住院死亡率从COVID-19(扩展数据图。1)。我们可以观察到ARIMA模型的斗争,特别是在流行波的变化点,准确预测增长轨迹。在pre-exponential阶段尤其明显,对数生长期在流行高峰的转折点,这是证明小伙子模型扩展数据表中结果1,模型难以达到50%的精度在α波。

功能的重要性

评估功能的重要性,我们使用一个随机森林算法,用随机时间反对者,在不同功能组包括(扩展数据表2)。集团为所有任务最重要的特点是谷歌趋势,其次是电信移动、谷歌移动、网站测试需求和119个电话。包括模型的一个完整的统计描述功能补充表中可以找到1。这个时期的性能表明评估本文特征重要性已经在COVID-19流行在英国和npi等一直受到外在压力,测试行为/政策改变,和小说变异模式的增长(每个流行阶段的功能重要性和变体中可以看到补充无花果。1- - - - - -3)。

谷歌趋势的小伙子

接受相对体积分数最高的搜索词在整个研究期间可以看到在无花果。4。变化要求COVID-19测试总量最高水平在英国观察到的小伙子。最高销售量实体COVID-19观测条件是喉咙痛,咳嗽,“疲劳”、“发烧”,和“气短”。虽然绝对体积感兴趣的保持相关和及时的搜索词,它并不一定反映其总体功能模型时空上的重要性。它是如何互动和辅助数据,确定疫情检测的重要性。

图4:接受最高的搜索条件相对卷。
图4

条形图的天然气从谷歌搜索趋势数据收集在英国小伙子,衡量RSV。

时空造型

SI-CNN-LSTM和SI-LSTM算法表现的更好在所有时间周期和每个目标相对于肤浅的学习算法评估(图。5)。最伟大的死亡风险评分观察性能差,在SI-LSTM看到了高达15%的改进相对最好的肤浅的学习算法。有一个明确的地理空间连接的性能改进,可观测到的主要输出精度相对于side-output精度扩展数据图。2。高峰时间性能在模仿SI-LSTM观察目标:99.4%的准确率的情况下风险评分(功能滞后25天),96.3%的住院风险评分(40天的滞后特性)和84.8%的死亡率风险评分(25天的滞后特性)。

图5:SI-CNN-LSTM和SI-LSTM算法的性能在所有时间。
图5

线形图模型的精度确认SARS-CoV-2例,住院和死亡风险得分浅-时间延迟时间和深度学习算法。

深度学习的模型,观察训练和验证收敛损失大约20世案件风险得分后,15世纪住院风险评分,和30时代死亡率风险评分。SI-LSTM总体比SI-CNN-LSTM在测试数据上执行略好,更少的时代后,达到收敛(扩展数据图。3)。模型架构早些时候遇到验证波动损失,这是解决减少学习速率和增加批量大小。此外,通过提供一个动态学习速率在培训期间,我们发现了一个小的价值约0.001一般生产最优模型收敛。敏感性分析发现,优化器函数RMSprop表现好于随机梯度下降法和Adamax,见扩展数据图。4。我们还发现一个更大的张量为每个LSTM形状相对应的128 - 160单位产出更高的精度验证。

肤浅的学习模型的分析发现,整体性能最高的95.3%的情况下风险评分XGBoost其次是合奏,随机森林,“绿带运动”,仅略降低精度测试数据。朴素贝叶斯模型,相比之下,没有更长的投影期和死亡率风险的表现良好。日志丢失在每个时间周期和肤浅的学习算法扩展数据图中可以看到5。XGBoost之间的性能差别,随机森林和整体相对于GBM更明显。浅和深学习模型进行更好的风险评分和病历的住院风险评分的目标。然而,所有死亡率风险评分模型看到性能下降,这可能与增加的相关性特性捕捉在年轻人群中传播。

进行灵敏度分析的hyperparameters XGBoost,随机森林和“绿带运动”算法。树的数量、树深度和学习速率是不同建立性能是否可以进一步优化。这个分析的结果证实,“绿带运动”和XGBoost(扩展数据图。6),提供树的数量超过1000,这棵树深度10和学习速率0.01,hyperparameters性能相对不敏感。此外,随机森林模型进行优化与马克斯树的深度5当树的数量超过了500。

公共卫生操作模型输出

为目的的疫情管理,早期的空间识别pre-exponential和指数变化points-prior识别通过传统流行病学监测是重要的小说变异的有效应对疫情的担忧。

2020年12月48α变体的爆发在英国开始在肯特郡的集群。英国在这一时期也经历了大幅增长COVID-19 (SARS-CoV-2 D614G突变),曾引发锁定在2020年11月49。2020年11月1日,造型确定α指数增长的变体在肯特郡(无花果。6)前通过PCR测序鉴定测试。观察到缺乏测试可用性通过网站测试请求确定α波是值得注意的,可能掩盖了增加情况下利率在某些地方当局的识别。

图6:英格兰地图显示确诊病例风险预测,测序用例和测试数据可用性α和ο变体。
图6

在顶部面板:测序α例population-normalized每100000人平均从11月20日到2020年12月10日;确诊病例风险预测从2020年11月1日训练的特征预测30天;在培训期间的可用性测试。在底部面板:测序ο例population-normalized每100000人平均的结果是5世纪到2021年12月10日;确诊病例风险预测从2021年11月20日的特征训练预测20天;在培训期间的可用性测试。

最近爆发的οBA.1变体最初发现在2021年11月下旬在英格兰50。这个变体的集群在伦敦和东南部地区的造型被发现于2021年11月20日(图领先指标特性。6)。这是确定背景的高盛行率δ变体和这个时候有只有8个PCR测序证实病例οBA.1在英格兰。观察到的前所未有的发病率在2021年12月需要更高的分层数据,补充图中可以看到。4

讨论

的异构特性COVID-19流行,被局部暴发特征,提出的挑战,某些地区的公共卫生政策保证更多的实质性的干预措施可能包含SARS-CoV-2的传播。这种造型方法的目的是为决策者提供一个早期信号对局部地区的症状监测框架,结合其他的报告时,可以帮助大流行的管理。这局部焦点变得越来越重要,因为输入的SARS-CoV-2变异的关注成为应对疫情的焦点51,52。我们有说明,类似于其他传染病的文学31日的效用,RSV数据可以了解传播热点术语是精心挑选,并进一步临床和非临床数据都包含在模型的发展。

SI-LSTM地理空间建筑设计允许为特定intra-location学习同时也受益于inter-location信息共享。该模型体系结构实现了99%以上的总体性能最高精度在看不见的情况下风险评分数据在英国当地的权限级别。我们发现一个较小的学习速率和更大的批量大小很重要在减少验证损失波动,尽管研究LSTMs率较大的学习工作得很好53,因为他们推门输出为零。将卷积神经网络(CNN)层和致密层的正规化生产类似的每个时间延迟期间的表现评估。我们发现在早期模型发展的性能SI-CNN-LSTM和SI-LSTM模型更有改善相对肤浅的学习算法有更长的时间序列的训练数据;因此,当处理一个短的时间序列可能存在一种偏好对浅层学习算法的方法。

选择的意愿或能力测试系统54显著影响的见解为疫情监控从传统的流行病学数据。动机寻求或报告测试已经发现与症状严重程度和缺乏了解关于COVID-19的主要症状,已观察到在更大程度上在老年群体中55。这将进一步影响社会经济漏洞,收购可行性测试和位置的能力。由于确诊病例的脆弱性风险评分模型目标确定偏差,我们归一化积极定义的测试数量和流行病学重要的范围,这些波动会更健壮。我们进一步调整模型指标范围,以反映时空变化测试可用性和观察到的测试可用性模型特性改进的性能有些地方当局。位置,测试覆盖率有限,特别是有关公共卫生政策的演变为了应对大流行,建模框架提出可能更适合COVID-19感染的进一步的临床目标纳入本研究。

研究发现,移动和电信移动一个健壮的数据预测的特点增加SARS-CoV-2的传播。造型的新颖应用这些数据对疾病COVID-19流行的允许更大的运动模式的理解,可以帮助识别的位置问题,地方政府之间的输入和行为反应npi的宽松政策9。然而,移动数据作为领先指标的重要性和时间的流行发展阶段和外在因素。在以后的时期npi更有限,移动数据,在隔离,一个更好的传播预测当病毒风土性的显示模式。模型开发56主要专注于移动代理可能会因此被限制在他们的准确捕捉小说变体增长的能力。这可以解释为传播的波动是由移动模式变体时更成熟和发展更稳定,但这些数据独立的实用程序在识别pre-exponential比较少,指数增长阶段引入一个新的变种,特别是如果未接触模式返回。然而,这个研究发现在结合代理的症状prevalence-mobility数据可以在流行阶段有效的领先指标。

使用谷歌RSV数据在相关运作环境中,有必要监控条件的相对频率(见扩展数据图。7)行为57,58和全世界的政府指令演变的大流行。这是为了排除监控方面,不再寻求治疗习惯改变有关59或者那些可能会过度由外在压力等媒体报道60捕捉到小说的行为,可能是重要的。小说变异提出了不同症候学概要文件61年因此重要的是要保持广泛的症状包括数据收集。进一步研究谷歌的RSV数据在地方政府层面应该为急性COVID-19(长COVID调查地点62年)地区不成比例的影响,传播COVID-19居高不下。此外,可能会有进一步感悟的使用这些数据来评估对心理健康的影响已在当地长期锁定位置之间63年

数字化网络数据源(谷歌趋势,测试和跟踪网站测试请求)包含在分析有一个偏向低下的人口统计数据。然而,这些组织的重点分析,因为呼吸道感染的流行波如COVID-19主要是由年轻的年龄组(< 65岁),有较高的有效接触率64年,65年。此外,进一步的研究发现,复苏的流行波SARS-CoV-2病毒已经很大程度上由工作年龄的成年人66年,18-39年龄组领导更换由οδBA.1 (ref。67年在英国)。领先指标的初步评估初级卫生和社会保健数据源只目标年龄组被发现最古老英国的地理覆盖范围有限,很难源在有用的方式,运作,发现滞后社区传播。119电话请求PCR和侧流试验包括在造型有稍微年长的年龄结构相对于在线测试请求,这可能帮助这些年龄增加传播的识别。

识别变化的困难点在流行病曲线一致的造型挑战整个大流行68年。这是经常观察广泛开发传输模型69年,70年,71年,72年依赖于历史数据的符合规定的模型和传输模拟参数(这是很难量化的70年)发展预测。传播模型的参数空间的发展对于每一个新变型,收集的数据需要更新这些参数对早期流行管理太落后。例如,生成所需的估计时间,连续区间,潜伏期和临床事件的时间2,73年需要通常,至少,一个月或更长的时间从接触者追踪收集足够的样本。这些参数空间中不同的选择导致的大分流模型预测适合相同的数据。机器学习方法74年,75年,76年和统计预测模型77年一元训练在确诊病例在操作响应的空间是有限的,为干预提供有意义的窗口,他们将很难确定一个信号直到发病率明显的指数增长或腐烂。这将进一步加剧了确认测试是一个滞后指标的发生率增加,加剧了倍的高度确定的偏见。此外,在一个小空间尺度、模型训练只是案例数据将遭受大量的虚假信号特别是如果确诊病例不调整为某种程度的测试可用性或确定。

我们提出一种新颖的造型方法,开发了公共卫生应对组织具有更广泛意义的造型的爆发COVID-19以外的英国。本研究的目的是提供一个建模框架和数据源,可以有效地用来创建早期预警指标的变化传输和项目医院在狭小的空间尺度内和死亡率负担。定义的造型方法设计适应不同阶段的流行和风险评分系统应该根据目前的发病率和严重程度的一个变种为一个特定的人口。这种方法关注趋势和变化的趋势,将提供空间的见解新颖的爆发和流行轨迹。

结论

及时和消息灵通的症状监测是至关重要的通知有效SARS-CoV-2大流行性流感的公共卫生政策。传统的临床指标的监测可以滞后和误导,这妨碍了努力识别热点地区。我们合并了最有意义的领先指标数据目前在英国确定地方当局的关注。模型部分被用作描述英国协调应对COVID-19流行与一套其他数据源通知公共卫生政策和地区认同的水平传播。

研究发现SI-LSTM算法设计能够评估的时间周期,准确预测热点位置随着时间的推移,视野的一个月或更多的高精确度。本文中描述的小说架构提供了一个框架为造型暂时变量地理空间数据。我们预计,这种模型架构使用超出了流行病学本文中描述的应用程序。

在公共卫生操作使用,模型准确预测指数增加α变种2020年12月,三角洲变种2021年4月,ο变种2021年11月在英国地方当局。流感大流行的演变可能呈现某些数据源建模目的更重要,由于外在压力,造型RSV趋势必须进行精心设计,相关的辅助功能和有意义的临床指标。

方法

第一节将概述的步骤采取收集和准备造型的数据源。模型的发展被描述在本小节的末尾。

数据收集和准备

谷歌趋势

谷歌趋势提供了RSV的数据搜索词随时间和位置可以通过访问公共网站trends.google.com。数据规范化的总搜索量78年,反映了随着时间的推移和空间的相对重要性。国家,高度本地化的市级数据分析的工作。的利益下的市级数据可以发现城市的面板内的用户界面。我们收集每小时rsv的所有四个国家英国,导致数据4013个地点。

谷歌趋势的项目的支持在整个项目中编辑团队,促进数据采集和提供一个Google健康趋势API键。初步分析是进行每日相对价值由谷歌提供的每个城市的位置。每日相对价值被发现有限的效用报道由于高比例的零值。进一步探索发现,收集的数据以每小时频率解决这个问题。因此我们每小时执行请求收集谷歌搜索趋势数据。

在项目的开始,收集包括108条款来捕捉最频繁观察COVID-19的症状79年,NHS医疗建议寻求行为,COVID-19测试和常见的非处方治疗COVID-19。这些条款补充了1000搜索项发现是最常使用的短语用在NHS通路111电话COVID-19分流80年。我们排除了某些词汇和短语因缺乏整体相关性的一个搜索词和他们的相对发生在谷歌趋势的国家层面的用户界面。初步分析了在国家层面上涉及广义可加模型具有负二项误差结构和动态时间扭曲评估选定项的相关性的预测功能COVID-19发病率和临床结果。相关的分析强调了94年重要条款进行进一步分析和七COVID-19的主要症状包括谷歌的实体。

Google数据处理与地理位置,按日期、记录SARS-CoV-2情况下,住院和死亡数据的小伙子。谷歌估计搜索使用来源包括GeoIP和位置,可用的地方,设备的GPS坐标81年。查找是因此开发使用谷歌提供的经度和纬度数据映射到国家统计局33指定的小伙子地域。这是不可能的,伦敦市中心,结果一群小伙子创建谷歌伦敦位置相匹配。

移动数据

从谷歌移动数据收集6和电信运营商5据报道在小伙子MSOA33,分别。谷歌移动数据访问和长度的措施改变呆在六个不同的地方类别与基线期在1月3日和2020年2月6日6。类别杂货店和药店、公园、公交车站、零售和娱乐、住宅和工作场所。地点在ISO 3166标准来提供“country_region_code”,“sub_region_1′和“sub_region_2′。电信移动数据包含项的人数和他们的数量随着时间旅行在MSOA地理。准备的数据映射到小伙子使用国家统计局查找34通过提取等,人口和人类别(居民、工人、访客)信息。这个数据集的绝对数字挑战来解释,但是,与其他来源提出了一样,这是趋势而不是绝对数字是很重要的。

网站COVID-19测试过程数据

网站COVID-19测试过程数据来自测试和跟踪Adobe分析平台,措施有症状和无症状的旅行预订系统通过测试。进一步分解的数据是否完整或不完整的旅程。一个不完整的预订旅程中,一个人不进行最后阶段的在线旅行预订测试。Adobe geolocates请求者的基础上他们的互联网协议和一个查找表创建聚合Adobe小伙子水平位置。

NHS通路119年数据

119年成立数量作为NHS的联系电话2020年5月测试和跟踪服务35提供了一种书冠状病毒测试和询问测试结果;它的范围已经扩展到疫苗接种的任命过程。数据集包括调用日期和原因以及调用者的地理位置。与上面提到的其他来源,数据集被聚合小伙子地理使用ONS查找表34。只有两种选择:调用在“测试enquiry-request测试”是作为理性和所有调用调用,不管原因。

可用性测试

诊断测试的最大数量进行COVID-19是通过网站请求。完成在线测试可用性被定义为个人的旅程,直到它们提供一个测试的最后阶段,不能进行相对于个人,完成了网站的旅程。这可能是由于缺乏可用的rt - pcr测试,因为测试中心位置是无法访问,或请求者选择不继续。

由于时间和地理差异测试在整个大流行期间我们计算可用性测试可用性,作为位置的函数l和时间t。表示一个人完成,完成了网站测试请求的旅程和一个测试。它是由以下方程:

数组$ $ \开始{}{1}{{{\ mathrm{可用性}}}}\,(l、t) \ \ = \压裂{{{{{\ mathrm{症状}}}}\,{{{\ mathrm{完成}}}}\,(l、t) + {{{\ mathrm{无症状}}}}\,{{{\ mathrm{完成}}}}\,(l、t)}} {{{{{\ mathrm{症状}}}}\,{{{\ mathrm{最终}}}}\,{{{\ mathrm{阶段}}}}\,{{{\ mathrm{用户}}}}\离开({l、t} \右)+ {{{\ mathrm{无症状}}}}\,{{{\ mathrm{最终}}}}\,{{{\ mathrm{阶段}}}}\,{{{\ mathrm{用户}}}}\,(l、t)}} \{数组}$ $

可用性(l,t)= 1对应于一个领域所有的那些请求测试接收,

可用性(l,t)= 0对应于一个领域在请求测试是完全不可用

测试期间可用性特性,当模型位置的情况下利率。测试覆盖率数据异构,确定偏差是时变因此,造型结果的操作演示,都是经过训练的情况下数据包括测试可用性分数了解地方覆盖缺口模型可能不识别。

疫情风险评分

这种建模方法的主要目的是强调之前关注的地区大量爆发发生在一个小伙子。爆发风险评分因此开发确认SARS-CoV-2 pcr阳性情况下,住院和死亡事件(补充图。5)。pcr阳性的情况下通过匿名数据来源收集的列表UKHSA相结合,这是来自全国病理交换数据集36。APC的住院数据获得的数据集37,包括个人,阳性COVID-19 fifteeen天前和八天邮报》承认,和低聚合的超级输出区域童子的水平。死亡率数据得到UKHSA COVID-19死亡linelist英格兰,苏格兰和公众的仪表板38和北爱尔兰39(我们没有死亡率数据访问的小伙子地理威尔士)。

PCR检测和死亡率数据,包括进行分析评估了“回填”(需要多长时间之前最后一个完整的数据)在最近7天内包含之前作为一个目标。住院APC数据定义了每月的时期医院信托必须声明他们的招生活动数据和最后一个完整的一天包括在内。每日PCR测试,每个孩子住院和死亡数据规范化每百万,平滑滚动七天的窗口。

的阈值的风险分数由分析population-normalized每日的分布情况下,住院治疗,死亡率,小伙子。定义的阈值代表相同比例的这些分布在定义的时间窗口的小伙子在英国流行。这些阈值,在公共卫生业务应对环境,最初通过本地化的干预措施在英国通过分层系统47。风险评分标准是动态的和由每日比例的变化情况下,住院和死亡,由变异的影响严重,可用性测试在一个国家,确定利率,和疾病流行率信息inter-location异质性的指标。

模型开发

收集的数据用于分析这项工作从2020年10月1日和模型性能测定2021年7月。用于模型开发的软件包括Python v.3.10.0和R v.4.2.0。机器学习模型的目标被定义为每日确诊病例风险评分,住院治疗风险评分和死亡率风险评分。用于机器学习模型的特性包括谷歌趋势搜索数据,谷歌移动,电信移动,NHS通路119电话类别,测试可用性、位置和无症状和症状网站测试请求旅程。的特性,类似于目标,被平滑滚动七天窗口由于不稳定的时间序列数据进行分析。用于我们的造型,其操作用例,我们试图确定趋势和不精确的值在给定的一天突出关注的一个领域。

时间序列分析的数据进行了使用浅学习和深学习算法和特征是相对于目标从落后15 - 40天来评估他们的预测时间与临床指标的关系。预测并不是试图超过这些时期初步分析发现,模型性能迅速恶化后40天。这个项目总共2057年模型包括hyperparameters的敏感性分析。

单变量预测

理解的困难提出模型的预测任务和斗争,单变量预测方法为population-normalized开发情况下,住院和死亡率在小伙子的水平。一个适合使用修改后的Hyndman-Khandakar ARIMA模型算法82年为逐步使用单位根测试和性能调优Akaike信息标准。模型性能进一步衡量风险评分标准发展情况下,死亡率和住院治疗。

肤浅的学习

模型设计

与滞后的特性从15 - 40天,我们训练随机森林40,XGBoost41,“绿带运动”42和幼稚的贝叶斯42在风险评分算法的目标。日志丢失是随机森林的损失度量定义,XGBoost和GBM停止公差为0.001(全模型hyperparameter规范补充表中可以找到2)。随机抵抗出局的40天的数据被排除在训练样本和用于评估模型的性能。K倍交叉验证每个模型(也包括k= 10)除了主要训练模型,对整个训练数据集。因此11模型训练数据:十在每个交叉验证分割,主要模型的训练数据。训练模型被使用XGBoost堆叠创建一个模型算法43。训练一个二级的叠加由学习者meta-learner,相结合基础学习者来优化性能。

功能的重要性和敏感性分析

进行敏感性分析找出最优hyperparameter组合为每个浅学习算法的评估时间周期。这包括树深度、数量的树木和学习速度。说明每个数据源的相对重要性在风险评分预测目标,训练随机森林算法在每个源的特性和性能评估。我们测量的性能在一个15天的滞后特性对于pcr阳性的情况,20天滞后住院和死亡率的25天滞后。拖延被选为最优随机森林算法的时间性能。提供结果的总体性能评估时间然而,这些关系变化在流行阶段。因此,特征论述了评估在每一个流行阶段为每个替代SARS-CoV-2使用XGBoost算法的变体。

深度学习

在接下来的部分中,我们讨论了深度学习的数据预处理算法,初步灵敏度分析和最终的模型架构。

数据预处理

模型的特征是使用日志预处理转换稳定方差和随后规范化,这是零均值和标准差。由于移动数据包含负我们使用一个偏移值对数转换,以确保步骤之前产生了真正的价值。这是进行加速过程的全局最小值误差表面和减轻的概率被困在当地的最适条件。模型的目标是在一个炎热的编码分类的输入数据转换成一个向量分类熵损失所需的功能46

模型利用生成器的功能45对于每一个小伙子,产生了滞后的批次特性为目标变量。生成器函数的参数包括:

  • Lookback(多少时间为每个目标)特性的步骤包括

  • 滞后(多少时间步骤在过去的特性相对于目标)

  • 是否洗牌洗牌(训练数据的顺序)

  • 批量大小(每批多少样品使用)

  • 最小和最大指数(整个时间序列的一部分用于每个位置)

初步分析

进行了初步的探索性分析定义lookback时期,洗牌的培训秩序,LSTM和CNN层的数量,L1和L2正规化致密层,每一层的形状张量,辍学层的使用。我们也评估了不同的优化函数的相对影响:RMSprop83年随机梯度下降法,84年和Adamax85年

模型设计

最终的模型设计包括七天lookback延迟时间15,20、25、30、35和40天。这个确定算法,目标在某一天,利用过去7天的特性。这是包括捕获的每周趋势的特征定义风险评分的确认SARS-CoV-2例,住院或死亡率。灵敏度分析后,我们包括一个洗牌的训练数据,开发了一个模型结构,允许学习速率降低为后续时代如果验证发现损失的增加,这是一个代理指标过度拟合。

在最后一层SI-LSTM SI-CNN-LSTM我们引入一个连接网络的所有地理位置之间,模型可以从内部学习和inter-location特征权重。我们合并了363个独立的输入分支通过结合张量的列表,从最终LSTM层对于每一个位置,在一个连接轴和产生一个张量描述无花果。3。最后LSTM层产生一个2阶张量的形状(b,u),b批处理大小和吗u是单位的数量LSTM层。连接后的张量l位置,由此产生的张量形状(b,)。

最终的致密层softmax激活功能,确保输出向量y{1,…,C}C类是规范化的,y可以解释为目标的概率是类。然后叉损失函数定义为:

$ $ {{{\ mathcal {L}}}} \离开({y_i、t_i} \右)= - \ mathop{总和\}\ limits_ {i = 1} ^ C {t_i \ log y_i} $ $

在哪里t是一个炎热的编码目标向量。然后我们使用RMSprop优化功能的反向传播阶段。

SI-LSTM

每个位置的模型有一个初始输入层其后两个LSTM层分布式辍学层,这有助于防止过度拟合时代早期的模型。有一个叉子前的最后LSTM层模型,见无花果。1,生成一层致密side-output位置和连接层致密层紧随其后。最终的输出层有一个softmax激活函数由于概率分类熵损失函数。

SI-CNN-LSTM

SI-CNN-LSTM架构利用CNN的功能放大能力层使用的一种重量分享与当地知觉提炼和压缩参数的数量,有助于提高学习效率LSTM层44。由于尺寸大小的特性后,CNN一维层,当分布式辍学层、一维最大池层和一个平层。然后模型结构包括三个LSTM层,第一层LSTM后跟一个辍学层和致密层,以进一步辍学层第二LSTM层。模型然后分支密集side-output层和连接层之前最后的致密层。

报告总结

进一步研究信息设计是可用的自然研究报告摘要与这篇文章有关。