在狭小的空间尺度内预测SARS-CoV-2传输和临床风险通过机器学习的应用体系结构症状监测数据

托马斯·沃德ORCID:orcid.org/0000 - 0001 - 8801 - 747 x¹,
亚历山大·约翰森¹,
斯坦利·Ng¹&
…
弗朗索瓦Chollet²

自然机器智能体积4,页面814 - 827 (2022年)引用这篇文章

1926年访问
5Altmetric
指标细节

主题

文摘

及时和消息灵通的症状监测是必不可少的有效的公共卫生政策。传统流行病学指标的监测可以滞后和误导,这妨碍了努力识别热点的位置。数字化寻求治疗行为的增加优势需要,充分利用有效的传染病管理的公共利益。使用最高分辨率空间数据谷歌趋势相对搜索量,谷歌移动,电信移动,国家卫生服务途径电话和网站测试之旅,我们已经开发出一种机器学习的早期指标SARS-CoV-2传播的造型方法和临床风险小的地理范围。我们训练有素的浅神经网络学习算法,基线与地理空间架构,我们称为spatio-integrated长期短期记忆(SI-LSTM)算法。SI-LSTM算法能够评估时间来说periods-accurately识别热点位置随着时间的推移,视野的一个月或更多的精度超过99%,和一种改进的性能高达15%的反对肤浅的学习算法。在公共卫生操作使用,此外,该模型强调了本地化的指数增长的α变体在2020年末,三角洲变种2021年4月,ο变种2021年11月在英国之前空间色散和增长被临床资料证实。

主要

COVID-19大流行已经沉淀前所未有的全球公共卫生政策干预和群体行为的改变。理解局部暴发SARS-CoV-2会极其困难由于不可避免的通过test-by-request策略确定偏差发生¹。此外,情况下,住院和死亡数据滞后指标由于感染和报告和临床结果之间的延迟时间^2,3。这可以受到疫情最初集群的趋势低下的人口,由于减少了感染严重程度和更高比例的无症状的感染,他们表示在临床数据可以更有限⁴。根据选型混合的力量,它通常需要几周或几个月感染渗入到older-aged人口、医疗指标的点可以检测大量爆发。因此有效症状监测的必要的观察数据,辅助临床结果暴发的早期检测和识别,这样充足的公共卫生干预措施可以限制传输。

COVID-19等呼吸道疾病,了解个人的移动模式的核心计算传输速率(β)和感染的力量(λ)更准确地跟踪个体之间的有效联系。COVID-19大流行使得移动数据使用电信提供商⁵、基于web的企业^6,7和公共交通组织⁸帮助了解接触模式和坚持非药物干预措施(npi)。Jeffrey et al。⁹使用移动数据从O₂和Facebook应用程序作为实际的移动模式的代理在英国监控坚持2020年3月国家封锁。这种类型的数据进一步采用有效地动态流动网络模型,使模拟SARS-CoV-2流行¹⁰。然而,问题依靠移动数据作为有效的代理的联系人¹¹因为增加流动性本身可能不会与增加传播。这是最明显的在小说的对数生长期SARS-CoV-2变体和任何分析使用这些数据只能说明变化的行为的一个组成部分,可以增加或减少传播¹²。使用移动数据似乎有最大的实用程序,用于国家或地方有npi的政策和相关行为的改变可以更有效地解释⁹;这些数据继续被用于传输造型的科学顾问组突发事件(SAGE)^13,14英国政府。

数字的使用搜索和报告可能为症状监测提供见解,无法找到与传统流行病学指标。平台如谷歌趋势提供一个接口分析相对搜索量(rsv)对于一个给定的位置,提供实时监控人群中的发病率。互联网报告的行为一直在探索新兴埃博拉病毒等病原体¹⁵,发现类似的实用程序的传统监测监控集群和爆发。谷歌趋势表明潜在的呼吸道病毒的监测H1N1和基于矢量的西尼罗河病毒¹⁶。此外,谷歌趋势数据被用来评估坚持npi COVID-19流行在台湾通过观察,例如,对口罩的需求¹⁷。过去的研究^18,19,20.,21讨论了谷歌趋势作为识别早期的数据源增加国家的发病率COVID-19几乎以相同的方式作为Google流感趋势。Google流感趋势²²监测的经验²³插图辅助数据源的需要,精心设计算法和不断调整随着疫情的发展占时间搜索行为的变化。谷歌趋势的融合多个数据源(Twitter,住院和Google流感趋势)作为流感监测系统²⁴单独使用谷歌趋势显示改善模型性能的承诺和说明这种方法的应用程序来检测SARS-CoV-2传播的变化。

测试数据在地区范围内的解释是混淆视听²⁵通过确定偏差,关键的利益团体可以通过:排除地理不切实际的测试中心,金融的影响如果被迫分离,无症状感染和测试可用性感染或症状出现的时候。国际的研究强调了提高积极性和COVID-19测试率最低的最贫困地区^26,27,28。这已被证明是加剧了贫困农村地区与当地不连接测试中心,并在少数民族可以排除在有效的公共卫生信息。进一步强调工作缺乏同步性,可以观察到的测试数据和临床结果之间复杂的特性转化更精细的空间尺度上的更小的数字^29日。这可能是由于空间集群测试,这是特别受目标测试策略^30.和空间异构机构测试。然而,age-severity感染梯度也可能导致预期之间的分歧的水平测试积极性和观察临床结果的数量由于暂时的不同成分。这强调的重要性使用流行病学结果相关的公共卫生政策背景和早期干预的要求的基础上,小说在循环变异的特点。

有效的症状监测的SARS-CoV-2需要有症状的患病率,寻求治疗行为,移动模式和测试需求要监视地图,了解广泛的传染病。通过互联网寻求治疗行为的互动参与^31日已被证明是重要的理解疾病传播。然而,这种方法的应用程序(特定于COVID-19症状)小空间尺度上,还有待探索其潜在功能爆发的先兆。我们评估谷歌趋势的适用性,谷歌移动,电信移动,国民医疗服务制度(NHS)通路119电话和网站测试需求作为造型疫情的预测功能。我们有多个机器学习模型,暂时滞后特性的灵敏度分析,评估其预测性能COVID-19捕捉局部暴发。我们设计了空间数据的神经网络,我们称为spatio-integrated长期短期记忆(SI-LSTM)和spatio-integrated卷积长期短期记忆(SI-CNN-LSTM)算法。

主要指标分析

我们进行了一次评估的主要指标population-normalized聚合酶链反应(PCR)阳性测试,住院和死亡从地方当局COVID-19区(小伙子)在英国。我们初步调查评估的可行性主要医疗保健、社会保障和辅助医疗数据来源。这包括全科医生电话,临床人员缺勤,照顾家里发病率报告和学校所带来的困难。我们进一步探讨1108 COVID-19-related谷歌趋势web搜索词,NHS COVID-19移动应用程序³²、谷歌移动、电信移动,COVID-19测试请求网站旅行和NHS通路119个电话。领先指标评估使用广义可加模型和负二项错误的结构和动态时间扭曲。数据源被排除在外,如果他们有完整的地理覆盖范围,不能及时采购(这将是公共卫生相关的操作响应),发现滞后或并发的临床目标变量。结果表明,流行阶段最一致的领先指标94谷歌趋势而言,电信移动,谷歌移动、网站测试请求旅程和NHS通路119个电话。

谷歌趋势数据是每小时收集的所有四个国家的英国,4013年导致数据位置;他们按比例缩小的小伙子地理使用谷歌提供的纬度和经度坐标映射到国家统计办公室(ONS)边界³³。从谷歌移动数据收集⁶和电信运营商⁵小伙子,据报道,中间层超级输出面积(MSOA)³³,分别。准备的数据映射到小伙子级别使用国家统计局查找³⁴通过提取等,人口和人类别(居民、工人、访客)信息。旅行网站测试请求数据来自测试和跟踪Adobe分析平台,措施有症状和无症状的旅行预订系统通过测试。进一步分解的数据旅程是否完整或不完整的最后阶段。完成在线测试可用性被定义为个人的旅程,直到它们提供一个测试的最后阶段,不能进行相对于个人,完成了网站的旅程。Adobe geolocates请求者的基础上他们的互联网协议和一个查找表创建聚合Adobe小伙子水平位置。119年成立数量作为NHS的联系电话2020年5月测试和跟踪服务³⁵,提供了一种书COVID-19测试和询问测试结果;它的范围已经扩展到疫苗接种的任命过程。与上面提到的其他来源,数据集被聚合小伙子地理使用ONS查找表³⁴。只有两种选择:调用在“测试enquiry-request测试”是作为电话的原因,和所有调用,不管原因。

造型疫情风险

爆发的风险评分系统是population-normalized COVID-19-positive PCR情况下,住院和死亡率。pcr阳性的情况下通过匿名数据的组合列表收集的英国卫生安全局(UKHSA),这是来自全国病理交换数据集³⁶。住院数据得到承认病人护理(APC)的数据集³⁷COVID-19阳性,其中包括个人和八天前十五日内承认,和低聚合的超级输出地区童子的水平。死亡率数据得到UKHSA COVID-19死亡linelist英格兰,苏格兰和公众的仪表板³⁸和北爱尔兰³⁹(注意,我们没有访问死亡率数据为威尔士小伙子地理)。PCR检测和死亡率数据,包括进行分析评估了回填(也就是说,多久之前最后一个完整的一天数据)在最近7天内包含之前作为一个目标。住院APC数据定义了每月的时期医院信托必须声明他们的招生活动数据和最后一个完整的一天包括在内。每日PCR测试,每个孩子住院和死亡数据规范化每百万,平滑滚动窗口期7天。定义的阈值代表相同比例的这些分布在定义的时间窗口的小伙子在英国流行。风险评分标准是动态的和由每日比例的变化情况下,住院和死亡,由变异的影响严重,可用性测试在一个国家,发现率和疾病流行率信息inter-location异质性的指标。

初步进行了单变量分析风险评分COVID-19的目标,使用集成一个自回归移动平均(ARIMA)模型适合使用修改后的Hyndman-Khandakar算法流行相变点。肤浅的学习算法(随机森林⁴⁰,XGBoost⁴¹,“绿带运动”⁴²和幼稚的贝叶斯⁴²)都是经过训练的领先指标的特性,从15 - 40天相对滞后风险评分的目标。我们没有预期大于这些时期的初步分析表明,模型性能迅速恶化后40天。随机反对者40天被排除在外的流行阶段评估模型的性能。K倍交叉验证是为每个模型(包括k= 10)除了主要训练模型,对整个训练数据集。11模型从而培训数据:十在每个交叉验证分割和主要模型的训练数据。训练模型被使用XGBoost堆叠创建一个模型算法⁴³。叠加由培训二级学习者称为meta-learner优化性能的基础的学习者。

我们开发了深度学习算法来提高算法学习的地理空间数据,已被称为一个SI-LSTM(无花果。1),SI-CNN-LSTM(无花果。2)算法(请参阅方法为进一步的细节)。SI-CNN-LSTM架构利用卷积神经网络的功能放大能力层使用的一种重量分享与当地知觉提炼和压缩参数的数量,有助于提高学习效率LSTM层⁴⁴。这些模型是使用定制开发信号发生器的功能⁴⁵小伙子在英国时间序列和产生滞后的批次特性为目标变量。模型的特征是使用日志预处理变换稳定方差,并随后规范化是零均值和标准差。由于包含负迁移数据,我们使用一个偏移值对数变换,以确保步骤之前产生了真正的价值。这是进行加速过程的全局最小值误差表面和减轻的概率被困在当地的最适条件。模型的目标是在一个炎热的编码分类的输入数据转换成一个向量分类熵损失所需的功能⁴⁶。

最终的模型体系结构包括一个每周七天lookback捕捉趋势特征,训练数据的顺序的洗牌,和随后的学习速率下降时期如果验证发现损失的增加。在最后一层SI-LSTM SI-CNN-LSTM,我们引入了一个连接网络之间所有的地理位置,使模型性能可以通过内部优化和inter-location特征权重。363个独立的输入分支合并通过结合张量列表最后LSTM层为每个位置在单个连接轴,产生一个张量图中描述。3。最后LSTM层产生一个2阶张量的形状(b,u),b批处理大小和吗u是单位的数量LSTM层。连接后的张量l位置,由此产生的张量形状(b,陆)。最终的致密层softmax激活函数来确保输出向量y_{我∈{,…C}}在C类是规范化的,y_我可以解释为目标的概率是类我。然后叉损失函数定义为:

$ $ {{{\ mathcal {L}}}} \离开({y_i、t_i} \右)= - \ mathop{总和\}\ limits_ {i = 1} ^ C {t_i \ log y_i} $ $

在哪里t_我是一个炎热的编码目标向量。然后我们使用RMSprop优化功能的反向传播阶段。

结果

单变量预测

单变量ARIMA模型,使用修改后的Hyndman-Khandakar算法⁴⁷进行了逐步的性能调优,使用pcr阳性病例,住院死亡率从COVID-19(扩展数据图。1)。我们可以观察到ARIMA模型的斗争,特别是在流行波的变化点,准确预测增长轨迹。在pre-exponential阶段尤其明显,对数生长期在流行高峰的转折点,这是证明小伙子模型扩展数据表中结果1,模型难以达到50%的精度在α波。

功能的重要性

评估功能的重要性,我们使用一个随机森林算法,用随机时间反对者,在不同功能组包括(扩展数据表2)。集团为所有任务最重要的特点是谷歌趋势,其次是电信移动、谷歌移动、网站测试需求和119个电话。包括模型的一个完整的统计描述功能补充表中可以找到1。这个时期的性能表明评估本文特征重要性已经在COVID-19流行在英国和npi等一直受到外在压力,测试行为/政策改变,和小说变异模式的增长(每个流行阶段的功能重要性和变体中可以看到补充无花果。1- - - - - -3)。

谷歌趋势的小伙子

接受相对体积分数最高的搜索词在整个研究期间可以看到在无花果。4。变化要求COVID-19测试总量最高水平在英国观察到的小伙子。最高销售量实体COVID-19观测条件是喉咙痛,咳嗽,“疲劳”、“发烧”,和“气短”。虽然绝对体积感兴趣的保持相关和及时的搜索词,它并不一定反映其总体功能模型时空上的重要性。它是如何互动和辅助数据,确定疫情检测的重要性。

时空造型

SI-CNN-LSTM和SI-LSTM算法表现的更好在所有时间周期和每个目标相对于肤浅的学习算法评估(图。5)。最伟大的死亡风险评分观察性能差,在SI-LSTM看到了高达15%的改进相对最好的肤浅的学习算法。有一个明确的地理空间连接的性能改进,可观测到的主要输出精度相对于side-output精度扩展数据图。2。高峰时间性能在模仿SI-LSTM观察目标:99.4%的准确率的情况下风险评分(功能滞后25天),96.3%的住院风险评分(40天的滞后特性)和84.8%的死亡率风险评分(25天的滞后特性)。

深度学习的模型,观察训练和验证收敛损失大约20世案件风险得分后,15世纪住院风险评分,和30时代死亡率风险评分。SI-LSTM总体比SI-CNN-LSTM在测试数据上执行略好,更少的时代后,达到收敛(扩展数据图。3)。模型架构早些时候遇到验证波动损失,这是解决减少学习速率和增加批量大小。此外,通过提供一个动态学习速率在培训期间,我们发现了一个小的价值约0.001一般生产最优模型收敛。敏感性分析发现,优化器函数RMSprop表现好于随机梯度下降法和Adamax,见扩展数据图。4。我们还发现一个更大的张量为每个LSTM形状相对应的128 - 160单位产出更高的精度验证。

肤浅的学习模型的分析发现,整体性能最高的95.3%的情况下风险评分XGBoost其次是合奏,随机森林,“绿带运动”,仅略降低精度测试数据。朴素贝叶斯模型,相比之下,没有更长的投影期和死亡率风险的表现良好。日志丢失在每个时间周期和肤浅的学习算法扩展数据图中可以看到5。XGBoost之间的性能差别,随机森林和整体相对于GBM更明显。浅和深学习模型进行更好的风险评分和病历的住院风险评分的目标。然而,所有死亡率风险评分模型看到性能下降,这可能与增加的相关性特性捕捉在年轻人群中传播。

进行灵敏度分析的hyperparameters XGBoost,随机森林和“绿带运动”算法。树的数量、树深度和学习速率是不同建立性能是否可以进一步优化。这个分析的结果证实,“绿带运动”和XGBoost(扩展数据图。6),提供树的数量超过1000,这棵树深度10和学习速率0.01,hyperparameters性能相对不敏感。此外,随机森林模型进行优化与马克斯树的深度5当树的数量超过了500。

公共卫生操作模型输出

为目的的疫情管理,早期的空间识别pre-exponential和指数变化points-prior识别通过传统流行病学监测是重要的小说变异的有效应对疫情的担忧。

2020年12月⁴⁸α变体的爆发在英国开始在肯特郡的集群。英国在这一时期也经历了大幅增长COVID-19 (SARS-CoV-2 D614G突变),曾引发锁定在2020年11月⁴⁹。2020年11月1日,造型确定α指数增长的变体在肯特郡(无花果。6)前通过PCR测序鉴定测试。观察到缺乏测试可用性通过网站测试请求确定α波是值得注意的,可能掩盖了增加情况下利率在某些地方当局的识别。

**图6:英格兰地图显示确诊病例风险预测,测序用例和测试数据可用性α和ο变体。**

最近爆发的οBA.1变体最初发现在2021年11月下旬在英格兰⁵⁰。这个变体的集群在伦敦和东南部地区的造型被发现于2021年11月20日(图领先指标特性。6)。这是确定背景的高盛行率δ变体和这个时候有只有8个PCR测序证实病例οBA.1在英格兰。观察到的前所未有的发病率在2021年12月需要更高的分层数据,补充图中可以看到。4。

讨论

的异构特性COVID-19流行,被局部暴发特征,提出的挑战,某些地区的公共卫生政策保证更多的实质性的干预措施可能包含SARS-CoV-2的传播。这种造型方法的目的是为决策者提供一个早期信号对局部地区的症状监测框架,结合其他的报告时,可以帮助大流行的管理。这局部焦点变得越来越重要,因为输入的SARS-CoV-2变异的关注成为应对疫情的焦点^51,52。我们有说明,类似于其他传染病的文学^31日的效用,RSV数据可以了解传播热点术语是精心挑选,并进一步临床和非临床数据都包含在模型的发展。

SI-LSTM地理空间建筑设计允许为特定intra-location学习同时也受益于inter-location信息共享。该模型体系结构实现了99%以上的总体性能最高精度在看不见的情况下风险评分数据在英国当地的权限级别。我们发现一个较小的学习速率和更大的批量大小很重要在减少验证损失波动,尽管研究LSTMs率较大的学习工作得很好⁵³,因为他们推门输出为零。将卷积神经网络(CNN)层和致密层的正规化生产类似的每个时间延迟期间的表现评估。我们发现在早期模型发展的性能SI-CNN-LSTM和SI-LSTM模型更有改善相对肤浅的学习算法有更长的时间序列的训练数据;因此,当处理一个短的时间序列可能存在一种偏好对浅层学习算法的方法。

选择的意愿或能力测试系统⁵⁴显著影响的见解为疫情监控从传统的流行病学数据。动机寻求或报告测试已经发现与症状严重程度和缺乏了解关于COVID-19的主要症状,已观察到在更大程度上在老年群体中⁵⁵。这将进一步影响社会经济漏洞,收购可行性测试和位置的能力。由于确诊病例的脆弱性风险评分模型目标确定偏差,我们归一化积极定义的测试数量和流行病学重要的范围,这些波动会更健壮。我们进一步调整模型指标范围,以反映时空变化测试可用性和观察到的测试可用性模型特性改进的性能有些地方当局。位置,测试覆盖率有限,特别是有关公共卫生政策的演变为了应对大流行,建模框架提出可能更适合COVID-19感染的进一步的临床目标纳入本研究。

研究发现,移动和电信移动一个健壮的数据预测的特点增加SARS-CoV-2的传播。造型的新颖应用这些数据对疾病COVID-19流行的允许更大的运动模式的理解,可以帮助识别的位置问题,地方政府之间的输入和行为反应npi的宽松政策⁹。然而,移动数据作为领先指标的重要性和时间的流行发展阶段和外在因素。在以后的时期npi更有限,移动数据,在隔离,一个更好的传播预测当病毒风土性的显示模式。模型开发⁵⁶主要专注于移动代理可能会因此被限制在他们的准确捕捉小说变体增长的能力。这可以解释为传播的波动是由移动模式变体时更成熟和发展更稳定,但这些数据独立的实用程序在识别pre-exponential比较少,指数增长阶段引入一个新的变种,特别是如果未接触模式返回。然而,这个研究发现在结合代理的症状prevalence-mobility数据可以在流行阶段有效的领先指标。

使用谷歌RSV数据在相关运作环境中,有必要监控条件的相对频率(见扩展数据图。7)行为^57,58和全世界的政府指令演变的大流行。这是为了排除监控方面,不再寻求治疗习惯改变有关⁵⁹或者那些可能会过度由外在压力等媒体报道⁶⁰捕捉到小说的行为,可能是重要的。小说变异提出了不同症候学概要文件^61年因此重要的是要保持广泛的症状包括数据收集。进一步研究谷歌的RSV数据在地方政府层面应该为急性COVID-19(长COVID调查地点^62年)地区不成比例的影响,传播COVID-19居高不下。此外,可能会有进一步感悟的使用这些数据来评估对心理健康的影响已在当地长期锁定位置之间^63年。

数字化网络数据源(谷歌趋势,测试和跟踪网站测试请求)包含在分析有一个偏向低下的人口统计数据。然而,这些组织的重点分析,因为呼吸道感染的流行波如COVID-19主要是由年轻的年龄组(< 65岁),有较高的有效接触率^64年,65年。此外,进一步的研究发现,复苏的流行波SARS-CoV-2病毒已经很大程度上由工作年龄的成年人^66年,18-39年龄组领导更换由οδBA.1 (ref。^67年在英国)。领先指标的初步评估初级卫生和社会保健数据源只目标年龄组被发现最古老英国的地理覆盖范围有限,很难源在有用的方式,运作,发现滞后社区传播。119电话请求PCR和侧流试验包括在造型有稍微年长的年龄结构相对于在线测试请求,这可能帮助这些年龄增加传播的识别。

识别变化的困难点在流行病曲线一致的造型挑战整个大流行^68年。这是经常观察广泛开发传输模型^{69年,70年,71年,72年}依赖于历史数据的符合规定的模型和传输模拟参数(这是很难量化的^70年)发展预测。传播模型的参数空间的发展对于每一个新变型,收集的数据需要更新这些参数对早期流行管理太落后。例如,生成所需的估计时间,连续区间,潜伏期和临床事件的时间^2,73年需要通常,至少,一个月或更长的时间从接触者追踪收集足够的样本。这些参数空间中不同的选择导致的大分流模型预测适合相同的数据。机器学习方法^{74年,75年,76年}和统计预测模型^77年一元训练在确诊病例在操作响应的空间是有限的,为干预提供有意义的窗口,他们将很难确定一个信号直到发病率明显的指数增长或腐烂。这将进一步加剧了确认测试是一个滞后指标的发生率增加,加剧了倍的高度确定的偏见。此外,在一个小空间尺度、模型训练只是案例数据将遭受大量的虚假信号特别是如果确诊病例不调整为某种程度的测试可用性或确定。

我们提出一种新颖的造型方法,开发了公共卫生应对组织具有更广泛意义的造型的爆发COVID-19以外的英国。本研究的目的是提供一个建模框架和数据源,可以有效地用来创建早期预警指标的变化传输和项目医院在狭小的空间尺度内和死亡率负担。定义的造型方法设计适应不同阶段的流行和风险评分系统应该根据目前的发病率和严重程度的一个变种为一个特定的人口。这种方法关注趋势和变化的趋势,将提供空间的见解新颖的爆发和流行轨迹。

结论

及时和消息灵通的症状监测是至关重要的通知有效SARS-CoV-2大流行性流感的公共卫生政策。传统的临床指标的监测可以滞后和误导,这妨碍了努力识别热点地区。我们合并了最有意义的领先指标数据目前在英国确定地方当局的关注。模型部分被用作描述英国协调应对COVID-19流行与一套其他数据源通知公共卫生政策和地区认同的水平传播。

研究发现SI-LSTM算法设计能够评估的时间周期,准确预测热点位置随着时间的推移,视野的一个月或更多的高精确度。本文中描述的小说架构提供了一个框架为造型暂时变量地理空间数据。我们预计,这种模型架构使用超出了流行病学本文中描述的应用程序。

在公共卫生操作使用,模型准确预测指数增加α变种2020年12月,三角洲变种2021年4月,ο变种2021年11月在英国地方当局。流感大流行的演变可能呈现某些数据源建模目的更重要,由于外在压力,造型RSV趋势必须进行精心设计,相关的辅助功能和有意义的临床指标。

方法

第一节将概述的步骤采取收集和准备造型的数据源。模型的发展被描述在本小节的末尾。

数据收集和准备

谷歌趋势

谷歌趋势提供了RSV的数据搜索词随时间和位置可以通过访问公共网站trends.google.com。数据规范化的总搜索量^78年,反映了随着时间的推移和空间的相对重要性。国家,高度本地化的市级数据分析的工作。的利益下的市级数据可以发现城市的面板内的用户界面。我们收集每小时rsv的所有四个国家英国,导致数据4013个地点。

谷歌趋势的项目的支持在整个项目中编辑团队,促进数据采集和提供一个Google健康趋势API键。初步分析是进行每日相对价值由谷歌提供的每个城市的位置。每日相对价值被发现有限的效用报道由于高比例的零值。进一步探索发现,收集的数据以每小时频率解决这个问题。因此我们每小时执行请求收集谷歌搜索趋势数据。

在项目的开始,收集包括108条款来捕捉最频繁观察COVID-19的症状^79年,NHS医疗建议寻求行为,COVID-19测试和常见的非处方治疗COVID-19。这些条款补充了1000搜索项发现是最常使用的短语用在NHS通路111电话COVID-19分流^80年。我们排除了某些词汇和短语因缺乏整体相关性的一个搜索词和他们的相对发生在谷歌趋势的国家层面的用户界面。初步分析了在国家层面上涉及广义可加模型具有负二项误差结构和动态时间扭曲评估选定项的相关性的预测功能COVID-19发病率和临床结果。相关的分析强调了94年重要条款进行进一步分析和七COVID-19的主要症状包括谷歌的实体。

Google数据处理与地理位置,按日期、记录SARS-CoV-2情况下,住院和死亡数据的小伙子。谷歌估计搜索使用来源包括GeoIP和位置,可用的地方,设备的GPS坐标^81年。查找是因此开发使用谷歌提供的经度和纬度数据映射到国家统计局³³指定的小伙子地域。这是不可能的,伦敦市中心,结果一群小伙子创建谷歌伦敦位置相匹配。

移动数据

从谷歌移动数据收集⁶和电信运营商⁵据报道在小伙子MSOA³³,分别。谷歌移动数据访问和长度的措施改变呆在六个不同的地方类别与基线期在1月3日和2020年2月6日⁶。类别杂货店和药店、公园、公交车站、零售和娱乐、住宅和工作场所。地点在ISO 3166标准来提供“country_region_code”,“sub_region_1′和“sub_region_2′。电信移动数据包含项的人数和他们的数量随着时间旅行在MSOA地理。准备的数据映射到小伙子使用国家统计局查找³⁴通过提取等,人口和人类别(居民、工人、访客)信息。这个数据集的绝对数字挑战来解释,但是,与其他来源提出了一样,这是趋势而不是绝对数字是很重要的。

网站COVID-19测试过程数据

网站COVID-19测试过程数据来自测试和跟踪Adobe分析平台,措施有症状和无症状的旅行预订系统通过测试。进一步分解的数据是否完整或不完整的旅程。一个不完整的预订旅程中,一个人不进行最后阶段的在线旅行预订测试。Adobe geolocates请求者的基础上他们的互联网协议和一个查找表创建聚合Adobe小伙子水平位置。

NHS通路119年数据

119年成立数量作为NHS的联系电话2020年5月测试和跟踪服务³⁵提供了一种书冠状病毒测试和询问测试结果;它的范围已经扩展到疫苗接种的任命过程。数据集包括调用日期和原因以及调用者的地理位置。与上面提到的其他来源,数据集被聚合小伙子地理使用ONS查找表³⁴。只有两种选择:调用在“测试enquiry-request测试”是作为理性和所有调用调用,不管原因。

可用性测试

诊断测试的最大数量进行COVID-19是通过网站请求。完成在线测试可用性被定义为个人的旅程,直到它们提供一个测试的最后阶段,不能进行相对于个人,完成了网站的旅程。这可能是由于缺乏可用的rt - pcr测试,因为测试中心位置是无法访问,或请求者选择不继续。

由于时间和地理差异测试在整个大流行期间我们计算可用性测试可用性,作为位置的函数l和时间t。表示一个人完成,完成了网站测试请求的旅程和一个测试。它是由以下方程:

数组$ $ \开始{}{1}{{{\ mathrm{可用性}}}}\,(l、t) \ \ = \压裂{{{{{\ mathrm{症状}}}}\,{{{\ mathrm{完成}}}}\,(l、t) + {{{\ mathrm{无症状}}}}\,{{{\ mathrm{完成}}}}\,(l、t)}} {{{{{\ mathrm{症状}}}}\,{{{\ mathrm{最终}}}}\,{{{\ mathrm{阶段}}}}\,{{{\ mathrm{用户}}}}\离开({l、t} \右)+ {{{\ mathrm{无症状}}}}\,{{{\ mathrm{最终}}}}\,{{{\ mathrm{阶段}}}}\,{{{\ mathrm{用户}}}}\,(l、t)}} \{数组}$ $

可用性(l,t)= 1对应于一个领域所有的那些请求测试接收,

可用性(l,t)= 0对应于一个领域在请求测试是完全不可用

测试期间可用性特性,当模型位置的情况下利率。测试覆盖率数据异构,确定偏差是时变因此,造型结果的操作演示,都是经过训练的情况下数据包括测试可用性分数了解地方覆盖缺口模型可能不识别。

疫情风险评分

这种建模方法的主要目的是强调之前关注的地区大量爆发发生在一个小伙子。爆发风险评分因此开发确认SARS-CoV-2 pcr阳性情况下,住院和死亡事件(补充图。5)。pcr阳性的情况下通过匿名数据来源收集的列表UKHSA相结合,这是来自全国病理交换数据集³⁶。APC的住院数据获得的数据集³⁷,包括个人,阳性COVID-19 fifteeen天前和八天邮报》承认,和低聚合的超级输出区域童子的水平。死亡率数据得到UKHSA COVID-19死亡linelist英格兰,苏格兰和公众的仪表板³⁸和北爱尔兰³⁹(我们没有死亡率数据访问的小伙子地理威尔士)。

PCR检测和死亡率数据,包括进行分析评估了“回填”(需要多长时间之前最后一个完整的数据)在最近7天内包含之前作为一个目标。住院APC数据定义了每月的时期医院信托必须声明他们的招生活动数据和最后一个完整的一天包括在内。每日PCR测试,每个孩子住院和死亡数据规范化每百万,平滑滚动七天的窗口。

的阈值的风险分数由分析population-normalized每日的分布情况下,住院治疗,死亡率,小伙子。定义的阈值代表相同比例的这些分布在定义的时间窗口的小伙子在英国流行。这些阈值,在公共卫生业务应对环境,最初通过本地化的干预措施在英国通过分层系统⁴⁷。风险评分标准是动态的和由每日比例的变化情况下,住院和死亡,由变异的影响严重,可用性测试在一个国家,确定利率,和疾病流行率信息inter-location异质性的指标。

模型开发

收集的数据用于分析这项工作从2020年10月1日和模型性能测定2021年7月。用于模型开发的软件包括Python v.3.10.0和R v.4.2.0。机器学习模型的目标被定义为每日确诊病例风险评分,住院治疗风险评分和死亡率风险评分。用于机器学习模型的特性包括谷歌趋势搜索数据,谷歌移动,电信移动,NHS通路119电话类别,测试可用性、位置和无症状和症状网站测试请求旅程。的特性,类似于目标,被平滑滚动七天窗口由于不稳定的时间序列数据进行分析。用于我们的造型,其操作用例,我们试图确定趋势和不精确的值在给定的一天突出关注的一个领域。

时间序列分析的数据进行了使用浅学习和深学习算法和特征是相对于目标从落后15 - 40天来评估他们的预测时间与临床指标的关系。预测并不是试图超过这些时期初步分析发现,模型性能迅速恶化后40天。这个项目总共2057年模型包括hyperparameters的敏感性分析。

单变量预测

理解的困难提出模型的预测任务和斗争,单变量预测方法为population-normalized开发情况下,住院和死亡率在小伙子的水平。一个适合使用修改后的Hyndman-Khandakar ARIMA模型算法^82年为逐步使用单位根测试和性能调优Akaike信息标准。模型性能进一步衡量风险评分标准发展情况下,死亡率和住院治疗。

肤浅的学习

模型设计

与滞后的特性从15 - 40天,我们训练随机森林⁴⁰,XGBoost⁴¹,“绿带运动”⁴²和幼稚的贝叶斯⁴²在风险评分算法的目标。日志丢失是随机森林的损失度量定义,XGBoost和GBM停止公差为0.001(全模型hyperparameter规范补充表中可以找到2)。随机抵抗出局的40天的数据被排除在训练样本和用于评估模型的性能。K倍交叉验证每个模型(也包括k= 10)除了主要训练模型,对整个训练数据集。因此11模型训练数据:十在每个交叉验证分割,主要模型的训练数据。训练模型被使用XGBoost堆叠创建一个模型算法⁴³。训练一个二级的叠加由学习者meta-learner,相结合基础学习者来优化性能。

功能的重要性和敏感性分析

进行敏感性分析找出最优hyperparameter组合为每个浅学习算法的评估时间周期。这包括树深度、数量的树木和学习速度。说明每个数据源的相对重要性在风险评分预测目标,训练随机森林算法在每个源的特性和性能评估。我们测量的性能在一个15天的滞后特性对于pcr阳性的情况,20天滞后住院和死亡率的25天滞后。拖延被选为最优随机森林算法的时间性能。提供结果的总体性能评估时间然而,这些关系变化在流行阶段。因此,特征论述了评估在每一个流行阶段为每个替代SARS-CoV-2使用XGBoost算法的变体。

深度学习

在接下来的部分中,我们讨论了深度学习的数据预处理算法,初步灵敏度分析和最终的模型架构。

数据预处理

模型的特征是使用日志预处理转换稳定方差和随后规范化,这是零均值和标准差。由于移动数据包含负我们使用一个偏移值对数转换,以确保步骤之前产生了真正的价值。这是进行加速过程的全局最小值误差表面和减轻的概率被困在当地的最适条件。模型的目标是在一个炎热的编码分类的输入数据转换成一个向量分类熵损失所需的功能⁴⁶。

模型利用生成器的功能⁴⁵对于每一个小伙子,产生了滞后的批次特性为目标变量。生成器函数的参数包括:

Lookback(多少时间为每个目标)特性的步骤包括
滞后(多少时间步骤在过去的特性相对于目标)
是否洗牌洗牌(训练数据的顺序)
批量大小(每批多少样品使用)
最小和最大指数(整个时间序列的一部分用于每个位置)

初步分析

进行了初步的探索性分析定义lookback时期,洗牌的培训秩序,LSTM和CNN层的数量,L1和L2正规化致密层,每一层的形状张量,辍学层的使用。我们也评估了不同的优化函数的相对影响:RMSprop^83年随机梯度下降法,^84年和Adamax^85年。

模型设计

最终的模型设计包括七天lookback延迟时间15,20、25、30、35和40天。这个确定算法,目标在某一天,利用过去7天的特性。这是包括捕获的每周趋势的特征定义风险评分的确认SARS-CoV-2例,住院或死亡率。灵敏度分析后,我们包括一个洗牌的训练数据,开发了一个模型结构,允许学习速率降低为后续时代如果验证发现损失的增加,这是一个代理指标过度拟合。

在最后一层SI-LSTM SI-CNN-LSTM我们引入一个连接网络的所有地理位置之间,模型可以从内部学习和inter-location特征权重。我们合并了363个独立的输入分支通过结合张量的列表,从最终LSTM层对于每一个位置,在一个连接轴和产生一个张量描述无花果。3。最后LSTM层产生一个2阶张量的形状(b,u),b批处理大小和吗u是单位的数量LSTM层。连接后的张量l位置,由此产生的张量形状(b,陆)。

最终的致密层softmax激活功能,确保输出向量y_{我∈{1,…,C}}在C类是规范化的,y_我可以解释为目标的概率是类我。然后叉损失函数定义为:

$ $ {{{\ mathcal {L}}}} \离开({y_i、t_i} \右)= - \ mathop{总和\}\ limits_ {i = 1} ^ C {t_i \ log y_i} $ $

在哪里t_我是一个炎热的编码目标向量。然后我们使用RMSprop优化功能的反向传播阶段。

SI-LSTM

每个位置的模型有一个初始输入层其后两个LSTM层分布式辍学层,这有助于防止过度拟合时代早期的模型。有一个叉子前的最后LSTM层模型,见无花果。1,生成一层致密side-output位置和连接层致密层紧随其后。最终的输出层有一个softmax激活函数由于概率分类熵损失函数。

SI-CNN-LSTM

SI-CNN-LSTM架构利用CNN的功能放大能力层使用的一种重量分享与当地知觉提炼和压缩参数的数量,有助于提高学习效率LSTM层⁴⁴。由于尺寸大小的特性后,CNN一维层,当分布式辍学层、一维最大池层和一个平层。然后模型结构包括三个LSTM层,第一层LSTM后跟一个辍学层和致密层,以进一步辍学层第二LSTM层。模型然后分支密集side-output层和连接层之前最后的致密层。

报告总结

进一步研究信息设计是可用的自然研究报告摘要与这篇文章有关。

数据可用性

谷歌移动数据是可用的https://www.google.com/covid19/mobility和谷歌趋势数据可以查询https://www.google.com/covid19/mobility。SARS-CoV-2病例和死亡数据可以发现所需的空间尺度上对英国的冠状病毒仪表板https://coronavirus.data.gov.uk,以及在下放管理仪表板(https://www.health-ni.gov.uk/articles/covid-19-daily-dashboard-updates,https://www2.nphs.wales.nhs.uk/CommunitySurveillanceDocs.nsf/61c1e930f9121fd080256f2a004937ed/c84f742604ce56f0802586b600374b49/文件/美元快速% 20 covid-19 % 20监视% 20 data.xlsx和https://www.gov.scot/publications/coronavirus-covid-19-trends-in-daily-data/)。应用程序可以使英国卫生安全局PCR病例和死亡数据,和所有其他数据用于这项研究。数据请求数据版本(可以到办公室https://www.gov.uk/government/publications/accessing-public-health-england-data/about-the-phe-odr-and-accessing-data),并通过联系odr@phe.gov.uk。综述了所有请求访问数据通过ODR和受到严格的保密规定的要求:普通法保密的义务;数据保护法案(包括通用数据保护监管);八Caldicott原则;信息专员法定数据共享代码的练习;和国家数据选择退出计划。

代码的可用性

辅助软件1和2已经包括了深- R和shallow-learning模型,分别。Python和PyTorch代码SI-CNN-LSTM和SI-LSTM模型以合理要求提供相应的作者。

引用

吴,s . l . et al .大幅低估SARS-CoV-2感染在美国。Commun Nat。114507 (2020)。
文章谷歌学术搜索
病房里,t &约翰森理解进化的大流行:临床时间延迟分布的分析COVID-19在英国。《公共科学图书馆•综合》16e0257978 (2021)。
文章谷歌学术搜索
林惇,n . et al .潜伏期和其他流行病学的特点2019新型冠状病毒感染对截断:公开情况的统计分析数据。j .中国。地中海。9538 (2020)。
文章谷歌学术搜索
戴维斯:et al .年龄相关性影响的传输和控制COVID-19流行病。Nat,地中海。26,1205 - 1211 (2020)。
文章谷歌学术搜索
Mobile-powered数据和见解(O₂,2022);https://www.o2.co.uk/business/solutions/mobile/data-mobile/o2-motion
COVID-19社区流动报告(谷歌,2021);https://www.google.com/covid19/mobility/
FACEBOOK的数据好(Facebook, 2021);https://dataforgood.fb.com/docs/covid19/
冠状病毒(COVID-19)流动性报告(大伦敦管理局,2021);https://data.london.gov.uk/dataset/coronavirus-covid-19-mobility-report
杰弗里,b . et al .匿名和聚合人群水平流动来自移动电话的数据表明,初始遵守COVID-19社会距离干预高和地理一致的在英国。威康Res开放。5170 (2020)。
文章谷歌学术搜索
Chang et al。流动网络模型COVID-19解释不平等并告知重开不公平和通知重新开放。自然589年,82 - 87 (2020)。
文章谷歌学术搜索
Gatalo, O。,Tseng, K., Hamilton, A., Lin, G. & Klein, E. Associations between phone mobility data and COVID-19 cases.柳叶刀感染。说。21e111 (2020)。
文章谷歌学术搜索
Grantz, k . et al。使用手机数据通知COVID-19疫情流行病学分析。Commun Nat。114961 (2020)。
文章谷歌学术搜索
博雷尔,P。,布莱克,J。,范。Leeuwen E。,Gent, N. & Angelis, D. D. Real-time nowcasting and forecasting of COVID-19 dynamics in England: the first wave.费罗斯。反式。r . Soc。Lond。医学杂志。科学。376年2021 (1829)。
谷歌学术搜索
科学证据支持政府对冠状病毒(COVID-19)(圣人,2021);https://www.gov.uk/government/collections/scientific-evidence-supporting-the-government-response-to-coronavirus-covid-19
Cleaton, J。,Viboud, C., Simonsen, L., Hurtado, A. & Chowell, G. Characterizing Ebola transmission patterns based on internet news reports.中国。感染。说。62年24-31 (2015)。
文章谷歌学术搜索
Carneiro h . a & Mylonakis大肠谷歌趋势:实时监测疾病暴发的一个基于web的工具。中国。感染。说。49,1557 - 1564 (2009)。
文章谷歌学术搜索
Husnayaina,。,Fuad, A. & Su, E. C.-Y. Applications of Google Search trends for risk communication in infectious disease management: a case study of the COVID-19 outbreak in Taiwan.Int。j .感染。说。95年,221 - 223 (2020)。
文章谷歌学术搜索
马纳尔,美国&甘地,p . COVID-19疫情在印度使用谷歌趋势预测:一项回顾性分析。Healthc。通知。Res。26,175 - 184 (2020)。
文章谷歌学术搜索
Jurić,t .谷歌趋势作为一个方法来预测新COVID-19病例。雅典j .地中海。螺栓。8,67 - 92 (2021)。
谷歌学术搜索
吉梅内斯,一个。,Estevez-Reboredo, R., Santed, M. & Ramos, V. COVID-19 symptom-related Google searches and local COVID-19 incidence in Spain: correlational study.j .地中海。互联网Res。22e23518 (2020)。
文章谷歌学术搜索
库里,s . et al . COVID-19例之间的相关性和谷歌趋势数据:在美国各州的分析。梅奥中国。Proc。95年,2370 - 2381 (2020)。
文章谷歌学术搜索
金斯堡,j . et al .检测流感流行使用搜索引擎查询数据。自然457年,1012 - 1014 (2009)。
文章谷歌学术搜索
巴特勒,d .当谷歌流感是错误的。自然494年,155 - 156 (2013)。
文章谷歌学术搜索
Santillana、m . et al .结合搜索、社交媒体,和传统的数据源来提高流感监测。公共科学图书馆第一版。医学杂志。11e1004513 (2015)。
文章谷歌学术搜索
Mahase大肠Covid-19:案例计算的问题。英国人。地中海。J。370年m3374 (2020)。
文章谷歌学术搜索
Vandentorren, s . et al。社会剥夺的影响在法国SARS-CoV-2感染的动态:以人群为基础的分析。柳叶刀公共卫生7e240-e249 (2022)。
文章谷歌学术搜索
冠状病毒(COVID-19)感染调查,特征COVID-19药检呈阳性的人、英国:2022年5月25日(国家统计局,2022);https://www.ons.gov.uk/peoplepopulationandcommunity/healthandsocialcare/conditionsanddiseases/bulletins/coronaviruscovid19infectionsurveycharacteristicsofpeopletestingpositiveforcovid19uk/25may2022
亨德里克斯,b . et al .冠状病毒测试差异与社区层面不足有关,种族不平等,和西维吉尼亚州的粮食不安全。年报论文。5941-49 (2021)。
文章谷歌学术搜索
中,k . et al .探索监测数据偏差估计时复制号码:传播与见解群COVID-19在英格兰。菲尔。反式。r . Soc。376年,20200283 (2021)。
文章谷歌学术搜索
浪涌测试新冠状病毒(COVID-19)变异(英国卫生安全局,2021);https://www.gov.uk/guidance/surge-testing-for-new-coronavirus-covid-19-variants
Pelat, c . et al。更多疾病使用谷歌趋势跟踪。新兴感染。说。15,1327 - 1328 (2008)。
文章谷歌学术搜索
NHS COVID-19应用(英国卫生安全局,2022);https://www.gov.uk/government/collections/nhs-covid-19-app
地方政府区(2020年4月)名称和代码在英国(国家统计局,2021);https://geoportal.statistics.gov.uk/datasets/fe6bcee87d95476abc84e194fe088abb_0
输出区低层超级输出区中间层超级输出区域地方政府区(2020年12月)查找在英格兰和威尔士(国家统计局,2021);https://geoportal.statistics.gov.uk/datasets/output -区域-低-层-超级-输出-区域- -中产层-超级-输出-区域- -当地权威-区- 12月- 2020 -查找- -英国-和- wales/explore
免费PCR测试检查如果你有冠状病毒(COVID-19)(GOV.UK, 2021);www.gov.uk get-coronavirus-test
NPEx:全国范围内COVID-19危机的解决方案(NPEx, 2021);https://www.npex.nhs.uk/news/200409
二次使用服务(NHS, 2022);https://digital.nhs.uk/services/secondary-uses-service-sus/secondary-uses-service-sus-what-s-new
冠状病毒(COVID-19):为苏格兰每日数据(苏格兰政府,2021);https://www.gov.scot/publications/coronavirus-covid-19-daily-data-for-scotland/
COVID-19- - - - - -每天更新的仪表板(卫生部,2021年);https://www.health-ni.gov.uk/articles/covid-19-daily-dashboard-updates
Breiman, l .随机森林。马赫。学习。255-32 (2001)。
文章数学谷歌学术搜索
陈,t & Guestrin c . XGBoost:增加一个可伸缩的树系统。在Proc。22日ACM SIGKDD国际会议上知识发现和数据挖掘(ACM, 2016)。
Hastie, T。,Tibshirani, R. & Friedman, J.统计学习的元素339 (Springer, 2001)。
Van der拉恩说道。,Polley, E. & Hubbard. A. Super learner.Stat .。麝猫。摩尔。杂志。625 (2007)。
Sainath, T。,Vinyals, O., Senior, A. & Sak, H. Convolutional, long short-term memory, fully connected deep neural networks. In国际会议音响、演讲和信号处理(ICASSP)(IEEE 2015)。
Chollet f &阿莱尔,J。深度学习(曼宁,2018)。
概率的损失(Keras, 2021);https://keras.io/api/losses/probabilistic_losses/
审查地方限制层(GOV.UK, 2020);https://www.gov.uk/government/speeches/review -的-地方-限制-层- 17 - 12月- 2020
Kraemer, m . et al .时空入侵动态SARS-CoV-2血统B.1.1.7出现。科学373年,889 - 895 (2021)。
文章谷歌学术搜索
总理宣布新的国家限制(总理办公室,2020);https://www.gov.uk/government/news/prime-minister-announces-new-national-restrictions
第一届英国确认病例ο变体(健康与社会保健部门,2021);https://www.gov.uk/government/news/first-uk-cases-of-omicron-variant-identified
相关风险的传播新SARSCoV-2变体欧盟/欧洲经济区的关切(ECDC, 2021);https://www.ecdc.europa.eu/sites/default/files/documents/COVID-19-risk-related-to-spread-of-new-SARS-CoV-2-variants-EU-EEA.pdf
SARS-CoV-2变异的关心和变异在英格兰接受调查(公共卫生英格兰,2021);https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/984274/Variants_of_Concern_VOC_Technical_Briefing_10_England.pdf
,的Hochreiter s &。施密德胡贝尔表示j .长期短期记忆。麻省理工学院出版社9,1735 - 1780 (1997)。
谷歌学术搜索
Atchison, et al。早期的认知和行为响应COVID-19大流行期间:英国成年人的横断面调查。BMJ开放11e043577 (2020)。
文章谷歌学术搜索
格雷厄姆,m . s . et al .知识壁垒在国家symptomatic-COVID-19测试计划。公共科学图书馆水珠。公共卫生2e0000028 (2022)。
Vahedi B。,Karimzadeh, M. & Zoraghein, H. Spatiotemporal prediction of COVID-19 cases using inter- and intra-county proxies of human interactions.Commun Nat。126440 (2021)。
文章谷歌学术搜索
费舍尔,et al . COVID-19大流行的行为挑战:间接测量和个性化的态度改变治疗(影响)。r . Soc。开放的科学。7201131 (2020)。
文章谷歌学术搜索
诺顿,f . et al .健康行为改变COVID-19锁定:在英国发现的第一波C-19健康行为和健康的日常追踪研究。健康Psychol。26,624 - 643 (2021)。
谷歌学术搜索
艾略特,a . et al . COVID-19大流行:症状监测的新挑战。论文。感染148年e122 (2020)。
文章谷歌学术搜索
艾略特,a . et al。症状监测的潜在影响媒体报道:一个例子使用可能的隐孢子虫暴露在英格兰西北部,2015年8月到9月。Eurosurveillance2130368 (2016)。
文章谷歌学术搜索
买卖的症状是什么?佐伊(2022年2月7日);https://joinzoe.com/learn/omicron-symptoms
格林哈尔希,T。骑士,M。,Buxton, M. & Husain, L. Management of post-acute covid-19 in primary care.英国人。地中海。J。370年m3026 (2020)。
文章谷歌学术搜索
皮尔斯,m . et al。心理健康反应COVID-19大流行:一个潜在的类使用纵向轨迹分析英国的数据。柳叶刀》精神病学8,610 - 619 (2021)。
文章谷歌学术搜索
Mossong, j . et al。社会联系和混合模式相关传染病的传播。科学硕士。5e74 (2008)。
文章谷歌学术搜索
贾维斯,C。,Gimma, A., Wong, K. & Edmunds, J.漫画的社会联系在英国社会接触调查(GOV.UK, 2022);https://cmmid.github.io/topics/covid19/reports/comix/Comix%20Weekly%20Report%20101.pdf
莫诺,m . et al .年龄组维持复苏COVID-19流行在美国。科学371年eabe8372 (2021)。
文章谷歌学术搜索
佩顿,r S。,Overton, C. & Ward, T. The rapid replacement of the Delta variant by Omicron (B.1.1.529) in England.科学。Transl。地中海。14eabo5395 (2022)。
文章谷歌学术搜索
通程国际大酒店,p .不便于造型COVID-19的挑战。国家的经济。牧师。257年46 - 82 (2021)。
文章谷歌学术搜索
Moein, et al。低效率的模型在预测COVID-19流行爵士:伊斯法罕的案例研究。科学。代表。114725 (2021)。
文章谷歌学术搜索
繁殖数量(R)和生长速率(R)的COVID-19流行在英国:方法估计,数据源,异质性的原因,在政策制定中使用作为指导(英国皇家学会,2020);皇家学会出版的快速评估的科学COVID-19的繁殖数量和增长速度。
又,W。,Varughese, M., Han, D. & Li, M. Y. Why is it difficult to accurately predict the COVID-19 epidemic?感染。说,上一次。5,271 - 281 (2020)。
谷歌学术搜索
埃尼迪斯,J。,Cripps, S. & Tanner, M. Forecasting for COVID-19 has failed.Int。j .预测。2,423 - 438 (2022)。
文章谷歌学术搜索
Overton c &病房,t .ο和三角洲连续间隔分布从英国接触者追踪数据(2021);https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/1046481/S1480_UKHSA_Omicron_serial_intervals.pdf
Niazkar h r & Niazkar m应用人工神经网络预测COVID-19爆发。水珠。卫生政策》550 (2020)。
文章谷歌学术搜索
Alali Y。,Harrou, F. & Sun, Y. A proficient approach to forecast COVID-19 spread via optimized dynamic machine learning models.科学。代表。122467 (2022)。
文章谷歌学术搜索
Kumar r . l . et al .复发性神经网络和强化学习模型COVID-19预测。前面。公共卫生9744100 (2021)。
文章谷歌学术搜索
林,y . t . et al .每日与贝叶斯预测冠状病毒病流行的地区不确定性量化,美国。新发传染病3,810 - 821 (2021)。
谷歌学术搜索
常见问题解答关于谷歌趋势数据(谷歌,2021);https://support.google.com/trends/answer/4365533
COVID-19:流行病学、病毒学和临床特征(公共卫生英格兰,2021);https://www.gov.uk/government/publications/wuhan-novel-coronavirus-background-information/wuhan-novel-coronavirus-epidemiology-virology-and-clinical-features
111年国民健康保险制度(NHS, 2021);https://www.england.nhs.uk/urgent-emergency-care/nhs-111/
谷歌隐私和条款(谷歌,2021);https://policies.google.com/technologies/location-data
Hyndman, j . & Khandakar y自动时间序列预测:预测包R。Softw j . Stat。2722页(2008)。
文章谷歌学术搜索
从事公务,t &辛顿,G。课程6.5 -rmsprop:梯度除以最近的运行平均大小。COURSERA:机器学习的神经网络4卷,26-31 (Scirp, 2012)。
基弗,j . &沃尔福威茨j .随机估计回归函数的最大值。安。数学。中央集权。23,462 - 466 (1952)。
文章 MathSciNet 数学谷歌学术搜索
Kingma d &英航,j·亚当:一个随机优化方法。学习国际会议上表示(ICLR) (2015)。

下载参考

确认

我们要特别感谢美国大厅,他的信仰和决心来支持这项工作,和美国捐助,r .色料和h·沙姆西基地贡献在这个项目的开始。我们还要感谢b Pinnington和s·罗杰斯从谷歌趋势编辑团队为他们渴望帮助收购所需的数据的趋势。

作者信息

作者和联系

英国卫生安全机构,伦敦,英国
托马斯·沃德,亚历山大·约翰森和斯坦利Ng
美国加州的谷歌,CA
弗朗索瓦Chollet

作者

托马斯·沃德

看来作者出版物

你也可以搜索这个作者PubMed谷歌学术搜索
亚历山大·约翰森

看来作者出版物

你也可以搜索这个作者PubMed谷歌学术搜索
斯坦利·Ng

看来作者出版物

你也可以搜索这个作者PubMed谷歌学术搜索
弗朗索瓦Chollet

看来作者出版物

你也可以搜索这个作者PubMed谷歌学术搜索

贡献

t。w。构思、设计和领导了这项研究。t。w。和足球俱乐部设计的深度学习模型。t。w。和A.J.写的模型代码。抗干扰,S.N. and T.W. developed and tuned the shallow learning models. T.W. conducted the sensitivity analysis for the deep learning models. A.J., S.N. and T.W. developed the visualizations. T.W. analysed and interpreted the results. T.W. and A.J. wrote the original manuscript. T.W. reviewed the manuscript and wrote the revisions.

相应的作者

对应到托马斯·沃德。

道德声明

相互竞争的利益

作者宣称没有利益冲突。

同行评审

同行审查的信息

自然机器智能谢谢张Xuhong Ioanna Miliou和其他,匿名的,审稿人(s)为他们的贡献的同行评审工作。

额外的信息

出版商的注意施普林格自然保持中立在发表关于司法主权地图和所属机构。

扩展数据

扩展数据图1

ARIMA模型预测积极PCR测试,住院治疗,死亡率从COVID-19使用Hyndman-Khandakar算法在α波从1^圣2020年11月- 15^th2021年2月。

扩展数据图2

线形图的输出和主要输出模型的准确性对于SARS-CoV-2情况,住院治疗,死亡率SI-LSTM和分数SI-CNN-LSTM算法在时间延迟时间。

扩展数据图3

线形图的培训和验证SI-LSTM和损失SI-CNN-LSTM模型与一个30天的确诊病例的目标滞后风险评分。

扩展数据图4

线形图Adamax确认损失的优化功能,RMSprop,确诊病例随机梯度下降的风险分数。

扩展数据图5

线形图的日志SARS-CoV-2损失结果确诊病例,住院和死亡风险分数肤浅的学习算法在时间延迟时间。

扩展数据图6

灵敏度分析的梯度提升机(GBM)确诊病例风险评分算法。

扩展数据图7所示

词云谷歌趋势的相对量最高的搜索词在英国地方政府区(小伙子)。

扩展数据表1 ARIMA风险评分预测性能的积极的PCR检测,住院治疗,死亡率从COVID-19在α波从2020年11月1日- 2021年2月15日

全尺寸表

整体模型的扩展数据表2表特性为谷歌趋势的重要性,电信移动,谷歌移动119电话,网站测试请求旅行使用一个随机森林算法的评估期

全尺寸表

补充信息

补充无花果。1 - 5,表1和2。

报告总结

补充软件1

补充深度学习模型的代码文件已经包括SI -CNN-LSTM和SI-LSTM模型R。

补充软件2

补充代码文件包括浅层学习模型的R。

权利和权限

Springer性质或其许可方(例如一个社会或其他合作伙伴)拥有独占权下本文与作者出版协议(s)或其他情况下(年代);作者self-archiving接受这篇文章的手稿版本是完全由这样的出版协议的条款和适用法律。

再版和权限

关于这篇文章

引用这篇文章

病房里,T。,Johnsen, A., Ng, S.et al。在狭小的空间尺度内预测SARS-CoV-2传输和临床风险通过机器学习的应用体系结构症状监测数据。Nat马赫智能4,814 - 827 (2022)。https://doi.org/10.1038/s42256 - 022 - 00538 - 9

下载引用

收到了:2021年10月27日
接受:2022年8月30日
发表:2022年10月21日
发行日期:2022年10月
DOI:https://doi.org/10.1038/s42256 - 022 - 00538 - 9

主题

文摘

主要

主要指标分析

造型疫情风险

结果

单变量预测

功能的重要性

谷歌趋势的小伙子

时空造型

公共卫生操作模型输出

讨论

结论

方法

数据收集和准备

谷歌趋势

移动数据

网站COVID-19测试过程数据

NHS通路119年数据

可用性测试

疫情风险评分

模型开发

单变量预测

肤浅的学习

模型设计

功能的重要性和敏感性分析

深度学习

数据预处理

初步分析

模型设计

SI-LSTM

SI-CNN-LSTM

报告总结

数据可用性

代码的可用性

引用

确认

作者信息

作者和联系

贡献

相应的作者

道德声明

相互竞争的利益

同行评审

同行审查的信息

额外的信息

扩展数据

补充信息

权利和权限

关于这篇文章

引用这篇文章

分享这篇文章

搜索

快速链接