简介

2019年12月,在中国湖北省武汉市的一群患者中发现了一种来源不明的新型冠状病毒1.1月4日,世界卫生组织(WHO)报告称,推特上出现了聚集性肺炎病例,疫情首次引起国际关注2,随后在1月5日发布了一份官方报告3..1月11日,中国报告了首例与covid -19相关的死亡病例,而1月13日,中国境外发现了首例病例4.1月14日,世界卫生组织在推特上发布消息称,中国初步调查未发现人际传播5.然而,病毒迅速蔓延到中国其他地区和周边国家,而被确定为疫情中心的武汉于2020年1月23日被有关部门切断了与外界的联系6.1月30日,世界卫生组织宣布疫情为突发公共卫生事件12月11日,这种病毒引起的疾病获得了正式名称,即COVID-197

今年2月,意大利北部发现了欧洲第一例严重的COVID-19疫情,该国于2月21日出现首例死亡病例8.在接下来的几周内,新型冠状病毒传播到欧洲各地,因此,世界卫生组织于2020年3月11日宣布COVID-19为大流行。截至2020年4月18日格林尼治标准时间16:489年,全球确诊病例2287369例,确诊死亡病例157468例,康复患者585838例。病例超过10万的受影响最严重的国家(按绝对数字计算,不按人口划分)是美国,确诊病例715,105例,死亡37,889例;西班牙:确诊病例191726例,死亡20043例;意大利:确诊病例175925例,死亡23227例;法国:确诊病例147969例,死亡18681例;德国:确诊病例142614例,死亡4405例;英国确诊病例114217例,死亡15464例。全球各国COVID-19病例和死亡人数的地理分布如图所示。1

图1
图1

截至4月18日全球COVID-19病例和死亡人数的地理分布(Chartsbin43).

如图所示,欧洲受新冠肺炎疫情影响严重。然而,这种疾病的传播现在表明,疫情的中心已经转移到美国,纽约州的病例超过24万例,死亡人数超过1.7万。数字2显示了截至2020年4月18日美国各州COVID-19病例和死亡人数的分布10

图2
图2

截至4月18日美国COVID-19病例和死亡人数的地理分布(Pixelmap42).

为了找到疾病监测的新方法和途径,利用实时互联网数据至关重要。信息流行病学,即信息流行病学,是由Gunther Eysenbach提出的一个概念11,12.在信息流行病学领域,利用互联网资源和数据为公共卫生和政策提供信息13,14.这些方法被认为对监测和预测疾病暴发和流行很有价值15,例如埃博拉病毒16, Zika病毒17,即18、流感19,以及麻疹20.,21

在COVID-19大流行期间,发表了几项使用网络数据的研究。谷歌Trends是与Twitter一起最受欢迎的信息流行病学来源,已广泛用于健康和医学,用于分析和预测疾病和流行病22.截至2020年4月20日,已有七(7)篇关于使用谷歌趋势数据监测、跟踪和预测covid -19的论文在线出现在PubMed上(高级搜索:covid和谷歌趋势)。23有几个地区:台湾24,中国25,26、欧洲27,28,美国28,29,以及伊朗28,30..请注意,对于与COVID-19大流行相关的Twitter出版物,2020年3月13日至2020年4月20日发表了8篇论文(8篇)31,32,33,34,35,36,37,38(PubMed高级搜索:covid和twitter23).表格1系统地报告这些COVID-19谷歌趋势研究,按照报道的发表日期顺序。

表1使用谷歌Trends系统报告截至2020年4月20日关于COVID-19的出版物。

在本文中,在国家和州两级使用了美国关于“冠状病毒(病毒)”主题的谷歌趋势数据,以探索COVID-19病例和死亡与病毒在线兴趣之间的关系。首先,对谷歌趋势与COVID-19数据进行相关性分析;然后,探讨谷歌趋势数据在COVID-19可预测性中的作用。据我们所知,这篇论文是美国在这方面的首次尝试。

本文的其余部分结构如下。方法部分详细介绍了数据收集过程和统计分析工具和方法。结果部分包括国家和州两级的相关分析和预测模型。讨论部分介绍了这项工作的主要发现,以及本文的局限性和未来的研究建议。

方法

来自谷歌Trends平台的数据以.csv格式检索39并在选定的时间段内进行归一化。谷歌Trends报告调整程序如下:"搜索结果按照查询的时间和位置进行归一化,过程如下:每个数据点除以它所代表的地理和时间范围的总搜索量,以比较相对受欢迎程度。否则,搜索量最大的地方总是排名最高。然后,根据一个主题在所有主题的所有搜索中的比例,得到的数字在0到100的范围内缩放。对一个词表现出相同搜索兴趣的不同地区的总搜索量并不总是相同的40.数据收集方法是基于信息流行病学和信息监视中的谷歌趋势方法框架设计的41.请注意,根据检索时间的不同,数据可能略有不同。

在关键词选择方面,对所有常用变体的在线兴趣进行了检查,并对这些变体进行了比较,即“冠状病毒(病毒)”;“COVID-19(搜索词)”;“SARS-COV-2(搜索词)”;“2019-nCoV(搜索词)”;以及“冠状病毒(搜索词)”。不出所料,只有“冠状病毒(病毒)”和“冠状病毒(搜索词)”获得了相当高的在线兴趣。在主题(病毒)和搜索词之间,选择“冠状病毒(病毒)”进行进一步分析。

关于COVID-19病例和死亡人数的全球分布数据来自Worldometer9.用于美国COVID-19分析的数据取自“COVID跟踪项目”,该项目提供了关于全国和州一级COVID-19病例和死亡的详细结构化数据10.COVID-19病例和死亡以及在线兴趣的地图由作者使用免费在线工具Pixelmap创建42和Chartsbin43,并附有各自来源的数据9,10,而相关系数的图表、蜘蛛网图和地图是由作者使用Microsoft Excel(版本16.39)创建的。

随着谷歌Trends数据的规范化,检索搜索流量数据的时间范围应该与COVID-19数据可用的时间范围完全匹配。因此,各州进行分析的时间范围是不同的,要么从3月4日(对于大多数病例)开始,要么从每个州发现第一例确诊病例的日期开始,如表所示2

表2按状态检索谷歌Trends数据的时间框架。

本研究中使用的每个变量都除以其全样本标准差,根据变量标准差的基本公式估计或计算。通过这样做,每个变量的内在可变性被移动,因此,所有变量的标准差都等于1。这种等价性使得比较解释变量对因变量的影响强度成为可能。非参数的44用单位根检验来检验变量是否平稳。结果表明,这两个变量都可以直接用于目前的分析,而无需进一步转换。

探索谷歌趋势在COVID-19可预测性中的作用的第一步是检查谷歌趋势与COVID-19发病率之间的关系。由于Pearson相关分析是该方法的基准分析,因此Pearson相关系数(r计算(COVID-19死亡人数)/(COVID-19病例数)与谷歌趋势数据之间的比值。特别是,最小方差偏差校正皮尔逊相关系数45,46通过自举模拟应用于处理有限数量的观测,因此,小样本估计偏差(另见45,47).偏差校正自举系数\({\stackrel{\sim}{\rho}}^{b}\)的Pearson相关系数为:

$ $ {\ stackrel {\ sim}{\ρ}}^ {b} = {b} ^ {1} \ sum_ {j = 1} ^ {b} {\ stackrel {\ sim}{\ρ}}_ {j} ^ {b} \ρ(\ \)$ $

在哪里\ (B \)对应于自举样本的长度;在本例中,它被设置为99948.请注意,术语“COVID-19死亡人数”和“COVID-19病例”是指美国COVID-19死亡人数和病例的累计(总数),除非另有说明,否则下文使用此术语。

其次,使用肯德尔秩相关进行二次相关分析,这是一种非参数检验,衡量两个变量之间的依赖强度。肯德尔秩相关是无分布的,被认为是稳健的比率数据。考虑两个样本的样本量\ (n \),总配对数为\ \压裂{1}({2}n (n - 1) \).用以下公式计算偏差校正Kendall秩相关值:

$ $ {\ stackrel {\ sim}{\τ}}^ {b} = {b} ^ {1} \ sum_ {j = 1} ^ {b} {\ stackrel {\ sim}{\τ}}_ {j} ^ {b} \(\τ\右)$ $

在哪里\ \(τ\)是由\ \(τ= \压裂{{n} _ {c} - {n} _ {d}}{\压裂{1}{2}n (n - 1)} \),\ ({n} _ {c} \)和谐值,和\ ({n} _ {d} \)是不和谐值。

接下来,基于美国和美国所有州(包括华盛顿特区)的谷歌趋势时间序列,对COVID-19可预测性进行分析。可预测性模型是一个分位数回归,它被认为是针对样本中异常值存在的稳健回归分析;它是由49.基于46,采用分位数回归,通过平衡自举纠正偏差。这种模型是减少小样本估计偏差和数据集中异常值存在的适当统计方法,因为它结合了自举标准误差的优点和分位数回归的优点。关于分位数回归的更多知识可以在由50而且51,而分位数回归的最新应用可以在52,53.最近54引入了无条件分位数回归,同时通过研究55提供对回归的稳健估计的进一步见解。

({Y} _ {t} \ \)\在t (t \ \),为表示因变量的时间序列,假设有二元规范。分位数回归估计解释变量的影响\ ({X} _ {t} \),\在t (t \ \),对变量\ ({Y} _ {t} \)在条件句的不同位置\(问\)分位数,左(\ \(问\ \ mathrm {0,1} \) \)为条件分布。的值\(问\)的值\(问\)-接近1的分位数分别表示条件分布的左(下)尾和右(上)尾。条件分位数函数定义如下:

$ $ Q_ {Y | X} \离开(问\右)={\文本{X}} ^ {\ '} \ beta_ {q} $ $

考虑到\ ({Y} _ {t} \),条件分位数函数的估计\({\β}_ {q} \)可通过求解以下极小化问题得到:

$ ${\β}_ {q} = \ mathrm {arg} \暗流{\β\ {\ mathbb {R}} ^ {k}} {\ mathrm{分钟}}E \离开({\ρ}_ {q} \左β(x \ \) \右)$ $

在哪里\({\ρ}_ {q} \左(y \右)= y \左左(q - {1} _ {\ \ {y < 0 \ \}} \) \)表示损失函数。

通过最小化样本模拟\(左\ \ {{y} _{1}, \点,{y} _ {n} \右\}\)对应于a\ ({q} ^ {th} \)分位数样本,估计量\({\β}_ {q} \)采取以下形式:

$ $ \ beta_ {q} ={\文本{arg}} \ mathop{\分钟}\ limits_{{\β\ {\ mathbb {R}} ^ {k}}} \ mathop \ \和limits_ {t = 1} ^ {n} \ rho_ {q} \离开({Y_ {t} -间{t} ^{^{\ '}} \β}\右)={\文本{arg}} \ mathop{\分钟}\ limits_{{\β\ {\ mathbb {R}} ^ {k}}}左\[{问\ mathop \总和\ limits_ {{Y_ {t} \通用电气\β间{t}}} \左| {Y_ {t} -β\间{t}} \ \ | +左右({1 - q} \) \ mathop \总和\ limits_ {{Y_ {t} < \β间{t}}} \左| {Y_ {t} -β\间{t}} \右|}\]$ $

在哪里\(β\ {X} _ {t} \)是条件句的近似值吗\(问\)变量的-分位数\ ({Y} _ {t} \)

在我们的分析中,\ ({Y} _ {t} \)为COVID-19死亡人数/病例数的比值,\ ({\ rm X} _ {t - 1} \)分别是滞后顺序的谷歌Trends值,和\ (t = 1, \点,t \),\ \ (T)分别是观察数。线性趋势也被使用。

最后,对偏差修正参数的估计如下:

$ $ {\ stackrel {\ sim}{\β}}^ {b} \左(问\右)= \ widehat{β\}\左(眼下\)\ widehat{偏见}\离开(\ widehat{β\}\左(问\)\右)$ $

在哪里\ (\ widehat{偏见}\离开(\ widehat{β\}\左右(问\)\)\)是由\ ({B} ^{1}{\总和}_ {j = 1} ^ {B} {\ widehat{\β}}_ {j} ^{*} \左(眼下\)\ widehat{β\}\左(问\)\)而且\(q\in (0,1)\)表示所考虑的分位数,在本例中,它被设置为0.5(中位数)。中值回归被认为比最小二乘回归对异常值更稳健。最后,还避免了误差参数分布的假设56

本文报道的Αll估计结果是在R编程环境下计算的57.特别地,我们使用R包“quantreg”和“boot”分别计算分位数回归估计和执行引导。该代码可在“在线补充资料文件”。

结果

数字3.描述了2020年1月22日至4月15日期间全球和美国在线对“冠状病毒(病毒)”话题的谷歌查询兴趣。这说明这个话题非常受欢迎,尤其是在欧洲和北美。具体来说,美国所有州对美国的兴趣都相当高(超过70)。

图3
图3

全球和美国在线对“冠状病毒(病毒)”的兴趣热图(Chartsbin43).

为了对谷歌趋势与COVID-19数据之间的关系进行首次评估,计算了两个变量之间的Pearson和Kendall等级相关性,并对结果进行了进一步比较。表3.而且4分别按州提出Pearson和Kendall相关分析的结果。

表3各州Pearson相关分析。
表4各州Kendall等级相关分析。

如表所示3.,在美国和阿拉巴马州、阿肯色州、加利福尼亚州、科罗拉多州、佛罗里达州、佐治亚州、伊利诺伊州、肯塔基州、马萨诸塞州、明尼苏达州、内布拉斯加州、内华达州、新罕布什尔州、纽约州、北卡罗来纳州、俄勒冈州、宾夕法尼亚州、南达科他州、田纳西州、佛蒙特州、弗吉尼亚州、华盛顿州、威斯康星州和怀俄明州以及华盛顿特区观察到具有统计学意义的相关性。爱荷华州、路易斯安那州、缅因州、密西西比州、密苏里州、北达科他州、南卡罗来纳州和犹他州都没有达到p< 0.1统计学显著性阈值,即:\(p\in (0.1, 0.2)\)

根据肯德尔相关分析,在美国和阿拉斯加州、亚利桑那州、阿肯色州、加利福尼亚州、康涅狄格州、佛罗里达州、佐治亚州、夏威夷州、爱荷华州、肯塔基州、路易斯安那州、缅因州、马里兰州、马萨诸塞州、密歇根州、明尼苏达州、密苏里州、蒙大拿州、内布拉斯加州、内华达州、新罕布什尔州、新墨西哥州、纽约州、北卡罗来纳州、北达科他州、俄亥俄州、俄克拉荷马州、俄勒冈州、宾夕法尼亚州、田纳西州、犹他州、佛蒙特州、弗吉尼亚州、华盛顿州、威斯康辛州和华盛顿特区数字4描述了在研究期间美国各州(a) Pearson和(b) Kendall相关系数的热图。

图4
图4

的热点图(一个)皮尔森和(b)各州Kendall相关系数(Microsoft Excel)。

如图所示的热图和图中相关分析的蜘蛛网图。5,两种方法的可视化比较表明两种分析的结果是一致的。

图5
图5

雷达雷达图(一个)皮尔森和(b)各州Kendall相关系数(Microsoft Excel)。

然而,本研究的主要目的是利用美国谷歌Trends数据探索COVID-19的可预测性。从可预测性分析的结果着手,图。6的热图\ ({{\ varvec{\β}}}_ {1}\)通过状态,而表5展示了美国和美国每个州(加上DC)的分位数回归估计可预测性模型。如图所示,估计的谷歌趋势模型显示出较强的COVID-19可预测性。

图6
图6

热点图\({\β}_ {1}\)状态可预测性分析模型(Microsoft Excel)。

表5各州可预测性分析。

请注意,由于观测数量较少,缅因州、蒙大拿州、北达科他州、西弗吉尼亚州和怀俄明州不包括在可预测性分析结果中,但为了一致性,它们被赋予值“零(0)”以包括在热图中。

讨论

截至2020年7月29日,全球新冠肺炎记录病例16,920,857例,报告死亡人数为664,141人,康复患者人数为10,485,316人9.鉴于COVID-19大流行,为了寻找预测疾病传播的新方法,信息流行病学方法为监测和预测COVID-19大流行的长期发展以及衡量和分析公众的意识和应对提供了宝贵的投入。趋势和Twitter被认为是最受欢迎的信息流行病学来源,而其他社交媒体,如Facebook和Instagram,在分析用户的在线行为模式方面表现出有希望的结果13

社交媒体平台可以为我们提供更多的定性数据,将关注点转移到其他方向。这些方法包括情感分析、教育目的以及衡量和提高公众意识的努力。最近使用社交媒体数据分析COVID-19大流行各方面的方法包括监测七国集团领导人的推特使用情况58,在Twitter上监测自我报告的症状59,并通过Facebook分析公众对这种疾病的看法60.此外,信息流行病学资源为通过Facebook招募在线调查参与者以衡量个人的COVID-19信心水平提供了宝贵的投入61以及评估多个搜索引擎中与covid -19相关的在线搜索流量的行为变化62.最后,发表了评论,建议整合其他社交媒体平台,如Facebook、Reddit和TikTok,以传播医疗信息,为公共卫生和政策提供信息63

谷歌趋势为COVID-19的监测和可预测性提供了坚实的定量分析基础,如本研究中提出的分析一样,谷歌趋势关于“冠状病毒(病毒)”主题的数据被用于探索美国国家和州一级的COVID-19可预测性。首先,为了初步评估谷歌趋势与COVID-19数据之间的关系,进行了Pearson相关分析和Kendall秩相关分析。在美国和美国几个州观察到统计学上显著的相关性,这与之前的研究一致,这些研究认为谷歌趋势与COVID-19数据之间存在相关性。

COVID-19可预测性分析采用了分位数回归方法,展示了非常有希望的结果,并表明了这项研究对国际文献的最重要贡献:在区域一级发现和预测COVID-19的早期传播。在进一步协助地方当局采取适当措施处理该疾病的蔓延方面,这一捐助可成为一项重大补充。

数字7该图表显示了2020年3月4日至4月15日美国COVID-19死亡/病例比、每日COVID-19死亡人数、每日COVID-19病例以及各自的谷歌趋势归一化数据。为了保持图表的一致性,与covid -19相关的时间序列按0-100级进行了标准化。如图所示,并经可预测性分析证实,这两个变量不是线性相关的。相反,它们呈现出反比关系,这意味着随着COVID-19的发展,网上对该病毒的兴趣会下降。

图7
图7

美国3月4日至4月15日COVID-19和谷歌趋势数据(Microsoft Excel)。

从行为的角度来看,这一结果可以解释如下。首先,随着确诊病例数量上升,死亡率开始显示大流行确实有严重后果,网上兴趣开始增加并达到峰值。但是,过了一定时期,兴趣就出现了相反的趋势,这也可能说明公众被信息过载所压垮,信息“摄入量”减少。谷歌查询的激增和COVID-19死亡/病例比的下降可能是由于这些天病毒的传播和死亡的“延迟”。关于后一点,这意味着病例在增加,而死亡总数尚未开始大幅增加。

后一点与之前关于该主题的工作是一致的27这表明,尽管观察到COVID-19和谷歌数据之间存在显著相关性,但随着时间的推移,在受COVID-19影响的地区,这种关系的强度和重要性往往会降低,因为人们对病毒的兴趣降低了。这种下降是违反直觉的,发生在病例和死亡曲线开始呈现下降趋势之前,即当一个地区受到严重影响时,与是否达到峰值无关。然而,对于未来的研究人员来说,从这一点开始探索这种关系将是有趣的,因为如图所示。7当死亡人数在某个时间点达到峰值时,这两条线也会开始下降,这表明未来的关系动态将发生变化。

以上可以部分解释各州之间皮尔逊和肯德尔秩相关系数的符号差异,但从统计学角度更深入的解释是,皮尔逊相关系数被估计为观测值与样本均值的偏差的平均值。分布尾部观测值的权重与其他观测值的权重相等,因此,异常值可能会影响结果的估计,特别是在小样本的情况下。考虑到关系,本研究采用自举偏差校正方法,但主要结论基于分位数回归。与依赖关系的线性测量不同,分位数回归被认为在抽样情况下更优越,比线性回归、皮尔逊相关或肯德尔等级相关更能抵抗异常值64.考虑到当前的大流行病是一个不断演变并产生严重社会影响的动态过程,目前很可能存在——或者在以后可能发展——若干数据异常(例如,由于非药物干预措施);因此,应该仔细解释皮尔逊和肯德尔排名相关性等正式统计工具。

这项研究有局限性。首先,只考虑来自一个搜索引擎的数据。虽然谷歌Trends是最受欢迎的搜索引擎,但来自其他搜索引擎的一些关于冠状病毒主题的数据并未包括在本次分析中。其次,目前的数据非常有限,结果是基于很少的观测。第三,这50个州(+ 1个)在确诊病例和死亡人数方面表现出多样性。因此,从这一分析中得出的任何结论都是针对每个案例的。尽管在线搜索流量数据存在已知的局限性,但使用信息流行病学指标为公共卫生和政策提供信息,特别是监测疾病暴发和流行病,已受到广泛关注。

为了动态发现COVID-19的决定因素,本研究中的可预测性分析提供了关于在线搜索流量数据如何在制定公共卫生政策方面发挥重要作用的见解,特别是在流行病和疫情爆发期间,实时数据至关重要。随着COVID-19大流行,世界在社会、经济和社会方面处于未知领域。这种情况要求立即采取行动,公开研究和数据,“多学科”一词从未像现在这样重要。为此,大数据在提供“有机会对病毒活动进行建模研究,并指导各国卫生保健政策制定者加强对疫情的准备工作已被承认65目前关于这一主题的研究应侧重于探索其他信息流行病学变量在COVID-19可预测性中的作用,并将信息流行病学来源与传统来源相结合,以探索在线实时数据为疾病监测提供的全部潜力。