介绍

2019年12月下旬,中国武汉首次报道了一种新型急性呼吸系统综合征,后来被称为冠状病毒病- covid -19。这种未知的冠状病毒引起了中国公众的恐慌,让人想起2003年的SARS疫情。随后,2020年1月20日官方确认COVID-19人传人的大量媒体报道进一步提高了中国公众的警惕,他们积极在网上寻找相关信息1。公众的信息寻求行为,特别是与COVID-19有关的信息寻求行为,可以通过使用互联网搜索引擎的数据来捕捉2

流行病学研究表明,2020年初公众对COVID-19的集体关注发生了变化。研究表明,在COVID-19的第一波浪潮期间,特别是在2020年3月12日世界卫生组织宣布国际关注的突发公共卫生事件(PHEIC)期间,COVID-19相关词汇的搜索量有所增加,但随后在2020年4月下降到更低的水平3.45。许多国家在2020年初采取了“平坦曲线”战略6。在这些国家,公众可能认为COVID-19病例波动是常态。相比之下,自2020年初第一波新冠肺炎疫情以来,中国采取了“零新冠″”政策,实施了一系列非药物干预措施,包括追踪和隔离接触者、严格的边境管制和大规模检测。2020年2月21日至3月17日,国内平均每日报告新增病例数低于10例,3月18日至4月28日,国内无新增报告病例1。然而,由于放松隔离,随后的COVID-19浪潮确实发生了,导致局部传播感染,部分原因是输入病例1。随后的几次国内疫情虽然规模不大,但报纸、电视和网络平台等大众媒体广泛报道,引起了公众的警惕。与这些随后爆发的疫情有关的信息寻求模式还有待研究。

以往基于调查的研究表明,在疫情暴发期间,社会经济地位较低的个体对某些传染病的认识、关注和知识较低78910。因此,集体公共信息寻求行为在中国31个省份之间可能存在与社会经济发展差异相关的差异11。然而,迄今为止,关于中国在COVID-19认识或应对方面的不公平现象的研究很少,部分原因是未能捕捉到中国卫生信息系统中的社会决定因素。迫切需要解决针对COVID-19的卫生不公平现象12,因为这种不平等会加剧现有的社会不平等13。许多青少年和成年人使用互联网来诊断自己或了解健康问题14151617;在这种情况下,互联网的接入和使用成为提高卫生素养和潜在健康结果的日益重要的工具181920.。截至2021年8月,中国互联网用户数量超过10亿21。因此,公众对COVID-19的知识、意识和关切可以通过对COVID-19相关术语的搜索兴趣来衡量。因此,可以利用对互联网搜索兴趣强度的调查,按社会经济地位的不同,审查对大流行的信息寻求反应模式(进而,卫生知识普及和健康结果)的潜在差异16192223

结果

在2019冠状病毒病暴发前(2017年1月1日至2019年12月30日),全国范围内与Covid-19相关的每日搜索指数的中位数为4533 (IQR(四分位数差)= 1301),在疫情暴发后(2019年12月31日至2021年3月15日),每日搜索指数的中位数为314718 (IQR = 445074)。省域搜索指数中位数为西藏地区63 (IQR = 7) ~广东地区1138 (IQR = 302);西藏地区1386 (IQR = 983) ~广东地区38061 (IQR = 45,784)。搜索指数中位数的粗相对变化范围从西藏的2.099%和海南的2.034%到北京的3.872%和辽宁的4.284%(表1)1)。2020年12月31日至2021年3月15日,全国共发生SARS-COV-2病例89936例(西藏1例,湖北68021例)。西藏和湖北以外地区的确诊病例数从青海的18例(0.1%)到广东省的2245例(10.6%)不等。结合这些搜索模式,2020年1月、2020年2月和2020年3月至2021年3月分别报告了13%、76%和11%的新冠肺炎确诊病例。

表1新冠肺炎与前疫情期间搜索索引对比。

模型估计了人类发展指数(HDI)类别的搜索指数变化

Pre-Covid-19

如表所示2HDI低、中、高地区在大流行前的搜索指数年增长率分别为10%(相对危险度(RR) = 1.10, 95% CI 1.07 ~ 1.13, p < 0.0001)、11% (RR = 1.11, 95% CI 1.08 ~ 1.14, p < 0.0001)和13% (RR = 1.13, 95% CI 1.10 ~ 1.16, p < 0.0001)。3个HDI组间搜索指数在covid -19前的趋势差异无统计学意义(中、低,RR = 1.01, p = 0.6188;高vs低,RR = 1.03, p = 0.2239)2,无花果。1)。

表2模型估计了HDI类别的搜索索引变化。
图1
图1

百度按省份和各时期新增确诊病例数排序的搜索索引。(一个观察每日搜索指数(对数转换)按省份和HDI类别随时间的变化。按HDI类别随时间变化的汇总搜索索引如图所示。S1。(B中国每日新增确诊病例(不包括湖北省病例)。

COVID-19初始波

在初始波中,2019年12月31日,低HDI (RR = 1.41, 95% CI 1.34-1.49, p < 0.0001)、中HDI (RR = 1.62, 95% CI 1.54-1.70, p < 0.0001)和高HDI (RR = 1.58, 95% CI 1.48-1.68, p < 0.0001)地区的搜索指数分别增长了41%、62%和58%。中高HDI地区的立即增加明显高于低HDI地区的增加(中低,RR = 1.15, p = 0.0002;高vs低,RR = 1.12, p = 0.0091)。

同样,在2020年1月18日至1月25日,即正式宣布人传人(HHT)后不久,在低(RR = 106.8, 95% CI 100.1-114.0, p < 0.0001)、中(RR = 124.6, 95% CI 117.6-131.9, p < 0.0001)和高(RR = 125.3, 95% CI 116.5-134.8, p < 0.0001) HDI地区,搜索指数分别增加了107倍、125倍和125倍。中高HDI地区在这一短时间内的直接增长明显高于低HDI地区(中低,RR = 1.16, p = 0.0004;高vs低,RR = 1.17, p = 0.0012)。从2020年1月25日至6月10日的搜索指数峰值,低(RR = 0.90, 95% CI 0.89 - 0.90, p < 0.0001)、中(RR = 0.89, 95% CI 0.88-0.89, p < 0.0001)和高(RR = 0.89, 95% CI 0.89 - 0.90, p < 0.0001)地区的搜索指数每周分别下降10%、11%和11%(表1)2)。

北京爆发

北京的疫情与低(RR = 1.91, 95% CI 1.79-2.03, p < 0.0001)、中(RR = 1.34, 95% CI 1.26-1.42, p < 0.0001)和高(RR = 2.12, 95% CI 1.98-2.27, p < 0.0001) HDI地区的搜索指数在疫情第一周(2020年6月11日至17日)分别增加91%、34%和112%。此外,北京的疫情与搜索指数的月变化率增加有关。从2020年6月17日至10月11日,低HDI (RR = 0.96, 95% CI 0.95-0.96, p < 0.0001)、中HDI (RR = 1.02, 95% CI 1.01-1.02, p < 0.0001)和高HDI (RR = 0.94, 95% CI 0.93-0.94, p < 0.0001)地区的搜索指数每月分别下降4%、2%和6%(表1)2)。

青岛爆发

青岛疫情在低(RR = 1.31, 95% CI 1.23-1.40, p < 0.0001)、中(RR = 1.34, 95% CI 1.26-1.42, p < 0.0001)和高(RR = 1.41, 95% CI 1.31 - 1.52, p < 0.0001) HDI地区的搜索指数分别即刻增加了31%、34%和41%。青岛疫情后冬季波中,低HDI区(RR = 1.01, 95% CI 1.00 ~ 1.01, p = 0.0647)、中HDI区(RR = 1.02, 95% CI 1.01 ~ 1.02, p < 0.0001)和高HDI区(RR = 1.02, 95% CI 1.01 ~ 1.03, p = 0.0002)的搜索指数每周分别上升1%、2%和2%。

石家庄爆发

2021年1月的石家庄疫情与低(RR = 2.00, 95% CI 1.85-2.16, p < 0.0001)、中(RR = 2.67, 95% CI 2.50-2.86, p < 0.0001)和高(RR = 2.45, 95% CI 2.24-2.67, p < 0.0001)地区的搜索指数立即增加100%、167%和145%相关。低HDI地区(中低,RR = 1.34, p < 0.0001;高vs低,RR = 1.22, p = 0.0007)。然而,在石家庄疫情爆发后,中等HDI地区(RR = 0.80, 95% CI 0.79-0.80, p < 0.0001)和高HDI地区(RR = 0.78, 95% CI 0.77-0.79, p < 0.0001)的搜索指数周下降幅度分别为20%和22%,显著高于低HDI地区(RR = 0.83, 95% CI 0.82-0.84, p < 0.0001) 17%的月下降幅度(p < 0.0001)。数字2说明了在全国范围内每次预先指定的曝光后,搜索指数的直接相对变化的异质性。

图2
图2

不同曝光期搜索指数的即时相对变化(一个2019年12月31日,预计第一波新冠肺炎疫情将开始。(B2020年1月18日(正式宣布人际传播)至2020年1月25日(在封锁和最初的Covid-19浪潮中每日搜索指数估计达到峰值后不久)。(C疫情将于2020年6月11日在北京爆发。(D) 2021年1月3日开始在石家庄暴发。具体的相对变化点估计值和相应的95% ci在补充资料中提供。

人类发展指数、人均国民生产总值、教育、预期寿命和搜索指数变化幅度之间的关系

将HDI或其组成部分编码为连续变量的模型的结果与我们主要分析的结果一致。如表所示S1在人类发展指数、人均国民生产总值(GNPPP)、受教育年限或预期寿命方面相差一个标准差的两个省,大流行前的趋势相似(p < 0.1)。HDI高一个标准的省份,搜索指数的直接相对增长在统计学上更高(初波:RR = 1.09, p < 0.0001;HHT公告:RR = 1.04 p = 0.0395;北京疫情:RR = 1.06, p = 0.0090;青岛疫情:RR = 1.04, p = 0.0324;石家庄疫情:RR = 1.11, p < 0.0001)。相比之下,在HDI高一个标准差的省份,每次暴露后搜索指数的逐渐下降要么相似,要么更大。对于每次暴露,与GNPPP、受教育年限或预期寿命相关的差异在各省之间的直接和渐进影响的方向和程度与与HDI相关的差异相似。

讨论

本研究利用次国家层面的百度新冠肺炎相关搜索指数,分析了中国网民对新冠肺炎的搜索量,该指数用于反映公众对新冠肺炎的认识水平,以及不同地区对新冠肺炎的认识水平和主动信息寻求反应水平的差异。我们的研究发现,2020年1月,武汉疫情的爆发引发了不同地区互联网用户对COVID-19搜索词的增加。特别是,这一增长趋势在2020年1月18日至25日期间最为明显,这一时期,大众媒体(如电视、广播、报纸和网络媒体)报道证实了SARS-CoV-2的人际传播,大大提高了公众对该疾病威胁的认识。这反映在搜索索引的大幅增加上。在后来的疫情中,我们还发现,中国随后的每一次疫情都重新点燃了公众对COVID-19的兴趣,导致COVID-19相关关键词的搜索量增加。然而,随后COVID-19搜索量的增加并没有超过第一个搜索指数顶点,这可能是因为个人已经积累了先验知识,并且对随后的COVID-19爆发更加习惯,以及随后的疫情不那么严重。

当武汉市政府在2021年12月底发布关于存在未知呼吸综合征的通知时,公众的反应让人想起2003年SARS引起的恐惧,特别是在对这种新型肺炎知之甚少的情况下。1月20日,新冠肺炎确诊病例通过大众媒体公布。在得知他们易感染新冠病毒后,全国民众纷纷在网上寻找相关信息2425•这些增长发生在1月20日至23日短短3天内。相比之下,在世界卫生组织宣布COVID-19为国际关注的突发公共卫生事件后,全球公众对COVID-19的集体关注在3月12日达到顶峰2627。疫情发生初期,中国社会对新冠肺炎疫情的高度关注,可以归结为各级政府动员全社会共同防控疫情28。此外,中国所有省份在同一天都出现了COVID-19相关关键词搜索量的首次高峰,这与美国的次国家模式不同,美国的州一级搜索量通常在该州宣布第一例COVID-19病例时达到峰值23.2930.

我们进一步发现,在第一个信息寻求高峰之后,尽管在2021年2月至4月期间,COVID-19相关词汇的搜索兴趣明显下降,但各省公众对COVID-19大流行的关注(通过搜索兴趣反映)仍然处于较高水平,直到我们的研究期结束。随着中国政府在全国范围内采取严格的非药物干预措施,中国的新冠肺炎疫情初步控制取得了成功,从3月下旬到4月下旬,每天新增病例不到10例。在中国实行零新冠政策、新发病例很少的背景下,只要中国国内出现新发病例,都会引起媒体相对较多的关注。例如,2020年6月,在北京,由于进口冷冻产品,出现了335例新发COVID-19病例(无死亡病例)31。尽管这次局部爆发的性质有限,但它在北京和全国引起了强烈的公众兴趣。对中国新冠肺炎疫情的日益关注表明,公众对新冠肺炎持续存在的风险有着广泛而持久的认识。

我们发现在中国,信息寻求行为强度存在社会不平等。研究证实,贫困人口对H1N1和COVID-19等传染病的认识相对较低103233。在我们的研究结果中,百度索引量的绝对变化以及达到峰值搜索量的速度证明了这些不平等。人类发展水平较高地区的人群对COVID-19的相关搜索量更高,搜索量增长速度更快,下降速度保持相对较低,这表明hdi地区的人群不仅对COVID-19的反应更快,而且对COVID-19的认识也更强,更持久。对COVID-19认识的降低可能导致对个人缓解技术的关注减少,对非药物干预措施的依从性降低5这些因素加在一起可能会使贫困人口面临更大的感染COVID-19的风险。由于COVID-19在中国的发病率和死亡率较低,因此很难分析社会不平等如何影响中国的COVID-19感染和相关健康结果。然而,我们的分析提供了一些证据,支持中国在COVID-19的信息寻求反应和意识方面存在明显的社会不平等,这可能会加剧短期和长期的COVID-19相关身心健康方面现有的不平等1334

我们的研究受到一些限制。首先,我们的研究只是试图通过分析互联网用户的信息寻求行为来反映公众对COVID-19的关注。虽然百度搜索是中国最常用的搜索引擎,市场份额最高,但我们的研究结果不能推广到没有互联网接入的人群。其次,在无法访问互联网的个人中,社会经济地位较低,健康素养水平较低的比例过高35,我们可能低估了不同社会经济地位地区之间信息寻求反应的不平等。第三,由于缺乏数据,我们无法检验大众媒体的影响,这可能介导了互联网搜索,尽管反过来也是可能的(即互联网搜索也可以介导大众媒体曝光)。3637。最后,我们无法使用更分类的、个人层面的数据(如调查数据)来探索个人如何应对健康危机。我们能够检查信息寻求反应的模式如何根据区域级HDI度量而不同,并使用该度量来产生关于个人因素(包括教育和收入)的潜在关联的假设。

我们使用百度搜索数据分析了中国第一波COVID-19疫情和随后的几次小爆发,发现中国公众对COVID-19疫情的认识前所未有地提高,随后的几次疫情也引发了中国网民的强烈关注。在COVID-19大流行的第一波和随后的地方疫情期间,中国每个省份对COVID-19的搜索兴趣模式的变化几乎是同步的,而与每次疫情的震中位置和全国各地大流行严重程度的变化无关。然而,公众对COVID-19的反应和认识存在明显的社会不平等,与发达地区相比,欠发达地区的搜索兴趣较少。

材料与方法

数据

b百度是中国最受欢迎的搜索引擎。百度指数(BI)是指某一天某个搜索关键字或短语的唯一搜索频率相对于百度上的总搜索量的加权频率38。我们使用了最常用的COVID-19相关搜索词的百度索引(“新星,关庄,冰都:新型冠状病毒]”,“[qh]易清理[流行病]),"心观冰都:新型冠状病毒肺炎],"范严[肺炎]、[心观冰都:病毒]","Xin Guan Fei Yan:“新冠肺炎”、“covid”、“covid”、“ncov”、“2019-ncov”、“新型冠状病毒肺炎”和“冠状病毒”)在2017年1月1日至2021年3月15日期间在中国31个省份中使用,以反映公众对covid-19大流行期间的关注。省日报新冠肺炎确诊病例来源于官方日报39。省级人类发展指数(HDI)是从2019年中国国家人类发展报告中提取的,用于反映区域层面的社会经济地位1140。在这种情况下,审查地区一级措施的一个关键优势是,它可以提供证据,帮助指导社区一级的干预措施和政策。用于计算人类发展指数的其他省级地区指标,包括人均国民生产总值(GNPPP)、25岁及以上人口的平均受教育年限和出生时预期寿命,都是从统计年鉴和公开报告中提取的。

我们的目的是检查一系列三个相互关联的研究问题,包括(1)Covid-19的爆发是否导致Covid-19相关术语的百度指数在统计上显着增加?(2)与疫情前的预测趋势相比,搜索量的增长幅度有多大,不同社会经济发展水平的地区对搜索量的增长有何差异;(3)在疫情高峰期后,集体关注是否向疫情前的水平下降,这在人类发展指数(HDI)中有何差异?

伦理语句

这项研究不受机构审查监督,因为数据是可公开获取的,并在人口水平上进行汇总。方法按照相关指南和规定进行。

统计分析

在初步探索了搜索指数随时间的变化后,我们采用了中断时间序列设计来检查Covid-19的影响。该效应采用分段对数正态回归参数化建模41424344定义了疫情前的趋势(2017年1月1日至2019年12月30日),以及反映中国不同大流行时期的不同疫情后时期。由于已知基线水平和长期趋势存在较大的省级异质性,我们采用随机截距和随机斜率随时间变化的混合效应模型,单个省份代表随机效应42。为了调整观察到的季节和每周的周期模式,我们在所有模型中纳入了月度和每周指标变量的固定效应。估计日搜索指数的泊松模型方程表示为:

$ $ E \左(ln \左({指数}_{它}\)\右)={\β}_{0}+{\β}_{1我}T +{\β}_ {c} Covid * {{HDI} _{我}}+{\β}_ {c1} Covid1 * {{HDI} _{我}}+{\β}_ {cs1} {T} _ {1} * {{HDI} _{我}}+{\β}_ {c2} Covid2 * {{HDI} _{我}}+{\β}_ {cs2} Covid2 * {{HDI} _{我}}+{\β}_ {c3} Covid3 * {{HDI} _{我}}+{\β}_ {cs3} {T} _ {3} * {{HDI} _{我}}+{\β}_ {c4} Covid4 * {{HDI} _{我}}+{\β}_ {cs4} {T} _ {4} * {{HDI} _{我}}+{\总和}_ {m = 2} ^{12}{\β}_ {Mm}月+{\总和}_ {d = 2} ^{7}{\β}_ {Dd} $ $

在模型中,指数表示以省为单位的搜索索引值在时间t人类发展指数省的人类发展指数是低、中还是高β0我表示具有固定效应和省级随机效应的模型截距,β1我代表了covid -19前潜在的长期趋势,既有固定效应,也有省级随机效应。五个不同的指标变量(CovidCovid1Covid2Covid3Covid4)用于定义暴露或间隔时间:1)2019年12月31日,估计第一波Covid-19的开始;2) 2020年1月18日(正式宣布通过大众媒体人际传播之前)至2020年1月25日(在封锁和最初的Covid-19浪潮中每日搜索指数估计达到峰值之后不久);3)从6月11日开始,北京出现第二次疫情;4) 2020年10月12日开始的青岛疫情;5) 2021年1月3日开始的石家庄疫情。T从研究开始到现在的时间(天)是多少T1T2T3.,T4分别表示与每个不同暴露相关的每日搜索指数自估计峰值(2020年1月25日、2020年6月17日、2020年10月12日和2021年1月7日)以来的天数。我们将主要影响项与人类发展指数类别的分层相互作用,检查与每次暴露相关的搜索指数变化在多大程度上因地区层面的社会经济地位而异。一天分别以1月为参考类别索引一年中的月份,以星期五为参考类别索引一周中的星期几。采用AR(1)相关结构调节残差中的自相关。为了估计HDI各组成部分与搜索索引变化的关联,我们替换了人类发展指数通过标准化HDI(连续变量)、GNPPP、受教育年数或预期寿命,并重复所有分析。

我们采用自变量对数变换的线性混合模型和正态残差分布45。出于三个原因,我们使用了混合效应对数正态模型,而不是负生物模型或泊松模型。首先,尝试运行这些具有对数链接的广义线性模型(例如泊松模型和负二项模型),如果没有消除残差中的AR(1)相关结构和消除省级随机斜率等简化,则无法收敛。其次,混合效应对数正态模型比固定效应对数正态模型和由赤池信息准则(AIC)和贝叶斯信息准则(BIC)判断的广义线性模型对数据模式的拟合效果更好。第三,当使用对数正态模型时,没有证据表明误差分布中偏离正态分布的残差存在异方差问题。

所有分析均在r -4.0.2版本中进行,使用2021年3月31日获得的数据。双侧alpha值为0.05表示有统计学意义。为了在多次比较中保持家庭α (I型错误率)为0.05,对3个HDI类别中的每个类别的预定义暴露采用Bonferroni校正。这定义了特定测试的显著性水平0.05/(分析中的测试数- p值从最低到最高的秩+ 1)46。本研究是根据加强流行病学观察性研究报告(STROBE)队列研究指南报道的。