细节 |Covid-19数据

大流行的真实死亡人数

我们每天对世界各地死亡人数的估计

H噢,许多有人死于COVID-19大流行?答案既取决于现有的数据,也取决于你如何定义“因为”。许多感染SARS-CoV-2而死亡的人从未进行过检测,也没有进入官方总数。相反,一些死于covid-19的人患有其他疾病,这些疾病可能在类似的时间内结束了他们的生命。那么在大流行期间死于可预防原因的人呢,因为满是covid-19患者的医院无法治疗他们?如果这类病例算在内,就必须用没有发生但在正常情况下会发生的死亡来抵消,例如由霍乱引起的死亡流感空气污染

与其试图区分不同类型的死亡,《经济学人》的方法是把它们全部数出来。跟踪总死亡率变化的标准方法是“超额死亡”。这一数字是指某一特定区域在特定时期内死亡人数与如果没有发生特定情况(如自然灾害或疾病爆发)预计死亡人数之间的差距。尽管官方公布的covid-19死亡人数是,我们唯一最好的估计是,实际死亡人数是人。我们发现有95%的概率真实值位于两者之间而且额外的死亡。

我们只能提供一个粗略的估计,周围有很大范围的不确定性,原因是计算整个世界的额外死亡人数既复杂又不精确。包括省或市等次国家单位发布的统计数据,在全球156个人口至少100万的国家中,我们成功获得了84个国家的总死亡率数据。其中一些地方会定期更新数据;其他人只发表过一次。

为了填补我们对这种流行病认识的空白,《经济学人》建立了一个机器学习模型,可以估计自大流行开始以来每个国家每天的超额死亡人数。它基于官方的超额死亡率数据和100多个其他统计指标。我们最终的统计使用了政府的官方超额死亡数字,无论何时何地,以及模型在所有其他情况下的估计。你可以阅读我们的方法在这里,并检查我们所有的代码、数据和模型在这里

在上面的图表中,您可以查看我们的全球数据或按地区划分的数据。我们的模型提供了一个范围(彩色区间)和一个中心估计(直线)。某一特定国家的可用数据越少,我们就越不确定该国实际发生了多少额外死亡,因此我们的置信区间就越宽。最近的累计总数也在下面以表格形式提供。

上述区域估计数是我们对个别国家的数字的汇总。各国在sars - cov -2检测规模和频率上的差异可能很大,这与大流行的严重程度一起决定了官方的covid-19死亡人数。为了在国家之间进行同类比较,超额死亡数据是必不可少的。在死亡率低于大流行前的正常水平的情况下——因为covid-19的受害者相对较少,而生活方式的改变降低了流感等其他原因造成的死亡人数——这个数字是负数。

上面的交互式图表可以让你比较任何两个国家随时间的超额死亡率。您还可以在下面的表格中查看各个国家的累计总数。尽管我们提供了自大流行开始以来每天的估计超额死亡人数,但官方covid-19死亡统计数据只显示到最新数据发布时,之后就不显示了。

这些数据清楚表明,covid-19导致的死亡人数远远超过官方统计数字(见我们的报告)简报).以超额死亡人数占人口的比例来衡量,世界上许多受影响最严重的国家都在拉丁美洲。尽管俄罗斯的官方死亡统计表明,该国对公民的保护相当好,但其总死亡率数据表明,俄罗斯实际上受到了covid-19的严重打击。同样,我们估计印度的死亡人数实际上是数百万,而不是数十万。在表格的另一端,少数国家在大流行期间的死亡人数实际上比前几年有所减少。

尽管超额死亡统计数据是衡量covid-19人员成本的最全面指标,但它们与感染SARS-CoV-2的人数只有松散的联系。由于该病毒对老年人的致命性要比对年轻人的致命性高得多,因此死亡人数在很大程度上受到一个国家人口年龄结构的影响。在保持其他因素不变的情况下,在65岁以上人口众多的地方,与那些脆弱人群相对较少的地方相比,感染人数较少才会造成一定数量的超额死亡。因此,如果还考虑到人口统计学因素,超额死亡数据只能用作covid-19传播的良好指标。

上面的两张地图显示了这种关系的一些含义。第一个图表显示了每个国家65岁以上人口的超额死亡人数,这是covid-19可能传播范围的一个非常简单的指南。第二个图表描述了每个国家被感染人数的估计比例。为了计算它,我们将一个国家的总超额死亡人数除以经环境调整的感染死亡风险:假设按照富裕世界的标准进行医疗,从该国人口中随机选择的一个人感染covid-19后死亡的几率。一个国家的人口越年轻,这种可能性就越低。

这个估计非常粗略。它既没有解释国家之间特定人口群体成员感染倾向的差异,也没有解释增加对covid-19脆弱性的基础疾病流行率的差异。因为在贫穷国家较难获得良好的医疗,它高估了这些地方的病例数量。在一些国家,这种方法得出的总感染人数估计超过了该国的人口——这种情况在理论上是可能的,因为再次感染确实会发生,但很可能不太可能。

这种方法也没有纳入疫苗接种方面的数据,疫苗接种在许多国家已大幅降低了2021年的感染致死率。而且它缺乏关于SARS-CoV-2的新变种(如Alpha和Delta)流行情况的信息,这些变种可能与原始菌株具有不同程度的毒力。尽管存在所有这些警告,但这种方法至少为估计有多少人感染了病毒提供了一个起点,而不依赖于变幻莫测的检测项目。您可以在下表中查看每个国家的这两组数据。

我们的超额死亡数字可能在两个方面歪曲了现实。首先,他们依赖于一个假设,即官方公布的超额死亡率数字是准确的。鉴于covid-19造成的破坏,一些政府可能已经改变了大流行期间总死亡人数数据的汇编方式。这可能导致我们公布有关国家的不正确数字。它还可能在我们的模型对所有其他国家的估计中引入误差。

其次,由于大多数报告死亡人数超标的国家都是富裕或中等收入国家,因此用于训练我们的模型的大部分数据都来自这些地方。因此,该模型在这些地区检测到的模式可能是贫困国家流行病动态的不准确指南。类似的警告也适用于我们对那些因战争或自然灾害等大流行以外的原因造成大量额外死亡的国家的估计。

我们的超额死亡人数将在本页每天更新。我们希望读者定期阅读,以丰富他们对大流行在世界各地和随着时间的推移的路径的理解。我们也将继续努力改进我们的模式。下面,您可以看到我们迄今为止对它所做的所有更改的记录。

Non-reporting国家

自大流行开始以来,土库曼斯坦未报告任何covid-19数字。它也没有公布全因死亡率数据。因此,对这个国家的估计尤其不确定。

模型的更新日志

阅读我们的方法在这里,并检查我们所有的代码、数据和模型GitHub

2022年2月7日

  • 基于大量扩展的数据重新训练所有模型:现在是107个国家和6个国家以下区域(来自82个国家和6个国家以下单位)。请注意,增加的国家往往人口较少,因此它们的影响比其原始数字所暗示的要小。
  • 制作的模型现在会自动重新训练:每次更新运行,都会训练一个新模型,替换一个随机选择的旧模型。这意味着,不仅要像以前一样根据最新数据每天更新估算值,而且用于解释这些数据的模型也在不断改进。
  • 基于10个不同起始种子模型集合的中值进行中心估计。这将模型数量增加到210个,包括那些用于构建不确定性范围的模型。
  • 改进了累积序列前导零的imputation,现在只在最终观察到非零观测值时才imputation零(对于没有观测值的少量序列很重要)。
  • 基于距离的血清流行率估计值不下降,就像其国家一级的国家地区一样。
  • 增加了来自16个不同国家的31项血清流行病学研究。
  • 在次国家数据中增加了人口密度估计。

2021年9月2日

  • 更改了所有数据源,在适用的情况下每天更新。
  • 调整了缺失指标的降维,消除了在训练和预测步骤之间由于之前完整的数据不再完整而导致的列序和维数变化的可能性。
  • 极大地扩大了血清调查的特点,增加了分裂过去两个月的血清流行率估计,以解释血清调查到发表的滞后。增加了295个新的血清流行率估计值,将样本扩大到51个国家的420项调查(以前是32项)。
  • 增加了累积的区域和国家血清流行指数。
  • 大大扩展了地方数据,添加了过去3年报告的总死亡率数据的所有地区,以及截至2021年7月地方死亡率数据集中超过100万的人口。这些数据都与地方各级covid死亡人数、病例、数字、流动性数据和地理位置的数据手动匹配。
  • 加上平均海拔,热带地区的人口百分比和其他地理国家层面的变量(来源:约翰L.盖洛普;安德鲁·d·梅林格;Jeffrey D. Sachs, 2010,“地理数据集”)。
  • 新增结核病、艾滋病毒/艾滋病、疟疾和预计总死亡负担数据(来源:世卫组织)。
  • 根据2015-2019年按月和国家划分的人口加权平均值添加了温度数据(来源:哥白尼气候服务;Oikalabs)。
  • 将距离加权平均值设置为对数人口加权。
  • 根据联合国大流行前的预测,调整后的中国报告的死亡人数超过了随着时间的推移死亡率的增加。
  • 手动检查所有超额死亡系列,以报告滞后驱动的死亡率下降,并根据报告来源进行适当的审查(这意味着根据CDC对可能报告滞后的估计,从模型拟合阶段删除最近的美国超额死亡数据)。所有超额死亡数据仍在报告中,这只是估计的一部分,仅影响模型拟合阶段。
  • 剔除了向后调整covid-19死亡数字以匹配模型拟合阶段的超额死亡估计数的国家(因为目前的covid-19死亡人数不是基于超额死亡人数)。还从相关区域和距离加权平均值中删除了这些国家的covid-19死亡人数。
  • 特征工程,包括covid死亡与疫苗接种数据和65岁以上人口的相互作用,以促进模型学习。还增加了疫苗接种指标的两周滞后变量,以说明其有效性的时滞。
  • 调整了自举步骤,对地层进行采样,然后在其中进行观测,而不是绘制一个地层,然后在其中进行观测,直到样本量接近原始数据。将引导迭代增加到200次。

来源

多余的死亡:《经济学人》;人类死亡率数据库;世界死亡率数据集;民事登记处(玻利维亚);至关重要的策略;英国国家统计局;北爱尔兰统计和研究机构;苏格兰国家记录;民事登记处(智利);民事登记处(厄瓜多尔); Institut National de la Statistique et des Études Économiques; Santé Publique France; Istituto Nazionale di Statistica; Dipartimento della Protezione Civile; Secretaría de Salud (Mexico); Ministerio de Salud (Peru); Data Science Research Peru; Departamento Administrativo Nacional de Estadística (Colombia); South African Medical Research Council; Instituto de Salud Carlos III; Ministerio de Sanidad (Spain); Datadista; Liu et al (2021)

超额死亡(国家以下):本地死亡率数据集;Rukmini S (2021);苏米特拉·德布罗伊(2021);Thejesh GN (2021);Srinivasan Ramani和Vignesh Radhakrishnan (2021);雅加达开放数据

Covid-19数据(死亡、病例、检测和疫苗接种):我们的数据世界;约翰霍普金斯大学,CSSE;Covid19India.org;雅加达covid-19应对小组

covid-19抗体流行情况:SeroTracker.com

人口和城市化率:我们的数据世界;世界银行(World Bank);联合国;世界卫生组织;世界人口评论

经人口统计学调整的感染病死率:《经济学人》,根据Brazeau等人(2020年)和联合国人口数据

健康结果和保健质量:我们的数据世界;世界银行(World Bank);谁

政治体制和媒体自由数据:V-Dem研究所;PolityIV项目;“自由之家”;Boix等人(2015)

经济和互联互通:世界银行(World Bank);我们的数据世界;世界旅游组织

流动性:COVID-19社区流动报告(谷歌)

地理位置:自然地球;Decker等人(“地图”R包);Mayer T et al (2011);盖洛普等人(2010)

政府应对Covid-19的政策:牛津大学(牛津大学)

更多来自图形细节

法国斗牛犬正在占领美国

这种可怜的杂种狗现在是这个国家最受欢迎的品种

上议院倾向于有偏见和分配不公

选区规模的变化对保守派有利,但在众议院却不是这样


Silvergate是加密货币危机的最新受害者

数字资产今年开局良好。这可能不会持续太久