介绍

描述COVID-19流感大流行的影响和理解政策干预的有效性需要全面、格式良好的和方便的数据库。世界卫生组织和欧洲疾病预防与控制中心收集每日统计信息从政府来源病例和死亡。这些聚合数据库广泛应用于研究,但他们缺乏粒度和上下文。此外,一些学术机构策划针对捕获高质量数据集变量未包括在上述数据库:约翰霍普金斯大学的冠状病毒资源中心1,实时追踪2,《经济学人》追踪COVID-19过量死亡3和牛津COVID-19政府响应跟踪4。约束研究上下文相关的大流行,这些数据库被证明是非常有用的研究人员和政策制定者试图了解传播的原因和公共卫生干预措施的有效性。连接异构数据是至关重要的理解上下文使当地的观察和推论更精细的空间分辨率。然而,在这些来源链接相关数据的过程是复杂的,需要非常小心。

OxCOVID19数据库旨在链接不同形式的数据,报告在国家和地区层面,包括流行病学信息COVID-19(证实,死亡,恢复、住院等),政府回应(学校关闭,经济措施,等等),移动(例如,人类在各种地方)的流动趋势变化,天气(如温度、湿度、降水、等)、社会经济统计数据和价值调查(图。1)。数据库使用一个建立空间索引GID5横跨几个层次。只要有可能,OxCOVID19数据库利用官方来源,通过大学校园或政府研究团体和来自同行评议的科学论文的数据。提供的数据是不同的细粒度的空间水平从而促进更好的理解如何区域特征告知疾病的传播(例如无花果。2)。这种类型的链接和细粒度的数据可以更准确的流行病模型的建设,允许可靠估计所需的参数相对较小的区域,避免平均在国家层面的过程。他们也会增加我们的理解各种干预措施的有效性在州和地区水平。因此,我们希望这个资源结合数学模型和机器学习的数据分析将提高我们理解COVID-19流行和促进发展的策略来减少对社会的影响。的一些关键问题,OxCOVID19数据库可以帮助回答包括评估不同类型的非药物干预措施的有效性,如政府封锁,流动性的限制,社会距离在减少感染的传播6

图1
图1

数据类别的主要类型包括在OxCOVID19数据库。

方法

数据源

OxCOVID19数据库中所有可用的数据收集从公开渠道包括科学报告7、政府新闻发布简报,以及类似的。我们主要依赖政府的流行病学数据来源包括卫生部网站和存储库、区域公共卫生部门、大学研究小组和官方社交媒体账户。政府响应数据来自于冠状病毒反应追踪由研究人员从牛津大学布拉瓦尼克政府学院4。移动数据,我们使用社区流动报告由谷歌8由苹果和移动趋势报告9。气象数据(可以从2020年1月1日起)提供由英国气象局全球COVID-19气象数据分析10。社会经济统计数据和统计数据来自各种来源慷慨地提供世界价值观调查11欧洲的价值观研究12和世界银行13。一个完整的维护和更新的数据源列表https://github.com/covid19db/data

有很多挑战在我们组装OxCOVID19数据库。因为这是一个“活”的数据库,我们必须建立一个系统架构允许每日数据的获取和验证(见图。3)。我们工作中使用的数据集通常报道在不同级别的地理分部。例如,据报道,在英国,流行病学三级而流动被报道根据源代码级别1或2。时加入表提出了很大的挑战。要解决这个问题,我们引入了一个共同的关键,GID,在下一节中详细介绍。来源经常改变格式,移动其位置或停止报告,提出了另一个挑战。为了解决这个问题,我们实现了一个自动验证系统检测等问题,提醒我们需要做出更改时取物。

不同来源的报告数据在不同的空间和时间分辨率。我们提供每个源的信息用于数据库的官方项目的GitHub (https://github.com/covid19db/data)。在刚出版的时候我们53来源用于流行病学表,一个用于GOVERNMENT_RESPONSE,两个流动以及世界价值观调查,欧洲的价值观研究中,和世界银行。截至2021年1月22日,地方性的数据被收集1623年流行病学的速度记录每天,每天11617移动记录,41319天气每天记录。

统一的跨地理区域的数据

OxCOVID19数据库链接为不同级别的行政区划多通道数据。最大的一个国家行政分舱将被称为“一级行政区划”、“第一个行政级别”,或“一级”(例如,“国家”在美国或在波兰“voivodeships”)。下一个较小的区域将被描述为“第二级行政区划”、“第二行政级别”或“2级”(例如,“县”在美国,“powiaty”在波兰);同样“第三级行政区划”、“第三行政级别”或“三级”(例如,“gminy”在波兰)。不是每个国家都有第三个级别(如美国),一些国家甚至没有第二个水平,但我们包括这些。

我们连接来自多个数据源的数据和各级行政细分到一个关系数据库使用GID从全球行政区域(GADM)数据库作为一个地理标识符5。GADM数据库的目的是“所有国家的行政区域地图,各级分公司”。是免费的非商业用途的情况。GID标识一个地理区域的一个字母数字字符串。例如,字符串“CHN.16.4_1”可以解码如下:前三个字母是ISO 3166 - 1 alpha 3为中国大陆国家代码;“16”表示一级细分,这里省江西;这里的“4”代表所二级部门,景德镇城市;最后,“_1”表明版本号GID,只有事件的变化主要内部重组和允许向后兼容性。每个GID多边形关联给地理区域的边界非常高分辨率。专用的表名为ADMINISTRATIVE_DIVISIONS包含gid连同他们的地点的名称和地点,表达了一个点,一个多边形。 The resolution of the polygon is reduced from that given in GADM in order to conserve space.

每一个记录,尽可能匹配GID或GID的列表。这允许用户匹配不同形式的数据一起使用gid,包括跨层次结构。GID时可能被用作主要的地理数据库的关键,我们选择介绍一些冗余和使用名称(如GADM标准化5)区域以及它们的gid的易用性以及允许例外的gid。

通常,分配一个GID的区域称为一个记录是一个简单的问题。轻微的不一致与拼写变异、前缀和后缀有时可以实施的障碍直接文本匹配,但这需要有限和明显的手工调整。一些记录缺乏地理特异性需要分配一个GID,如在管理细分被列为“未知”。然而,有关行政重组更具挑战性的情况下,经常发生因为GADM 3.6的发布。这些通过例子就是最好的说明。

处理边界变化:一些例子

  1. (我)

    在UK-England,一些地方当局(2级单位)边界发生了变化,与三级单位或者提升到2级单位之间移动。每个地方当局因此轻松地表示为一个列表2级或3级单位。

  2. (2)

    类似的情况也出现在哥伦比亚:Cundinamarca一级部门(COL.14_1)包含首都区,波哥大,在GADM Santafe de波哥大(COL.14.79_1)。然而,波哥大事实上的状态是一个独立的部门。我们仍然可以表达波哥大和Cundinamarca排除波哥大所二级gid的列表。不幸的是,Cundinamarca排除波哥大含有114所二级区域。但是,我们仍然表达准确,因为任何选择都涉及地理重叠在报道和可能的歧义。

  3. (3)

    挪威:重组县(一级单位)在挪威导致几个合并。然而,也有一些小的边界变化。它是可能的,与哥伦比亚、表达所有单位所二级gid的列表。然而,它将是非常麻烦的,而且与哥伦比亚的情况下没有必要地理重叠,避免,将导致小增益精度。为简单起见,清单1使用单位。

新的组织计划:一些例子

那里是批发重组或报告发生根据组织模式并不是由行政区划,情况不容易处理。

  1. (iv)

    UK-Scotland:报告在苏格兰地区的当地卫生委员会、不兼容的行政单位,地方当局所二级gid。我们试图尽可能准确地代表了健康委员会gid。

  2. (v)

    拉脱维亚拉脱维亚:重组的地区导致地区不包括在GADM小得多。拉脱维亚的城市、直辖市不能关联的gid。

流行病学

虽然我们的目标是收集流行病学数据在区域层面上对尽可能多的国家,我们最初试图优先国家包括。确定优先级我们整合三个标准:总人口,空中交通体积,COVID-19相关的死亡人数。所有国家都被要求根据这三个标准于2020年5月5日,对每个国家的排名标准添加给优先级评分(即。中,我们使用一个Borda数)。

根据这个排名前20位的国家中排名时的优先级是:美国、中国、印度、巴西、英国、印尼、德国、土耳其、日本、西班牙、爱尔兰、俄罗斯、法国、意大利、墨西哥、巴基斯坦、比利时、加拿大、伊朗、尼日利亚。我们已经成功地包括区域数据除了土耳其和伊朗在数据库中。在撰写本文时,41个国家已经包括在第1层,其中6个国家出席所二级,三级联合王国。

聚合的天气变量

天气表由47个来自英国气象局气象变量10。提供信息的变量温度、阳光、湿度和降水。这些信息每天取样,报道12公里\ \(\倍)12公里均匀网格经度。

提供这些数据的方式,允许与其他表链接,我们报告每个变量的平均值在所有网格点包含在1级和2级GADM细分,标准差和网格点的数量。每天我们报告从2020年1月1日开始。

之所以选择这种级别的细分基础上,几乎所有所二级区域包含一个网格点。在该地区不包含网格点,没有记录被创建。然而,这在不到0.5%的情况下发生的。使用3级而不是2级将导致大量的丢失的记录,在使用一级会过于粗导致高标准差和解释力。进一步,值更大的地理单位用户可以获得在较小的细分考虑平均在每个区域的数量。

世界银行的数据

世界银行发展指标数据集13是一个方便的一级指标包括经济特征(如GDP)、医疗保健和其他指标的质量。每条记录包含一个alpha 3国家代码(相当于GID)允许他们与我们的数据库。当然,并不是所有的时间序列都是完整的所有国家。为了便于使用,我们提供最新的报告值指标。可用指标的完整列表看到https://data.worldbank.org/indicator/

价值调查

我们提取的世界价值观调查的指标11和欧洲的价值观研究12包括人们的价值观和信仰的信息;他们对政府的信任,医疗和科研机构;贫困的水平;和类似的社会经济、政治和人口统计指标。

统计数据汇总并配备适当的GID在国家层面和区域层面。这些地区通常大于GADM第1层和包括仅为相同的20个国家流行病学数据的优先考虑。

我们综合价值观调查获得数据集通过合并在一起完全释放电波的世界价值观调查研究和欧洲值。没有官方发布的这个集成dataset-we合并后的官方指南14做适当的调整,指导没有提供正确的匹配。

对于每一个调查问题,我们报告每个答案的频率。因为每一个可能的答案生成一个列,结果有15000多列的表。减少表的大小我们每个国家/地区的所有数据存储在一个嵌套的字典,放置在列调查表中的“属性”。

图2
图2

样本数据对意大利证明由OxCOVID19数据库提供的数据类型。(一个)累计死亡人数通过时间有两个时间点(对应于4月1日和6月1日)用虚线表示。(B)干预紧缩,进一步分层的精确类型的非药物干预措施4。(C从谷歌)工作场所活动的相对流动,虚线对应于平价与历史值。面板(D)的空间分布的累积的死亡人数在意大利在4月1日和6月1日,2020年,对应的虚线(一个)。意大利的等值线图地图生成与R (https://www.R-project.org,版本4.0.2)16。空间几何图形使用GADMTools得到17和数据使用ggplot2生成(https://ggplot2.tidyverse.org3.3.2版)18和ggspatial (https://CRAN.R-project.org/package=ggspatial、版本1.1.3)19

数据记录

数据库可以下载https://covid19.eng.ox.ac.uk/。数据存储在一个PostgreSQL数据库。CSV提取物这个数据库访问是可用的https://github.com/covid19db/data。完整的档案副本数据库在CSV格式为31-07-2020的存储https://doi.org/10.6084/m9.figshare.12746150

常见的连接表的列

下面的列是用于惟一地标识每个记录和查询数据库以结合不同形式的信息:(K1)——缩写表示数据源;(K2)日期iso 8601日期(YYYY-MM-DD)记录的考虑;(K3)GID;(K4)国家英语名字的国家,因为它出现在GADM数据库,(速率)countrycodeiso 3166 - 1 alpha 3国家代码,(转K6)adm_area_1指定一级行政国家细分(K7)adm_area_2指定二级行政国家细分(美丽)adm_area_3指定第三级行政国家细分。(注意,尽管(K1)) - K3惟一地标识每个记录等附加列国家,countrycode或不同级别的行政区划允许更多的用户友好意味着查询组或聚合的数据是必要的。(转K6)——(美丽)的字符串在给定的拉丁字母出现在GADM数据库,除非该地区并不是单一的GID。在大多数这样的情况下,据报道,在最初的来源。在一个上层英国地方当局,如大伦敦区,为了方便使用,部门列出他们的名字下adm_area_2,adm_area_3是零。

行政区划

ADMINISTRATIVE_DIVISIONS表(见表1)包含与每个GID,相关的地理特性和信息提取GADM5。它包括六个链接列(K3)——(美丽),紧随其后的是countrycode_alpha2ISO 3166 - 1α2国家代码,adm_level,指定级别的部门,adm_area_1_code,adm_area_2_codeadm_area_3_code,提供每个更高层次的GID行政区划,属性,包括替代名称和标识码和三个几何特征:纬度经度指定区域的质心,几何,指定的简化边界地区(shapefile)用于映射。

流行病学数据

流行病学表包括所有八个链接列,(K1)——(美丽),紧随其后的是测试测试的数量;确认确诊病例的数量;死亡的数量;恢复数量的个人恢复;住院数量的个人住院;hospitalised_icu数量的个体在重症监护病房;隔离数量的个体隔离(见表2)。

政府响应数据

GOVERNMENT_RESPONSE表包括所有八个链接列,(K1)——(美丽),其次是一些指标(见表3),准备和策划,布拉瓦尼克政府学院的研究人员,牛津大学4。这些指标分为以下几类:控制和关闭,经济和卫生系统的反应,和各种各样的政策声明,不符合其他地方。

移动数据

流动表(见表4)包括所有八个链接列,(K1)——(美丽),其次是人类流动性的指标数量据谷歌8。这些数据来自聚合运动的Android手机用户和由用户的位置:分层的地方工作,户外公园,娱乐领域,食品市场等。此表也包含交通量的变化报告的苹果9从聚合跟踪iPhone用户的人走路,开车或乘坐公共交通工具在他们的社区。

谷歌在任何一天措施流动性相对于中值为每个5天落在同一天的周期间2月3日1月6日,2020年,而苹果措施所有数据相对于1月13日,2020年。数据只描述流动在特定的地点特定的活动。他们不显示区域之间的旅游也不包含个体层面的数据。

天气数据

天气表(见表5)包括所有八个链接列(K1)——(美丽)其次是47个变量包括温度、日照、降水、气温、风速等。

世界银行

WORLD_BANK表(见表7)包括七个八个链接列(K1), (K3)——(美丽)紧随其后indicator_name,indicator_code,价值一年。每个指标名称和对应的代码与一列在1431年的特性https://data.worldbank.org/indicator/。原始来源提供了一系列值从1960年到2019年。然而,这里我们只报告最近的可用价值的。

调查

调查表(见表6)包括七个八个链接列(K1), (K3)——(美丽)紧随其后samplesize指示参与调查的人数为该地区正在考虑,属性,这是一个包含该地区/国家统计和字典,指定特定的调查报告。

技术验证

用于构建OxCOVID19数据库的代码是合作开发的。工作在几个GitHub库(https://github.com/covid19db)允许我们分享文档,保持代码组织的和最新的。我们鼓励研究团体报告他们发现的任何问题。图3显示了系统架构,用于收集,统一存储和共享数据。我们经营超过70访问者定期从我们获得的原始数据来源。这种自动化过程确保我们收集最新数据,减少潜在的错误由于人工输入。“统一”步骤确保不同表中的名称OxCOVID19数据库跨地理区域是一致的。在“确认”步骤执行检查的一致性。在存储步骤中,输入数据的最后一个时间戳是相对于当前时间,如果插入的数据超过14天生成相关的警告,可能表明获取数据的格式的变化或其他问题,需要修复。抓取过程引发了在02:00和英国夏令的一天两次。分享的过程,即发布现有数据源到CSV文件托管在GitHub上,一天四次触发。

图3
图3

为OxCOVID19数据库系统体系结构。

使用笔记

数据访问

我们提供几种不同的访问OxCOVID19数据库的方法。最新版本可以下载的CSV格式https://github.com/covid19db/datahttps://covid19.eng.ox.ac.uk/和存档可以从FigShare访问静态版本https://doi.org/10.6084/m9.figshare.12746150。直接连接到PostgreSQL数据库也可以授予。

示例使用

Python和R的基本例子展示如何加载数据和执行简单的分析https://github.com/covid19db/examples。我们愿意承认R包访问我们的数据库,可在凹口(https://cran.r-project.org/package=oxcovid19),已被开发的科莫财团的成员15

引用的建议

OxCOVID19数据库的结果许多小时的志愿者努力和慷慨的捐助方法部分中列出的许多组织在“数据源”。我们鼓励用户OxCOVID19数据库引用,以及本文中,底层的来源。

表1为ADMINISTRATIVE_DIVISIONS表模式。
表2为流行病学表模式。
表3为GOVERNMENT_RESPONSE表模式。
表4为流动表模式。
表5为天气表模式。
表6为调查表模式。
表7为WORLD_BANK表模式。