数据描述符
开放获取
发表:11月19日

So2Sat POP -一个精心策划的基准数据集，用于在大陆尺度上从空间估计人口

Sugandha Doda¹，
王渊源ORCID:orcid.org/0000 - 0002 - 0586 - 9413¹，
马蒂亚斯•卡尔¹，
艾克·延斯·霍夫曼¹，
金正日Ouan¹，
汉斯·Taubenbock^2，3.＆
.．.
朱晓翔ORCID:orcid.org/0000 - 0001 - 5530 - 3613¹

科学数据体积9，文章号:715（2022）引用本文

573访问
1Altmetric
指标细节

主题

摘要

获得动态人口分布是许多决策过程的关键，如城市规划、灾害管理，最重要的是帮助政府更好地分配社会技术供应。为了实现这些目标，良好的人口数据是必不可少的。通过人口普查收集人口数据的传统方法既昂贵又繁琐。近年来，统计和机器学习方法已经发展起来，以估计人口分布。大多数方法使用的数据集要么是小规模开发的，要么是尚未公开的。因此，新方法的开发和评估变得具有挑战性。我们通过提供98个欧洲城市人口估计的综合数据集来填补这一空白。该数据集包括数字海拔模型、当地气候区、土地利用比例、结合多光谱Sentinel-2图像的夜间灯光，以及来自开放街道地图倡议的数据。我们预计，这将是对研究界发展人口估计领域的复杂方法的宝贵补充。

测量(s)	人口分布
技术类型(年代)	遥感
因素类型(年代)	遥感数据
样本特征-位置	欧洲

背景与总结

城市的快速城市化正在导致环境问题，如气候变化、食物和水短缺、空气质量差、森林砍伐等^{1，2，3.，4，5}．要了解城市化的主要趋势，人口估计起着至关重要的作用。传统上，人口估计是通过人口普查来完成的。在这个程序中，一个行政单位或人口普查单位系统地收集和汇编人口数据。数据的准确性取决于行政单位的数量和规模、收集方法、调查的完整性，在农村和城市地区差异很大⁶．

近年来，统计和机器学习方法已被直接应用于遥感数据来估计人口分布^6，7．一般来说，这些方法要么应用于较小的区域，要么基于一些特定国家的数据，如建筑足迹或其他在其他国家不容易获得的详细地理空间数据集。史蒂文斯等．⁸使用随机森林方法估算越南、柬埔寨和肯尼亚100亿分辨率的人口。他们纳入了广泛的遥感和地理空间数据集，如到道路的距离、卫生设施、海拔、土地覆盖、植被、定居点和夜间灯光，并使用了从柬埔寨国家统计局、越南国家统计局和肯尼亚国家统计局收集的特定国家人口普查数据。Doupe等．⁹提出了一种新的方法，使用卷积神经网络(CNN)，通过结合Landsat-7卫星图像和(DMSP/OLS)夜间灯光来估计人口。他们用2.5亿卫星像素分辨率的坦桑尼亚数据训练模型，并以8公里分辨率估计肯尼亚人口。他们已经发布了用于重建坦桑尼亚和肯尼亚数据集的代码。Robinson提出了另一种类似CNN的方法等．¹⁰他们准备了来自美国人口普查汇总网格的数据，并结合陆地卫星图像，以1公里分辨率估计美国各县的人口。胡等．¹¹还提出了一种深度学习方法，将陆地卫星8号和哨兵1号的卫星图像结合起来，并使用社会经济种姓普查调查得出印度的人口密度。在上述大多数方法中，要么数据无法下载，要么只能重建少数城市的数据。其他网格人口产品包括全球人类住区人口网格(GHS-POP)¹², WorldPop¹³橡树岭国家实验室的LandScan¹⁴、高分辨率沉降层(HRSL)¹⁵等等。数据集中使用的估计方法和辅助数据的差异导致了不同的结果⁶．很少有研究通过比较网格化人口产品的估计和实际人口计数来评估和比较其准确性^16，17．然而，这些研究需要收集和处理人口普查数据。因此，重现结果或比较方法变得困难和耗时。

利用我们的数据集，我们的目标是通过提供98个欧洲城市人口估计的系统回归和分类方案来填补这些空白。这些城市涵盖了28个欧盟成员国和4个欧洲自由贸易联盟国家。它代表了各国广泛的地形、人口和建筑设计。它将节省收集和处理新数据集以开发和验证方法的成本。数据集包括数字高程模型(DEM)、当地气候区(LCZ)、土地利用比例(LU)和夜间灯光(VIIRS)，结合多光谱Sentinel-2图像(SEN2)和来自开放街道地图计划(OSM)的数据。在人口估计领域，这种多数据源组合还没有被探索过。我们期望这将是一个有价值的补充，为研究社区发展复杂的方法在人口估计领域。

在本文中，我们通过提供一个从公开数据集创建的基准数据集，为当前的文献做出了贡献。我们研究了大量城市多源数据的融合。为了展示我们数据集的潜在能力，我们使用从输入数据中提取的特征来训练随机森林模型，以估计我们测试数据集上的总体。初步结果表明，利用So2Sat POP数据集开发强大的机器学习方法具有可以想象的潜力。

方法

我们感兴趣的区域(ROI)分布在欧洲(图2)。1)．首先，我们根据联合国2014年世界城市化展望修订版，选择了2014年欧洲所有人口在30万或以上的城市¹⁸．在这些城市中，我们根据人口数据的可用性选择了106个城市。通常，城市可以被描述为由行政边界定义的永久性大型人类住区。然而，定义行政边界可能非常棘手，因为它会随着人口普查区的合并或分裂而变化。城市的向外扩张远远超出了它们正式的行政边界^19，20.．所以，我们使用了一种算法来确定城市的范围。联合国《世界城市化展望——2014年修订版》中列出的城市中心坐标¹⁸已被用作与全球城市足迹(GUF)相结合的起点²¹它提供了城市和非城市地区的二元掩码。根据GUF，以每个城市坐标为中心的矩形自适应地向外生长，直到矩形面积的一半不再建立。为了考虑到快速的城市化，矩形的每边都被扩大了两倍(即面积的四倍)。由于两个相邻城市的矩形可能与另一个城市相交，因此使用一组规则将相交区域分配给两个城市中的一个，并确保每个城市的范围覆盖唯一的区域。算法1总结了这组规则。该算法以递归和降序运行，从相对重叠度最高的城市开始。根据这套规则，城市_一个要么合并为城市_b或者重叠的部分被分配到城市_一个并从城市_b，取决于重叠区域的相对大小。为了处理这些重叠，城市的数量被合并为98个。根据每个城市定义的范围，我们处理并准备了以下输入数据源。

算法1

交叉区域的分配-伪代码。

输入数据源

人口数据

一般来说，特定国家的人口普查局按行政单位的层次提供人口数据。行政单位规模的异质性使得数据难以直接用于分析。在这种情况下，具有统一大小的网格单元的网格化种群产品提供详细和一致的种群图。生成网格化人口产品最常见的方法是在土地利用和土地覆盖图等辅助数据的条件下，将人口普查计数从行政级别重新分配到精细网格单元，这种方法也称为大尺度测绘²²．

欧洲统计系统(ESSnet)项目与欧洲地理和统计论坛(EFGS)合作，目的是根据欧洲人口普查编制高分辨率(1公里)人口网格。该方法基于数据的可用性，包括聚合、分解和混合方法。聚合(自底向上的方法)被认为是生成人口网格的最佳方法²³．在这个项目中，大约有18个国家正在使用汇总或至少混合方法来产生网格统计数据²⁴．由于缺乏地理编码的微数据，一些地区已经采用了分解(自顶向下方法)方法。在分解时，该地区的模型人口与实际人口之间的差异取决于行政单位的大小。在较大的行政单位中，人员的错位往往更高。该产品的整体质量取决于数据可用性，从奥地利每个地址和建筑物的0.1米到爱沙尼亚的100米不等²⁵(详见“GEOSTAT_grid_POP_1 K_2011_V2_0_QA.pdf”文件夹中的“geostat_grid - pop - 1k -2011- v2 -0-1”文件)。欧洲环境署公布了欧盟28国+欧洲自由贸易联盟国家的人口网格，约430万公里²拥有4.8亿居民²³．该数据可通过欧盟统计局免费提供，用于非商业用途。有关产品标准、方法和质量评估的更多详细信息，请访问GEOSTAT 1B项目网站²⁶．

Sentinel-2

哨兵2号任务²⁷该卫星于2015年6月由欧洲航天局(ESA)发射，由两颗相同的卫星2a和2B组成，彼此呈180度方向。Sentinel-2卫星提供13个光谱波段的多光谱光学图像，空间分辨率分别为10 m、20 m、60 m。因此，免费提供的Sentinel-2图像为人类住区的精细比例测绘提供了巨大的潜力。使用基于像素级分析的云检测方法，Sentinel-2数据的分析就绪无云马赛克已经实现²⁸．我们使用了所有四个季节的Sentinel-2图像集来捕捉数据中的季节变化。春季、夏季和秋季是从2017年开始，冬季是从2016年开始。

TanDEM-X数字高程模型

TanDEM-X任务的目标是创建高质量的地球3D地形图，其质量均匀，精度无与伦比。全球DEM产品的数据采集周期为2010年12月至2015年1月，全球DEM已于2016年9月制作完成。覆盖面积1.5亿公里²完整的地球大陆块和10米绝对高度精度(90%线性误差)²⁹，适用于各种环境研究，如土地覆盖及土地利用分析、城市规划、气候变化等。目前，TanDEM-X数字高程模型是全球最精确的数字高程模型(DEM)^30.．我们使用了免费的TanDEM-X 90米(3弧秒)DEM全球产品³¹其中包含了地球陆块的最终全球数字高程模型(DEM)³²．

本地气候带

当地气候区(LCZ)是一个免费的系统住房密度分类数据集，正式开发用于规范城市热岛研究³³．根据土地表面和性质，它由17种结构类型组成，其中10种是描述从紧凑的高层建筑到开放的低层建筑的建成区域，7种是自然区域，从密集的植被到裸露的土地。因此，每个区域的特征是建筑和土地覆盖属性。我们使用了分辨率为100米的城市本地气候带分类So2SatLCZ v1.0，该分类是通过深度学习融合来自Sentinel-1和Sentinel-2卫星的免费卫星数据生成的³⁴．该数据集中的斑块由15位领域专家根据当地气候带分类方案手工标记，然后进行为期6个月的可视化和定量评估过程。因此，这个基准数据集对城市学家、人口学家、气候学家和许多其他研究人员有潜在的用处。

夜晚的灯光

夜间观测灯光(NTL)与人口的空间分布有很强的相关性³⁵．我们研究了两种广泛使用的夜间灯光数据，DMPS-OLS和NPP-VIIRS卫星图像。具有更好的空间分辨率(15弧秒，约500米)的NPP-VIIRS在模拟社会经济指标方面具有更高的潜力³⁶．根据月平均数据得出的VIIRS夜间灯光的年度复合数据可免费获取2012 - 2019年(https://eogdata.mines.edu/products/vnl/)．我们使用VNL V2的屏蔽平均亮度版本，这是一个预处理版本，没有来自短暂事件的异常值³⁷．

OSM

OpenStreetMap (OSM) (http://www.openstreetmap.org)是一个开放的众包地图平台，根据开放数据共用开放数据库许可证(ODbL) (http://www.opendatacommons.org/licenses/odbl/1.0/)．在非常详细的级别上，地理引用的位置可以作为节点、路径或关系输入，并使用信息标记指定。这些地点包括任何类型的建筑物、街道、边界、水体等。³⁸．我们的数据集包含来自OSM数据的低级和高级特征。在低层次上，某地的某些节点(如超市、加油站、居民楼、学校等)数量较多，与附近的人口有很强的相关性。这种节点类型的简单计数器统计量是一个强有力的指标，可以作为人口密度估计的特征向量。作为高层特征，我们从OSM建筑标签中提取建筑功能来代表城市土地使用。这些信息与就业、社会支持和人口密切相关³⁹并表示人类活动与环境之间的相互作用。

数据预处理

我们对所有输入数据源采用两步预处理。在第一步中，已经创建了每个城市的输入数据。第二步包括为每个城市创建1 × 1公里的补丁。数字2概述了为每个城市创建输入数据所使用的所有数据的逐步预处理。所有输入数据都使用我们的算法定义的城市边界进行裁剪。DEM数据通过减去DEM平均值进行标准化，然后缩放到单位方差。为了匹配Sentinel-2 RGB波段的空间分辨率，其他数据源，如数字高程模型(DEM)、当地气候区(LCZ)和VIIRS夜间灯光(VIIRS)的采样已经上升到10米。由于输入数据集来自不同的来源，它们位于不同的坐标参考系(CRS)中。VIIRS位于WGS84 (EPSG:4326)， LCZ、DEM和SEN2数据位于Universal横向Mercator (UTM)带，人口网格位于EPSG:3035 - ETRS89-extended/LAEA Europe。为了使输入数据与人口网格保持一致，所有输入数据都已从相应的坐标系统重新投影到EPSG:3035坐标参考系统。

低级功能

OSM星球转储2017-07-03直接从OpenStreetMap存档下载(https://planet.osm.org/planet/2017/)．为了减少计算时间，只接触一次巨大的行星文件，我们提取每个对应城市的边界框，然后从这些提取的城市转储中提取1 × 1公里的补丁渗透命令行工具（https://github.com/openstreetmap/osmosis)．使用OSMnx python库提取城市每1 × 1 km补丁的OSM节点统计信息⁴⁰．表格1显示了经过统计分析的OSM标签。

表1考虑具有这些OSM标记的节点，对对应的1 × 1 km patch进行统计分析/计数。

全尺寸表

高级功能

为了创建土地使用数据，我们分析了OSM中三种不同的建筑标签:建筑，美化市容,商店．对于它们中的每一个，OSM都提供了关于可能值的指导方针。这三个标签总共有341个可能的值，它们映射到一个同质化和简化的土地利用分类方案:商业，工业，住宅,其他．由于这三个标记可以同时出现，因此我们要确保它们不会相互矛盾，并省略具有不一致值的建筑物。此外，标记被捕获为自由格式的文本字段，因此OSM贡献者不受限制地使用它们，而是可以输入任何文本。对语义信息进行同质化处理后，将构建多边形的矢量数据转化为栅格数据。栅格化值表示在栅格像素内构建多边形所覆盖的区域。对于缩放，我们将面积除以像素的面积，以得到一个像素被构建多边形覆盖的相对数量。将此程序应用于每个土地利用类别，将得到具有相应土地利用比例的四波段栅格。慕尼黑城市数据预处理第一步的输出如图所示。3.．

在第二步中，对于每个城市，我们使用第一步中处理的所有输入数据创建补丁。一个城市的人口网格被用作一个参考网格来裁剪所有其他输入数据。种群网格中每个网格单元的大小为1 × 1 km，每个网格单元代表该网格单元每平方公里的种群数量。沿着人口网格边界的网格单元可能属于两个相邻的城市。为了避免这种口是心非，即一个网格单元应该只属于一个城市，我们对所有单元应用了面积阈值。仅限面积大于90000m的单元²或面积~0.95 × 0.95 km已被认为是城市的一部分。这消除了城市边界中未完全包含的边缘网格单元。同样，参考Geostat种群网格也有一些缺失的单元格。缺失的细胞大多包含了无人居住的区域。这些区域覆盖着绿地和水体。我们在数据集中包含了这些缺失的细胞，以实现零种群预测。使用种群网格裁剪的补丁已被分配为对应网格单元的种群计数。其余失踪的无人居住区域已被指定为零人口计数。对于某些应用，如环境影响评估、土地利用分析、气候变化等，了解一个地区的人口范围就足够了。因此，我们通过将人口计数放入人口类来进一步预处理人口网格。 We assigned a grid cell, Class 0, if the population count of the cell is zero, C_细胞如果P = 0_细胞= 0和随后的_细胞2°≤P = 1_细胞< 2¹C_细胞如果2 = 2¹P≤_细胞< 2²C_细胞如果2 = 3²P≤_细胞< 2^3.C…_细胞=k2 = + 1^kP≤_细胞< 2^k＋1k\ (\ \)\ ({\ mathbb {N}} \)．对于我们的数据，的最大值k是16。这个离散化的过程受到了罗宾逊的启发等．¹⁰．因此，每个网格单元除了绝对总体计数外，还被分配了一个总体类。它将为最终用户提供更大的灵活性，可以根据应用程序的需求为任务开发回归或分类模型。

数字4说明了补丁创建过程。对于每个网格单元格，总共创建了9个补丁，每个数据源都创建了一个补丁。我们将一个网格单元对应的9个补丁称为补丁集。每个patch-set代表一个对应的种群网格单元的种群计数，以及一个种群类别，取决于网格单元的种群计数落在1 km分辨率的哪个bin。数字5描述数据集中的奇数类样本及其对应的补丁集、总体类和总体计数。下层阶级代表人口稀少的地区。属于下层的斑块大多是绿地、水体和裸露的土地。随着等级的增加，斑块中低层到密集的高层建筑区域很少。换句话说，从低阶层到高阶层的斑块代表了农村到城市的区域。

数据记录

最终数据集由So2Sat POP Part1两部分组成⁴¹So2Sat POP Part2⁴²．除OSM数据外，所有数据补丁都以GeoTiff图像的形式提供。除了原始OSM补丁，我们还提供从OSM数据中提取的特征作为单独的逗号分隔值(CSV)文件。So2Sat POP Part1由来自当地气候带、土地利用、夜间灯光、开放街道地图特征的补丁，以及来自Sentinel-2图像的各个季节(秋、夏、春、冬)的补丁组成，共计1,104,688个补丁。So2Sat POP Part2仅由数字高程模型和公开街道地图的补丁组成，共276,172个补丁。So2Sat POP Part1的存储需求为~ 96gb, So2Sat POP Part2的存储需求为~5.20 GB。

数据集结构和命名约定

数据集的两个部分都由预定义的训练和测试分割组成。在98个城市中，随机选择80个城市(约占数据的80%)作为训练集，其余18个城市(约占数据的20%)构成测试集。城市文件夹已命名为xxxx_xxxxx_city_name,xxxx_xxxxx构成随机生成的识别号码和城市的邮政编码。

数字高程模型(民主党)、本地气候区(LCZ)、土地用途(陆)、夜间灯光(VIIRS)、Sentinel-2秋季数据(sen2autumn)， Sentinel-2弹簧数据(sen2spring)、Sentinel-2夏季数据(sen2summer)、Sentinel-2冬季数据(sen2winter)、公开街道地图(OSM)及其对应的提取特征(osm_features)为已利用的输入来源。So2Sat POP Part1中的所有城市文件夹包含7个子文件夹，每个文件夹用于除OSM和DEM数据之外的输入数据源，一个单独的文件夹用于处理OSM特征，一个以逗号分隔的值(* . csv)文件，该文件包含每个补丁的绝对种群计数和种群类别。在So2Sat POP Part2中，城市文件夹包含Open Street Map和数字高程模型数据子文件夹。所有数据文件夹都有它们的类子文件夹。类文件夹被命名为Class_x在哪里x表示类号。一个城市的类文件夹数量取决于它的人口分布。例如，马拉加拥有最高的类别文件夹为16，因为该市1 × 1公里区域内的最高人口数量为39535，而里加的最高人口数量为15839，因此其城市文件夹中的最高类别文件夹为14。已使用其对应种群网格单元的命名约定为补丁分配了唯一标识代码。网格单元格的命名(基于LAEA网格)以单元格的大小(1 km)开始，然后是左下角的坐标(km)，从字母开始N其次是纬度和E接着是经度，例如:1 kmn4101e4453²⁴．对于与种群网格中的网格单元不对应的补丁，只给出一个数字标识号。

访问和可用性

该数据集可在慕尼黑工业大学(TUM)官方媒体图书馆提供的持久链接上下载。So2Sat POP Part 1 (https://mediatum.ub.tum.de/1633792)根据创作共用属性4.0国际许可协议(http://creativecommons.org/licenses/by/4.0/)及So2Sat POP Part 2 (https://mediatum.ub.tum.de/1633795)是根据创作共用署名相似分享国际许可协议(http://creativecommons.org/licenses/冲锋队/ 4.0 /)。请在使用数据集时引用本文。

技术验证

为了证明数据集对总体估计的适用性，我们实现了流行的随机森林(RF)算法⁴³，因为它的灵活性、处理噪声输入数据的效率和相对抗过拟合⁴⁴．随机森林算法的另一个优点是很容易衡量每个特征对预测的相对重要性。我们使用scikit-learn库在Python中实现了监督随机森林算法，用于回归和分类任务。我们使用网格搜索来自动微调要生长的树的数量，以及考虑拆分节点的最大特征数量，并通过10倍交叉验证来评估性能。为了训练模型，从80个列车组城市的所有输入数据补丁中构建了不同的特征。所构建的特征包括仅从Sentinel-2图像的RGB波段提取的最小值、最大值、平均值、中值和标准差，数字高程模型和夜灯的平均值和最大值，土地利用中每个类别所覆盖的总面积，局部气候区的大多数类别，以及基于osm的特征，如街道密度、公路、铁路的存在等，这些特征都是从osm斑块中提取的。使用这个过程，我们为每个补丁计算了125个特征。在回归中，我们使用绝对总体数作为响应变量，而在分类中，使用类别标签作为ground truth。

训练后的模型在18个未见过的测试城市上进行了评估。数字6仅显示由随机森林算法选择的12个最相关的特征，并用于估计测试数据集的总体计数和总体类。从OSM数据、夜灯和LCZ类中提取的特征被列为两个任务中最重要的特征。对于回归，我们计算了均方根误差(RMSE)和平均绝对误差(MAE)。表格2表示回归模型的性能。由于非城市地区的比例高于城市地区，数据集是不平衡的，我们使用平衡精度来评估分类性能。此外，我们使用宏观平均精度、召回率和f1评分指标来平等对待每个类别，而不考虑任何不平衡。表格3.总结了分类结果。为了进一步描述分类模型的性能，我们在测试数据集上绘制了一个标准化的混淆矩阵。数字7 (b)说明该模型在预测较高阶层(城市地区)时很有信心，而在较低阶层(代表人口稀少地区)时表现不佳。最初的三个类别(类别1、2和3)表示人口数量在1 - 8范围内的区域，并且这三个类别之间的特征可能没有足够的区分。因此，区分第一类和第三类补丁变得非常困难。一个简单的解决方案是合并这些初始类，它们表示小于8的总体计数范围。它可以在不丢失任何关键信息的情况下显著改善结果。为了给用户更多的灵活性，我们提供的数据集没有任何此类后处理，并且可以根据具体需求轻松地重新排列。对于回归，为了直观地评估模型拟合，我们绘制了网格单元的实际总体计数与测试数据的每个网格单元的预测总体计数。数字7(一)说明对于种群数量较多的斑块，模型低估了实际值，而对于种群数量小于15000的斑块，模型拟合较好。我们相信，通过更复杂的特征和机器学习方法，可以开发出一个强大的模型来估计使用我们的数据集的人口。

表2随机森林模型在测试数据集上估计种群数的评价。

全尺寸表

表3随机森林模型在测试数据集上预测种群类别的评价

全尺寸表

使用笔记

在本文中，我们提出了一个独特的数据集，它结合了多个数据源，这些数据源以前在该领域的跨国层面上没有被探索过。我们的数据集涵盖了欧洲的许多城市，因此提供了不同的地形和人口。此外，不同数据源的融合提供了关于一个地区的景观和其他社会人口属性的更多信息。

能否获得精确和详细的人口数据因国而异。在我们的数据集中用作参考网格的人口网格在整个欧洲都可用，分辨率一致为1公里，然而，其精度可能因一国可用数据的质量而异。此外，参考人口网格基于2011年人口和住房普查数据，而其他输入数据源属于不同的时间框架，例如，Sentinel-2数据属于2016年，因为任务本身已于2015年启动。收集人口数据与其他相应输入数据之间的时间差可能会给评估带来一些噪声。通常情况下，人口普查每十年进行一次，因此要收集同一年的其他相应数据就变得非常困难，特别是从多个数据源收集数据时。我们仍然相信这个数据集将有助于在这个领域发展基于机器学习的方法。此外，由于没有免费的基准数据集，对不同方法的评估一直是一个挑战。因此，我们希望这个数据集将有助于比较和评估不同的方法在最先进的状态。

使用Python语言，使用geospatial data Abstraction Library (geospatial data Abstraction Library, GDAL)、Geopandas、Fiona、Rasterio等常用的地理空间数据库进行数据准备。我们的计算系统由一个HPC服务器和2个AMD EPYC ROME 7402 cpu(48核)组成，需要5-6天来完成OSM补丁文件及其统计。除了补丁，我们还为每个城市提供了逗号分隔值(Comma Separated Value, CSV)文件，其中包含每个网格单元的实际人口计数及其对应的人口类。因此，最终用户可以根据用例的需求，使用相应的总体计数重新排列数据集。

我们希望这一基本数据集将使开发新的统计和机器学习方法成为可能，从而以更高的空间分辨率获得人口，但更一致。今天各国的人口数据集往往缺乏这种一致性。该数据集旨在为改进各种应用领域的比较研究奠定基础。这个改进后的人口分布数据库可以成为学术和非学术领域的中心资料。无论是作为空间或城市规划的必要信息，如提供居住空间或社会技术基础设施，还是在风险分析或事件协调的现场，还是在人口普查的验证、支持或更新中，还是在关于一般移徙和更具体地说，关于城市化或郊区化趋势等主题的比较研究中。

代码的可用性

Python用于所有的分析和实现。为每个城市创建功能并运行基线实验的代码可在我们的GitHub项目(https://github.com/zhu-xlab/So2Sat-POP)．

参考文献

麦克唐纳，r.i。等．城市发展、气候变化和淡水供应。美国国家科学院院刊108， 6312-6317(2011)。
文章广告中科院谷歌学者
绘制分母:测量进步的空间人口学。国际卫生6， 153-155(2014)。
文章 PubMed 公共医学中心谷歌学者
McGranahan, G.， Balk, D. & Anderson, B.上升的潮汐:评估低海拔沿海地区气候变化和人类住区的风险。环境与城市化19， 17-37(2007)。
文章谷歌学者
张X。等．将城市化与空气质量联系在一起:对未来可持续城市发展的回顾和展望。清洁生产杂志130988(2022)。
城市化和粮食不安全风险:评估人类发展的作用。牛津发展研究44， 28-48(2016)。
文章谷歌学者
Leyk, S。等．人口空间配置:大规模网格化人口数据产品及其适用性综述。地球系统科学数据11， 1385-1409(2019)。
文章广告谷歌学者
吴世生，邱晓霞，王磊。gis与遥感中的人口估计方法综述。gis科学与遥感42， 80-96(2005)。
文章谷歌学者
史蒂文斯，F. R.，高恩，A. E.， Linard, C. & Tatem, A. J.利用随机森林与遥感和辅助数据进行人口测绘的人口普查数据分解。《公共科学图书馆•综合》10， e0107042(2015)。
文章 PubMed 公共医学中心谷歌学者
杜普，P.， Bruzelius, E.， Faghmous, J. & Ruchman, S. G.通过深度学习的公平发展:次国家人口密度估计的案例。在第七届计算机促进发展年度研讨会论文集， 1-10(2016)。
Robinson, C.， Hohman, F. & Dilkina, B.一种从卫星图像进行人口估计的深度学习方法。在第一届ACM SIGSPATIAL地理空间人文研讨会论文集， 47-54(2017)。
胡,W。等．绘制印度农村失踪人口:卫星图像的深度学习方法。在2019年AAAI/ACM人工智能、伦理和社会会议记录， 353-359(2019)。
Freire, S.， MacManus, K.， Pesaresi, M.， Doxsey-Whitfield, E. & Mills, J.以2.5亿分辨率开发新的开放和免费的多时间全球人口网格(2016)。
WorldPop。南安普顿大学地理与环境科学学院;路易斯维尔大学地理与地球科学系;哥伦比亚大学地理系和国际地球科学信息网络中心(ciesin)。比尔和梅琳达·盖茨基金会资助的全球高分辨率人口分母项目(OPP1134076)(2018)。
Bhaduri, B, Bright, E. & Coleman, P. & Dobson, J. Landscan。Geoinformatics5， 34-37(2002)。
谷歌学者
陈锐，闫宏，刘峰，杜文伟，杨勇。全球人口数据集的差异与空间分布特征。国际地理信息杂志9， 637(2020)。
文章广告谷歌学者
Sliuzas, R.， Kuffer, M. & Kemper, T.为乌干达坎帕拉评估全球人类住区层产品的质量。在2017城市遥感联合活动(JURSE)， 1-4 (ieee, 2017)。
联合国，美国。《世界城市化展望:2014年修订版》(联合国，2014)。
栖息地,U。2012/2013年世界城市状况:城市繁荣(出版社,2013)。
Taubenbock, H。等．世界上最大城市的新排名——行政单位是否掩盖了形态的现实?环境遥感232， 111353(2019)。
文章广告谷歌学者
每,T。等．开辟了从太空绘制人类住区的新领域——全球城市足迹。摄影测量与遥感杂志134， 30-42(2017)。
文章广告谷歌学者
利用栅格像素图快速简化基于dasymetric的人口插值。计算机、环境和城市系统“，31， 19-32(2007)。
文章谷歌学者
欧洲联盟的人口密度网格。人口与环境31， 460-473(2010)。
文章谷歌学者
Efgs - essnet项目geostat 1b -最终报告。https://www.efgs.info/wp-content/uploads/geostat/1b/GEOSTAT1B-final-technical-report.pdf．访问日期:2022-10-05。
欧盟统计局gisco geostat 1公里²人口网格。https://ec.europa.eu/eurostat/web/gisco/geodata/reference-data/population-distribution-demography/geostat．访问日期:2022-10-05(2011)。
Efgs - essnet项目geostat 1b - geostat 2011质量评估。http://www.efgs.info/wp-content/uploads/geostat/1b/GEOSTAT1B-Appendix17-GEOSTAT-grid-POP-1K-ALL-2011-QA.pdf．访问日期:2022-10-05。
Drusch, M。等．Sentinel-2:欧空局用于奥运会运营服务的光学高分辨率任务。环境遥感120， 25-36(2012)。
文章广告谷歌学者
Schmitt M. Hughes L. H. Qiu C. & Zhu x.x .用谷歌地球引擎聚合无云Sentinel-2图像。在摄影测量、遥感和空间信息科学年鉴，卷IV-2/W7, 145-152，https://doi.org/10.5194/isprs-annals-IV-2-W7-145-2019(2019)。
韦塞尔,B。等．基于gps数据的全球串联x数字高程模型精度评估。摄影测量与遥感杂志139， 171-182(2018)。
文章广告谷歌学者
每,T。等．联合分析tandem-x、sentinel-2和开放街道地图数据，对建筑环境进行大规模三维建模。遥感12， 2391(2020)。
文章广告谷歌学者
德国航空航天中心Tandem-x -数字高程模型(dem) -全球，90米。德国航空航天中心https://doi.org/10.15489/ju28hc7pui09(2018)。
韦塞尔，B.串联-x地面分段- dem产品规范文件。EOC, DLR, Oberpfaffenhofen，德国，公开文献TD-GS-PS-0021，第3.2期。(在线)。网上:https://tandemx-science.dlr.de/(2018)。
Stewart, i.d. & Oke, T. R.局地气候带:城市热岛研究的起源、发展和应用。在美国地理学家协会年会论文集，西雅图，华盛顿州，美国12日至16日。访问日期:2022-06-21(2011)。
朱某某。等．So2sat lcz42:全球局部气候带分类的基准数据集[软件和数据集]。IEEE地球科学与遥感杂志8, 76 - 89,https://doi.org/10.14459/2018mp1483140(2020)。
刘琪，萨顿，P. C. & Elvidge, C. D.香港夜间影像与人口密度的关系。Proc, Asia-Pac。放置Netw31， 79(2011)。
谷歌学者
施,K。等．评价npp-viirs夜间灯光数据在多个尺度上估计中国国内生产总值和用电量的能力:与dmsp-ols数据的比较遥感6， 1705-1724(2014)。
文章广告谷歌学者
埃尔维奇，郑德昌，智珍，M，高希，T。& Taneja, J.根据月平均值得出的全球viirs夜间灯光年度时间序列:2012年至2019年。遥感13, 922,https://doi.org/10.3390/rs13050922(2021)。
文章广告谷歌学者
地图功能文档wiki。https://wiki.openstreetmap.org/wiki/Map_features．访问时间:2021-08-21。
李晓霞，王勇，李娟，雷斌。土地利用-土地覆盖变化的物理和社会经济驱动力——以武汉市为例。自然与社会的离散动力学2016(2016)。
波音，G. Osmnx:获取、构建、分析和可视化复杂街道网络的新方法。计算机、环境和城市系统“，65, 126 - 139,https://doi.org/10.1016/j.compenvurbsys.2017.05.004(2017)。
文章谷歌学者
Doda, S。等．So2sat流行部分1，介质https://doi.org/10.14459/2021mp1633792(2022)。
Doda, S。等．So2sat流行部分2，介质https://doi.org/10.14459/2021mp1633795(2022)。
随机森林。机器学习45， 5-32(2001)。
文章数学谷歌学者
Grippa, T。等．利用高分辨率卫星信息改进城市人口分布模型。数据4， 13(2019)。
文章谷歌学者

下载参考

确认

这项研究由欧洲研究委员会(ERC)在欧盟地平线2020研究和创新计划下资助，资助号为ERC-2016- stg -714087(首字母缩写:So2Sat，项目网站:www.so2sat.eu)，亥姆霍兹协会框架下的亥姆霍兹人工智能(授权号:ZT-I-PF-5-01) -地方单位“慕尼黑单位@航空、空间和运输(master)”，亥姆霍兹优秀教授“地球观测数据科学-城市研究大数据融合”(授权号:W2-W3-100)和德国联邦教育和研究部(BMBF)框架下的国际未来人工智能实验室“AI4EO -地球观测人工智能:“推理、不确定性、伦理及超越”(批准号:01DD20001)。此外，Sugandha Doda还得到了联合研究学校“慕尼黑数据科学学院- MUDS”下的Helmholtz协会的支持。

资金

由Projekt DEAL启动和组织的开放获取资金。

作者信息

作者及隶属关系

慕尼黑工业大学航空航天与大地测量系地球观测数据科学主席，Arcisstraße 21，慕尼黑，80333，德国
Sugandha Doda，王媛媛，Matthias Kahl, Eike Jens Hoffmann, Kim Ouan和朱晓翔
德国遥感数据中心，德国航空航天中心，Münchener Straße 20, Weßling, 82234，德国
汉斯·Taubenbock
德国地理与地质研究所，Julius-Maximilians-Universität Würzburg, Würzburg, 97074
汉斯·Taubenbock

作者

Sugandha Doda

查看作者出版物

您也可以在PubMed谷歌学者
王渊源

查看作者出版物

您也可以在PubMed谷歌学者
马蒂亚斯•卡尔

查看作者出版物

您也可以在PubMed谷歌学者
艾克·延斯·霍夫曼

查看作者出版物

您也可以在PubMed谷歌学者
金正日Ouan

查看作者出版物

您也可以在PubMed谷歌学者
汉斯·Taubenbock

查看作者出版物

您也可以在PubMed谷歌学者
朱晓翔

查看作者出版物

您也可以在PubMed谷歌学者

贡献

S.D.起草手稿，S.D.， e.h.， M.K.和K.O.进行数据准备，S.D.实施并进行实验，S.D.对结果进行技术验证。s.d.， X.Z, y.w.， H.T.和M.K.编辑了手稿。所有作者都阅读并批准了手稿的最终版本。

相应的作者

对应到朱晓翔．

道德声明

相互竞争的利益

作者声明没有利益竞争。

额外的信息

出版商的注意施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International License)，允许以任何媒介或格式使用、分享、改编、分发和复制，只要您对原作者和来源给予适当的署名，提供知识共享许可协议的链接，并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可中，除非在材料的信用额度中另有说明。如果内容未包含在文章的创作共用许可协议中，并且您的预期使用不被法定法规所允许或超出了允许的使用范围，您将需要直接获得版权所有者的许可。要查看此许可证的副本，请访问http://creativecommons.org/licenses/by/4.0/．

转载及权限

关于本文

引用本文

多多，S，王，Y，卡尔，M。et al。So2Sat POP -一个精心策划的基准数据集，用于在大陆尺度上从空间估计人口。科学数据9， 715(2022)。https://doi.org/10.1038/s41597-022-01780-x

下载引用

收到了：2022年1月21日
接受：10月14日
发表：11月19日
DOI：https://doi.org/10.1038/s41597-022-01780-x

主题

摘要

背景与总结

方法

算法1

输入数据源

人口数据

Sentinel-2

TanDEM-X数字高程模型

本地气候带

夜晚的灯光

OSM

数据预处理

低级功能

高级功能

数据记录

数据集结构和命名约定

访问和可用性

技术验证

使用笔记

代码的可用性

参考文献

确认

资金

作者信息

作者及隶属关系

贡献

相应的作者

道德声明

相互竞争的利益

额外的信息

权利和权限

关于本文

引用本文

分享本文

搜索

快速链接