背景与总结

城市的快速城市化正在导致环境问题,如气候变化、食物和水短缺、空气质量差、森林砍伐等123.45.要了解城市化的主要趋势,人口估计起着至关重要的作用。传统上,人口估计是通过人口普查来完成的。在这个程序中,一个行政单位或人口普查单位系统地收集和汇编人口数据。数据的准确性取决于行政单位的数量和规模、收集方法、调查的完整性,在农村和城市地区差异很大6

近年来,统计和机器学习方法已被直接应用于遥感数据来估计人口分布67.一般来说,这些方法要么应用于较小的区域,要么基于一些特定国家的数据,如建筑足迹或其他在其他国家不容易获得的详细地理空间数据集。史蒂文斯8使用随机森林方法估算越南、柬埔寨和肯尼亚100亿分辨率的人口。他们纳入了广泛的遥感和地理空间数据集,如到道路的距离、卫生设施、海拔、土地覆盖、植被、定居点和夜间灯光,并使用了从柬埔寨国家统计局、越南国家统计局和肯尼亚国家统计局收集的特定国家人口普查数据。Doupe9提出了一种新的方法,使用卷积神经网络(CNN),通过结合Landsat-7卫星图像和(DMSP/OLS)夜间灯光来估计人口。他们用2.5亿卫星像素分辨率的坦桑尼亚数据训练模型,并以8公里分辨率估计肯尼亚人口。他们已经发布了用于重建坦桑尼亚和肯尼亚数据集的代码。Robinson提出了另一种类似CNN的方法10他们准备了来自美国人口普查汇总网格的数据,并结合陆地卫星图像,以1公里分辨率估计美国各县的人口。胡11还提出了一种深度学习方法,将陆地卫星8号和哨兵1号的卫星图像结合起来,并使用社会经济种姓普查调查得出印度的人口密度。在上述大多数方法中,要么数据无法下载,要么只能重建少数城市的数据。其他网格人口产品包括全球人类住区人口网格(GHS-POP)12, WorldPop13橡树岭国家实验室的LandScan14、高分辨率沉降层(HRSL)15等等。数据集中使用的估计方法和辅助数据的差异导致了不同的结果6.很少有研究通过比较网格化人口产品的估计和实际人口计数来评估和比较其准确性1617.然而,这些研究需要收集和处理人口普查数据。因此,重现结果或比较方法变得困难和耗时。

利用我们的数据集,我们的目标是通过提供98个欧洲城市人口估计的系统回归和分类方案来填补这些空白。这些城市涵盖了28个欧盟成员国和4个欧洲自由贸易联盟国家。它代表了各国广泛的地形、人口和建筑设计。它将节省收集和处理新数据集以开发和验证方法的成本。数据集包括数字高程模型(DEM)、当地气候区(LCZ)、土地利用比例(LU)和夜间灯光(VIIRS),结合多光谱Sentinel-2图像(SEN2)和来自开放街道地图计划(OSM)的数据。在人口估计领域,这种多数据源组合还没有被探索过。我们期望这将是一个有价值的补充,为研究社区发展复杂的方法在人口估计领域。

在本文中,我们通过提供一个从公开数据集创建的基准数据集,为当前的文献做出了贡献。我们研究了大量城市多源数据的融合。为了展示我们数据集的潜在能力,我们使用从输入数据中提取的特征来训练随机森林模型,以估计我们测试数据集上的总体。初步结果表明,利用So2Sat POP数据集开发强大的机器学习方法具有可以想象的潜力。

方法

我们感兴趣的区域(ROI)分布在欧洲(图2)。1).首先,我们根据联合国2014年世界城市化展望修订版,选择了2014年欧洲所有人口在30万或以上的城市18.在这些城市中,我们根据人口数据的可用性选择了106个城市。通常,城市可以被描述为由行政边界定义的永久性大型人类住区。然而,定义行政边界可能非常棘手,因为它会随着人口普查区的合并或分裂而变化。城市的向外扩张远远超出了它们正式的行政边界1920..所以,我们使用了一种算法来确定城市的范围。联合国《世界城市化展望——2014年修订版》中列出的城市中心坐标18已被用作与全球城市足迹(GUF)相结合的起点21它提供了城市和非城市地区的二元掩码。根据GUF,以每个城市坐标为中心的矩形自适应地向外生长,直到矩形面积的一半不再建立。为了考虑到快速的城市化,矩形的每边都被扩大了两倍(即面积的四倍)。由于两个相邻城市的矩形可能与另一个城市相交,因此使用一组规则将相交区域分配给两个城市中的一个,并确保每个城市的范围覆盖唯一的区域。算法1总结了这组规则。该算法以递归和降序运行,从相对重叠度最高的城市开始。根据这套规则,城市一个要么合并为城市b或者重叠的部分被分配到城市一个并从城市b,取决于重叠区域的相对大小。为了处理这些重叠,城市的数量被合并为98个。根据每个城市定义的范围,我们处理并准备了以下输入数据源。

图1
图1

上图中的橙色圆点表示我们研究中选定的欧盟城市的位置。

算法1

交叉区域的分配-伪代码。

输入数据源

人口数据

一般来说,特定国家的人口普查局按行政单位的层次提供人口数据。行政单位规模的异质性使得数据难以直接用于分析。在这种情况下,具有统一大小的网格单元的网格化种群产品提供详细和一致的种群图。生成网格化人口产品最常见的方法是在土地利用和土地覆盖图等辅助数据的条件下,将人口普查计数从行政级别重新分配到精细网格单元,这种方法也称为大尺度测绘22

欧洲统计系统(ESSnet)项目与欧洲地理和统计论坛(EFGS)合作,目的是根据欧洲人口普查编制高分辨率(1公里)人口网格。该方法基于数据的可用性,包括聚合、分解和混合方法。聚合(自底向上的方法)被认为是生成人口网格的最佳方法23.在这个项目中,大约有18个国家正在使用汇总或至少混合方法来产生网格统计数据24.由于缺乏地理编码的微数据,一些地区已经采用了分解(自顶向下方法)方法。在分解时,该地区的模型人口与实际人口之间的差异取决于行政单位的大小。在较大的行政单位中,人员的错位往往更高。该产品的整体质量取决于数据可用性,从奥地利每个地址和建筑物的0.1米到爱沙尼亚的100米不等25(详见“GEOSTAT_grid_POP_1 K_2011_V2_0_QA.pdf”文件夹中的“geostat_grid - pop - 1k -2011- v2 -0-1”文件)。欧洲环境署公布了欧盟28国+欧洲自由贸易联盟国家的人口网格,约430万公里2拥有4.8亿居民23.该数据可通过欧盟统计局免费提供,用于非商业用途。有关产品标准、方法和质量评估的更多详细信息,请访问GEOSTAT 1B项目网站26

Sentinel-2

哨兵2号任务27该卫星于2015年6月由欧洲航天局(ESA)发射,由两颗相同的卫星2a和2B组成,彼此呈180度方向。Sentinel-2卫星提供13个光谱波段的多光谱光学图像,空间分辨率分别为10 m、20 m、60 m。因此,免费提供的Sentinel-2图像为人类住区的精细比例测绘提供了巨大的潜力。使用基于像素级分析的云检测方法,Sentinel-2数据的分析就绪无云马赛克已经实现28.我们使用了所有四个季节的Sentinel-2图像集来捕捉数据中的季节变化。春季、夏季和秋季是从2017年开始,冬季是从2016年开始。

TanDEM-X数字高程模型

TanDEM-X任务的目标是创建高质量的地球3D地形图,其质量均匀,精度无与伦比。全球DEM产品的数据采集周期为2010年12月至2015年1月,全球DEM已于2016年9月制作完成。覆盖面积1.5亿公里2完整的地球大陆块和10米绝对高度精度(90%线性误差)29,适用于各种环境研究,如土地覆盖及土地利用分析、城市规划、气候变化等。目前,TanDEM-X数字高程模型是全球最精确的数字高程模型(DEM)30..我们使用了免费的TanDEM-X 90米(3弧秒)DEM全球产品31其中包含了地球陆块的最终全球数字高程模型(DEM)32

本地气候带

当地气候区(LCZ)是一个免费的系统住房密度分类数据集,正式开发用于规范城市热岛研究33.根据土地表面和性质,它由17种结构类型组成,其中10种是描述从紧凑的高层建筑到开放的低层建筑的建成区域,7种是自然区域,从密集的植被到裸露的土地。因此,每个区域的特征是建筑和土地覆盖属性。我们使用了分辨率为100米的城市本地气候带分类So2SatLCZ v1.0,该分类是通过深度学习融合来自Sentinel-1和Sentinel-2卫星的免费卫星数据生成的34.该数据集中的斑块由15位领域专家根据当地气候带分类方案手工标记,然后进行为期6个月的可视化和定量评估过程。因此,这个基准数据集对城市学家、人口学家、气候学家和许多其他研究人员有潜在的用处。

夜晚的灯光

夜间观测灯光(NTL)与人口的空间分布有很强的相关性35.我们研究了两种广泛使用的夜间灯光数据,DMPS-OLS和NPP-VIIRS卫星图像。具有更好的空间分辨率(15弧秒,约500米)的NPP-VIIRS在模拟社会经济指标方面具有更高的潜力36.根据月平均数据得出的VIIRS夜间灯光的年度复合数据可免费获取2012 - 2019年(https://eogdata.mines.edu/products/vnl/).我们使用VNL V2的屏蔽平均亮度版本,这是一个预处理版本,没有来自短暂事件的异常值37

OSM

OpenStreetMap (OSM) (http://www.openstreetmap.org)是一个开放的众包地图平台,根据开放数据共用开放数据库许可证(ODbL) (http://www.opendatacommons.org/licenses/odbl/1.0/).在非常详细的级别上,地理引用的位置可以作为节点、路径或关系输入,并使用信息标记指定。这些地点包括任何类型的建筑物、街道、边界、水体等。38.我们的数据集包含来自OSM数据的低级和高级特征。在低层次上,某地的某些节点(如超市、加油站、居民楼、学校等)数量较多,与附近的人口有很强的相关性。这种节点类型的简单计数器统计量是一个强有力的指标,可以作为人口密度估计的特征向量。作为高层特征,我们从OSM建筑标签中提取建筑功能来代表城市土地使用。这些信息与就业、社会支持和人口密切相关39并表示人类活动与环境之间的相互作用。

数据预处理

我们对所有输入数据源采用两步预处理。在第一步中,已经创建了每个城市的输入数据。第二步包括为每个城市创建1 × 1公里的补丁。数字2概述了为每个城市创建输入数据所使用的所有数据的逐步预处理。所有输入数据都使用我们的算法定义的城市边界进行裁剪。DEM数据通过减去DEM平均值进行标准化,然后缩放到单位方差。为了匹配Sentinel-2 RGB波段的空间分辨率,其他数据源,如数字高程模型(DEM)、当地气候区(LCZ)和VIIRS夜间灯光(VIIRS)的采样已经上升到10米。由于输入数据集来自不同的来源,它们位于不同的坐标参考系(CRS)中。VIIRS位于WGS84 (EPSG:4326), LCZ、DEM和SEN2数据位于Universal横向Mercator (UTM)带,人口网格位于EPSG:3035 - ETRS89-extended/LAEA Europe。为了使输入数据与人口网格保持一致,所有输入数据都已从相应的坐标系统重新投影到EPSG:3035坐标参考系统。

图2
图2

逐步预处理所有输入数据源,为每个城市准备相应的输入数据。

低级功能

OSM星球转储2017-07-03直接从OpenStreetMap存档下载(https://planet.osm.org/planet/2017/).为了减少计算时间,只接触一次巨大的行星文件,我们提取每个对应城市的边界框,然后从这些提取的城市转储中提取1 × 1公里的补丁渗透命令行工具https://github.com/openstreetmap/osmosis).使用OSMnx python库提取城市每1 × 1 km补丁的OSM节点统计信息40.表格1显示了经过统计分析的OSM标签。

表1考虑具有这些OSM标记的节点,对对应的1 × 1 km patch进行统计分析/计数。

高级功能

为了创建土地使用数据,我们分析了OSM中三种不同的建筑标签:建筑美化市容,商店.对于它们中的每一个,OSM都提供了关于可能值的指导方针。这三个标签总共有341个可能的值,它们映射到一个同质化和简化的土地利用分类方案:商业工业住宅,其他.由于这三个标记可以同时出现,因此我们要确保它们不会相互矛盾,并省略具有不一致值的建筑物。此外,标记被捕获为自由格式的文本字段,因此OSM贡献者不受限制地使用它们,而是可以输入任何文本。对语义信息进行同质化处理后,将构建多边形的矢量数据转化为栅格数据。栅格化值表示在栅格像素内构建多边形所覆盖的区域。对于缩放,我们将面积除以像素的面积,以得到一个像素被构建多边形覆盖的相对数量。将此程序应用于每个土地利用类别,将得到具有相应土地利用比例的四波段栅格。慕尼黑城市数据预处理第一步的输出如图所示。3.

图3
图3

使用数据预处理的第一步创建的慕尼黑城市的所有输入数据。

在第二步中,对于每个城市,我们使用第一步中处理的所有输入数据创建补丁。一个城市的人口网格被用作一个参考网格来裁剪所有其他输入数据。种群网格中每个网格单元的大小为1 × 1 km,每个网格单元代表该网格单元每平方公里的种群数量。沿着人口网格边界的网格单元可能属于两个相邻的城市。为了避免这种口是心非,即一个网格单元应该只属于一个城市,我们对所有单元应用了面积阈值。仅限面积大于90000m的单元2或面积~0.95 × 0.95 km已被认为是城市的一部分。这消除了城市边界中未完全包含的边缘网格单元。同样,参考Geostat种群网格也有一些缺失的单元格。缺失的细胞大多包含了无人居住的区域。这些区域覆盖着绿地和水体。我们在数据集中包含了这些缺失的细胞,以实现零种群预测。使用种群网格裁剪的补丁已被分配为对应网格单元的种群计数。其余失踪的无人居住区域已被指定为零人口计数。对于某些应用,如环境影响评估、土地利用分析、气候变化等,了解一个地区的人口范围就足够了。因此,我们通过将人口计数放入人口类来进一步预处理人口网格。 We assigned a grid cell, Class 0, if the population count of the cell is zero, C细胞如果P = 0细胞= 0和随后的细胞2°≤P = 1细胞< 21C细胞如果2 = 21P≤细胞< 22C细胞如果2 = 32P≤细胞< 23.C…细胞=k2 = + 1kP≤细胞< 2k+1k\ (\ \)\ ({\ mathbb {N}} \).对于我们的数据,的最大值k是16。这个离散化的过程受到了罗宾逊的启发10.因此,每个网格单元除了绝对总体计数外,还被分配了一个总体类。它将为最终用户提供更大的灵活性,可以根据应用程序的需求为任务开发回归或分类模型。

数字4说明了补丁创建过程。对于每个网格单元格,总共创建了9个补丁,每个数据源都创建了一个补丁。我们将一个网格单元对应的9个补丁称为补丁集。每个patch-set代表一个对应的种群网格单元的种群计数,以及一个种群类别,取决于网格单元的种群计数落在1 km分辨率的哪个bin。数字5描述数据集中的奇数类样本及其对应的补丁集、总体类和总体计数。下层阶级代表人口稀少的地区。属于下层的斑块大多是绿地、水体和裸露的土地。随着等级的增加,斑块中低层到密集的高层建筑区域很少。换句话说,从低阶层到高阶层的斑块代表了农村到城市的区域。

图4
图4

补丁创建过程,数据预处理的第二步。对于填充网格中的每个单元格,已经裁剪了所有输入数据源。每片面积为1 × 1 km。

图5
图5

样本补丁从我们的数据集中奇数类。低等级描绘人口稀少的地区,而高等级描绘人口稠密的地区。

数据记录

最终数据集由So2Sat POP Part1两部分组成41So2Sat POP Part242.除OSM数据外,所有数据补丁都以GeoTiff图像的形式提供。除了原始OSM补丁,我们还提供从OSM数据中提取的特征作为单独的逗号分隔值(CSV)文件。So2Sat POP Part1由来自当地气候带、土地利用、夜间灯光、开放街道地图特征的补丁,以及来自Sentinel-2图像的各个季节(秋、夏、春、冬)的补丁组成,共计1,104,688个补丁。So2Sat POP Part2仅由数字高程模型和公开街道地图的补丁组成,共276,172个补丁。So2Sat POP Part1的存储需求为~ 96gb, So2Sat POP Part2的存储需求为~5.20 GB。

数据集结构和命名约定

数据集的两个部分都由预定义的训练和测试分割组成。在98个城市中,随机选择80个城市(约占数据的80%)作为训练集,其余18个城市(约占数据的20%)构成测试集。城市文件夹已命名为xxxx_xxxxx_city_name,xxxx_xxxxx构成随机生成的识别号码和城市的邮政编码。

数字高程模型(民主党)、本地气候区(LCZ)、土地用途()、夜间灯光(VIIRS)、Sentinel-2秋季数据(sen2autumn), Sentinel-2弹簧数据(sen2spring)、Sentinel-2夏季数据(sen2summer)、Sentinel-2冬季数据(sen2winter)、公开街道地图(OSM)及其对应的提取特征(osm_features)为已利用的输入来源。So2Sat POP Part1中的所有城市文件夹包含7个子文件夹,每个文件夹用于除OSM和DEM数据之外的输入数据源,一个单独的文件夹用于处理OSM特征,一个以逗号分隔的值(* . csv)文件,该文件包含每个补丁的绝对种群计数和种群类别。在So2Sat POP Part2中,城市文件夹包含Open Street Map和数字高程模型数据子文件夹。所有数据文件夹都有它们的类子文件夹。类文件夹被命名为Class_x在哪里x表示类号。一个城市的类文件夹数量取决于它的人口分布。例如,马拉加拥有最高的类别文件夹为16,因为该市1 × 1公里区域内的最高人口数量为39535,而里加的最高人口数量为15839,因此其城市文件夹中的最高类别文件夹为14。已使用其对应种群网格单元的命名约定为补丁分配了唯一标识代码。网格单元格的命名(基于LAEA网格)以单元格的大小(1 km)开始,然后是左下角的坐标(km),从字母开始N其次是纬度和E接着是经度,例如:1 kmn4101e445324.对于与种群网格中的网格单元不对应的补丁,只给出一个数字标识号。

访问和可用性

该数据集可在慕尼黑工业大学(TUM)官方媒体图书馆提供的持久链接上下载。So2Sat POP Part 1 (https://mediatum.ub.tum.de/1633792)根据创作共用属性4.0国际许可协议(http://creativecommons.org/licenses/by/4.0/)及So2Sat POP Part 2 (https://mediatum.ub.tum.de/1633795)是根据创作共用署名相似分享国际许可协议(http://creativecommons.org/licenses/冲锋队/ 4.0 /)。请在使用数据集时引用本文。

技术验证

为了证明数据集对总体估计的适用性,我们实现了流行的随机森林(RF)算法43,因为它的灵活性、处理噪声输入数据的效率和相对抗过拟合44.随机森林算法的另一个优点是很容易衡量每个特征对预测的相对重要性。我们使用scikit-learn库在Python中实现了监督随机森林算法,用于回归和分类任务。我们使用网格搜索来自动微调要生长的树的数量,以及考虑拆分节点的最大特征数量,并通过10倍交叉验证来评估性能。为了训练模型,从80个列车组城市的所有输入数据补丁中构建了不同的特征。所构建的特征包括仅从Sentinel-2图像的RGB波段提取的最小值、最大值、平均值、中值和标准差,数字高程模型和夜灯的平均值和最大值,土地利用中每个类别所覆盖的总面积,局部气候区的大多数类别,以及基于osm的特征,如街道密度、公路、铁路的存在等,这些特征都是从osm斑块中提取的。使用这个过程,我们为每个补丁计算了125个特征。在回归中,我们使用绝对总体数作为响应变量,而在分类中,使用类别标签作为ground truth。

训练后的模型在18个未见过的测试城市上进行了评估。数字6仅显示由随机森林算法选择的12个最相关的特征,并用于估计测试数据集的总体计数和总体类。从OSM数据、夜灯和LCZ类中提取的特征被列为两个任务中最重要的特征。对于回归,我们计算了均方根误差(RMSE)和平均绝对误差(MAE)。表格2表示回归模型的性能。由于非城市地区的比例高于城市地区,数据集是不平衡的,我们使用平衡精度来评估分类性能。此外,我们使用宏观平均精度、召回率和f1评分指标来平等对待每个类别,而不考虑任何不平衡。表格3.总结了分类结果。为了进一步描述分类模型的性能,我们在测试数据集上绘制了一个标准化的混淆矩阵。数字7 (b)说明该模型在预测较高阶层(城市地区)时很有信心,而在较低阶层(代表人口稀少地区)时表现不佳。最初的三个类别(类别1、2和3)表示人口数量在1 - 8范围内的区域,并且这三个类别之间的特征可能没有足够的区分。因此,区分第一类和第三类补丁变得非常困难。一个简单的解决方案是合并这些初始类,它们表示小于8的总体计数范围。它可以在不丢失任何关键信息的情况下显著改善结果。为了给用户更多的灵活性,我们提供的数据集没有任何此类后处理,并且可以根据具体需求轻松地重新排列。对于回归,为了直观地评估模型拟合,我们绘制了网格单元的实际总体计数与测试数据的每个网格单元的预测总体计数。数字7(一)说明对于种群数量较多的斑块,模型低估了实际值,而对于种群数量小于15000的斑块,模型拟合较好。我们相信,通过更复杂的特征和机器学习方法,可以开发出一个强大的模型来估计使用我们的数据集的人口。

图6
图6

基于平均杂质减少(MDI)的随机森林特征重要性。数值越高,特征就越重要。图只显示了12个最相关的回归特征(一个)和分类(b).

表2随机森林模型在测试数据集上估计种群数的评价。
表3随机森林模型在测试数据集上预测种群类别的评价
图7
图7

一个)回归的预测值与实际值,模型拟合得很好,除了高人口计数,这些点从回归的对角线上分散开来(b)用于分类的混淆矩阵,由类支持大小(每个类中的补丁数量)归一化。非城市阶层的混乱程度高于城市阶层。

使用笔记

在本文中,我们提出了一个独特的数据集,它结合了多个数据源,这些数据源以前在该领域的跨国层面上没有被探索过。我们的数据集涵盖了欧洲的许多城市,因此提供了不同的地形和人口。此外,不同数据源的融合提供了关于一个地区的景观和其他社会人口属性的更多信息。

能否获得精确和详细的人口数据因国而异。在我们的数据集中用作参考网格的人口网格在整个欧洲都可用,分辨率一致为1公里,然而,其精度可能因一国可用数据的质量而异。此外,参考人口网格基于2011年人口和住房普查数据,而其他输入数据源属于不同的时间框架,例如,Sentinel-2数据属于2016年,因为任务本身已于2015年启动。收集人口数据与其他相应输入数据之间的时间差可能会给评估带来一些噪声。通常情况下,人口普查每十年进行一次,因此要收集同一年的其他相应数据就变得非常困难,特别是从多个数据源收集数据时。我们仍然相信这个数据集将有助于在这个领域发展基于机器学习的方法。此外,由于没有免费的基准数据集,对不同方法的评估一直是一个挑战。因此,我们希望这个数据集将有助于比较和评估不同的方法在最先进的状态。

使用Python语言,使用geospatial data Abstraction Library (geospatial data Abstraction Library, GDAL)、Geopandas、Fiona、Rasterio等常用的地理空间数据库进行数据准备。我们的计算系统由一个HPC服务器和2个AMD EPYC ROME 7402 cpu(48核)组成,需要5-6天来完成OSM补丁文件及其统计。除了补丁,我们还为每个城市提供了逗号分隔值(Comma Separated Value, CSV)文件,其中包含每个网格单元的实际人口计数及其对应的人口类。因此,最终用户可以根据用例的需求,使用相应的总体计数重新排列数据集。

我们希望这一基本数据集将使开发新的统计和机器学习方法成为可能,从而以更高的空间分辨率获得人口,但更一致。今天各国的人口数据集往往缺乏这种一致性。该数据集旨在为改进各种应用领域的比较研究奠定基础。这个改进后的人口分布数据库可以成为学术和非学术领域的中心资料。无论是作为空间或城市规划的必要信息,如提供居住空间或社会技术基础设施,还是在风险分析或事件协调的现场,还是在人口普查的验证、支持或更新中,还是在关于一般移徙和更具体地说,关于城市化或郊区化趋势等主题的比较研究中。