用于生态建模的机器学习空间数据库

用于生态建模的机器学习空间数据库
就像
去查伊芙琳娜·萨特科维奇的侧写
去看英迪亚·安布勒的侧写

我们生活在一个生物地理多样性惊人的世界:从北方森林到热带稀树草原,植物群、动物群和环境之间复杂的相互依存关系创造了独特的景观和生态群落。随着人类活动迅速改变地球系统,对系统组成部分之间的关系进行建模,以提高定量理解和预测生态系统对不断变化的条件的响应,变得越来越重要。

在我们的数据科学与进化赫尔辛基大学的一个研究小组,我们使用计算建模来研究生物圈的变化——开发古环境代理,发现自然和人类系统的进化模式,并建立可转移到新环境的宏观生态模型。我们需要一个集成的全球数据集来进行模型训练,为此,我们开发了Eco-ISEA3H空间数据库,为基于机器学习(ML)的物种分布建模(SDM)和计量学研究量身定制。

来自Eco-ISEA3H数据库的数据集快照,分辨率为9。从左到右,树冠覆盖率百分比,从MOD44B;夏季日(SU)是由CCSM4输出的27个ETCCDI极端气候指数之一西尔曼等人(2013);陆地地形和海洋水深测量,从SRTM30_PLUS

即使对科学文献进行快速搜索,也会发现目前有大量快速扩展的地球观测(EO)数据,包括遥感和计算得出的数据。然而,当试图一起使用这些数据时,人们很快就会遇到许多不同的坐标参考系统、空间分辨率、地理数据模型和文件格式。生态模型(sdm、生态计量模型等)需要统一的数据集,通过一致的空间观测单位来描述物种的发生和环境。为了满足这一需求,我们利用离散全局网格系统(DGGS)提供的系统空间框架对开放的EO数据集进行采样和汇总。我们从小事开始,随着一个研究问题引出另一个,我们逐渐汇编了从17个来源收集的3000多个变量,描述了气候、土地覆盖、自然和人文地理,以及近900种大型哺乳动物物种的地理范围。

月平均气温(TAVG),由WorldClim v2.0,在ISEA3H分辨率5。

Eco-ISEA3H数据库与其他网格化数据集有何不同?

Eco-ISEA3H数据库建立在测地线DGGS之上,该系统将地球表面按若干嵌套分辨率划分为等面积六边形单元的规则网格。具体来说,数据库利用二十面体斯奈德等面积(ISEA)孔径3六角(3H) DGGS。我们每次只使用这个名称中的一个术语,因为这将帮助我们了解“数据背后”,以及数据库的支持空间框架。

DGGS的定义是,首先在代表地球的球体内标注一个多面体(在本例中是一个二十面体)。这个二十面体的方向是这样的,它是对称的关于赤道,并且最小数量的角点落在地球的地面上。然后将二十面体的三角形面分成等面积的六边形单元。在每一个更精细的分辨率下,单元格的面积是之前分辨率下单元格的三分之一(也就是说,分辨率之间的比例或孔径为3:1)。最后,这些细胞被(反向)投射到被限定的球体通过国际原子能机构等面积预测,由斯奈德开发。

ISEA3H DGGS的组成部分;网格系统的定义是在代表地球的球体内嵌入一个二十面体(A)。二十面体的三角形面通过ISEA投影投影到球体上(B);二十面体的边映射到大圆弧。最后,将二十面体面划分为六方细胞(C);分辨率为1的细胞用红色标出,分辨率为2的细胞用橙色标出。同样的两个二十面体面在面板A、B和C中突出显示。

ISEA3H DGGS的六边形单元具有许多有用的特性,这使得它们作为观察、分析和可视化的单元非常有效。首先,六边形是三个多边形之一(包括正方形和等边三角形),可以用来创建一个规则的瓷砖,一个高度对称的瓷砖类由全等的,规则的瓷砖。在这三个多边形中,六边形是最紧凑的,最小的单位内可变性。此外,六边形与平铺中相邻的六边形有最简单的关系,每个六边形与六个相邻的六边形共享一条边。最后,六边形更多在视觉上有效广场;方砖强烈的水平和垂直线条分散了人们对数据驱动的兴趣模式的注意力。最后一点很重要,因为地图和其他可视化工具通常是科学推理的基本工具。

让我们将DGGS方法与另一种常用方法进行对比:使用纬度/经度网格或网格,其中单元格边缘的长度测量一定的度、分和/或弧秒数。例如,考虑一个具有30弧秒单元分辨率的栅格数据集。使用GIS或其他数据可视化软件(例如R)中的默认参数绘制,这样的网格似乎形成了整齐的等面积正方形阵列。

纬度/经度网格(A)和分辨率5的ISEA3H全球网格(B);注意纬度/经度单元面积随距离赤道的距离而减小。在此可视化和其他可视化中使用相对粗糙的低分辨率网格,以更好地说明所讨论的空间框架。

当网格从平面的屏幕投影转移到地球的球面(上图中的面板a)时,这种方法的问题变得很明显。南北经线在地球的两极交汇,例如,30秒弧度在北极圈的东西距离比在赤道要短得多。因此,纬度/经度网格的单元格不是等面积的,甚至不是一致的正方形。ISEA3H DGGS(上图中的面板B)避免了两极的这种奇点,并在全球范围内保持相同的单元面积。

为什么这对生态建模很重要?

用于生态分析和模拟的观测资料应具有等效性和直接可比性;因此,作为观察单元使用的网格单元应该在整个研究区域内保持相同的面积(理想情况下,保持一致的形状)。ISEA3H DGGS的等面积六边形单元提供了我们采样的EO数据集的无偏性总结。相反,如果未经修正就用作观察或分析单位,纬度/经度单元格将使结果偏向高纬度的情况。我们发现,使用纬度/经度细胞与ISEA3H DGGS细胞量化生物气候信封改变了几种大型、分布广泛的哺乳动物物种的感知环境生态位。与温度相关的测量显示出纬度梯度,纬度/经度单元面积不等的偏倚效应更严重。

DGGSs是一个重要的组成部分数字地球(DE)愿景,其中地球系统被复制为一个数字模型,包含生物和非生物环境的所有方面的数据。我们希望Eco-ISEA3H数据库作为一个开端——更多的EO数据集将被编入由ISEA3H DGGS提供的空间框架,并广泛共享。这样的DE资源将促进大规模的综合分析和建模,并帮助我们更好地理解和预测生物圈的变化。

请免费登录或注册

如果您是Nature Portfolio生态与进化社区的注册用户,请登录