主要

天气预报是一个重要的科学计算中的应用,旨在预测未来天气变化,特别是关于极端天气事件。在过去的十年中,高性能计算系统大大加速研究领域的数值天气预报(NWP)方法1。常规数值天气预报方法主要是关心描述离散网格的大气状态之间的转换使用偏微分方程(pde),然后用数值模拟解决它们4,5,6。这些方法往往是缓慢的;一个模拟一个十天的预测可以花费几个小时的时间计算的超级计算机,有成百上千的节点7。此外,传统的数值天气预报算法很大程度上依赖于参数化,使用近似函数来捕获未解决的流程,可以引入错误近似8,9

深度学习的快速发展10介绍一个有前途的方向,科学界是指作为人工智能(AI)的方法吗2,11,12,13,14,15,16。这里的方法是培养一个深层神经网络来捕获输入之间的关系(再分析天气数据在给定的时间点)和输出(再分析天气数据在目标时间点)。等专门的计算设备上的图形处理单元(gpu),基于ai的方法非常快。给最近的一个例子,FourCastNet2只需要7 s计算100成员,24小时预报,订单的大小比常规数值天气预报的方法。然而,FourCastNet仍低于的准确性令人满意;其均方根误差(RMSE) 5天Z500 (500 hPa位势)预测为484.5,远低于333.7的操作集成预报系统(IFS)的欧洲中期天气预报中心(ECMWF)3。在最近的一项调查17,研究人员认为人工智能具有巨大的潜力,但承认,“需要一些基本的突破”基于AI能打败数值天气预报的方法。

这些突破似乎发生早于预期。这里我们提出Pangu-Weather(见方法解释的名称“盘古”),一个强大的基于ai天气预报系统,产生更强的确定性预报结果比操作IFS在所有天气变量对再分析数据进行测试。我们的技术有两方面的贡献。首先,我们高度信息集成到一个新的维度,这样我们深层神经网络的输入和输出可以在三维空间中概念化。我们进一步设计了一个三维(3 d) Earth-specific变压器(3 dest)建筑注入Earth-specific先知先觉的深度网络。我们的实验表明,三维模型,通过制定高度到个体维度,能够捕获大气状态之间的关系在不同的压力水平,因此收益率显著提高准确性,FourCastNet等与二维模型相比2。第二,我们应用分层时间聚合算法,包括培训的一系列模型与增加预计交货期。因此,在测试阶段,中期天气预报主要是所需的迭代次数减少,缓解和累积预测错误。实验的第五代ECMWF再分析(ERA5)数据18验证,Pangu-Weather擅长确定性预报和极端天气预报时操作IFS 10000倍以上。

全球天气预报与3 d网络

通过深度学习我们建立我们的天气预报系统。涉及深层神经网络训练方法进行再分析天气数据在给定的时间点作为输入,然后生成天气再分析数据在未来的时间点作为输出。我们使用一个输入和输出的时间点。数据的时间分辨率ERA5 1 h;在训练子集(1979 - 2017),有多达341880个时间点,在一个时期的训练数据量。缓解过度学习的风险,我们随机排列的顺序从训练数据样本在每个时代的开始。我们训练四个深网络交货期(输入和输出之间的时差)1 h, 3 h, 6 h和24 h,分别。的四个深网络训练100时代,和他们每个人大约需要16天192 NVIDIA Tesla-V100 gpu集群上。

我们的深层网络的体系结构显示在图中。1。这种架构被称为3 d Earth-specific变压器(3)不在座位上。我们给所有包括天气变量,包括13层的高空变量和变量,表面成一个网络。然后执行补丁嵌入降低空间分辨率和结合down-sampled数据到一个3 d多维数据集。3 d数据通过一个encoder-decoder传播架构来源于斯温变压器19变体的一个愿景变压器20.16块。输出分为高空变量和变量和表面与补丁up-sampled复苏恢复原来的决议。注入Earth-specific先验深层网络,我们设计了一个Earth-specific位置偏差(编码每个单元的位置的一种机制;详细的在方法)来替换原来的斯温的相对位置偏差。这一修改增加的数量偏差参数527倍,每3 d深网络包含大约6400万个参数。与基线相比,然而,3桌子有相同的计算成本和更快的收敛速度。

图1:网络培训和推理策略。
图1

一个3建筑不在座位上。基于标准encoder-decoder设计视觉变形金刚,我们调整了shifted-window机制19和应用一个Earth-specific位置偏差。b,分层时间聚合。一旦给定一个交货时间,我们使用贪婪算法进行预测与尽可能少的步骤。我们使用FM1, FM3 FM6 FM24表明预测模型和交货期是1 h, 3 h,分别6小时或24小时。一个0是输入天气状态和\({\帽子{{\ bf{一}}}}_ {t} \)表示天气预测状态的时间t(小时)。

中期天气预报的交货时间是7天或更长时间。这促使我们调用基深层网络(交货期在1 h、3 h, 6小时或24小时)迭代,使用每个预测结果作为下一个步骤的输入。减少累积预测错误,我们介绍了分层时间聚合,一个贪婪算法,总是要求深度网络最大的负担得起的交货时间。在数学上,这大大减少了迭代次数。作为一个例子,交货时间为56 h时,我们会执行2 * 24小时预测模型,预测模型长达1次,小时预测模型(图2倍。1 b)。相比之下,FourCastNet2,它使用一个固定的6小时预测模型,我们的方法是更快和更准确。讨论了该策略的限制方法

实验设置和主要结果

我们评估Pangu-Weather ERA5数据18,这被认为是最著名的估计对于大多数大气变量21,22。对FourCastNet相当比较Pangu-Weather2,我们训练有素的3 d网络39年(从1979年到2017年)的数据,在2019年的数据和测试验证在2018年的数据。我们研究了69个因素,包括5高空变量13压力水平(50 hPa, 100 hPa 150 hPa, 200 hPa, 250 hPa, 300 hPa, 400 hPa, 500 hPa, 600 hPa, 700 hPa, 850 hPa, 925 hPa和1000 hPa)和4表面变量。当测试再分析数据,为每个测试变量,Pangu-Weather产生较低的RMSE和异常相关系数(ACC)高于操作IFS FourCastNet,最好的数值天气预报和基于ai方法,分别。特别是,单一预测,Pangu-Weather报告5天的RMSE 296.7 Z500预测,为操作低于IFS FourCastNet,报告了333.7和462.5,分别。此外,推理Pangu-Weather成本1.4年代一个GPU,超过10000倍的经营假设和与FourCastNet持平。Pangu-Weather不仅产生强烈的定量结果(例如,RMSE和ACC),但还保留了足够的细节调查某些极端天气事件。为了演示这个功能,我们研究了热带气旋跟踪的重要应用。通过寻找局部最小值的平均海平面压力(MSLP),表面的一个变量,我们的算法实现了高精度88年追踪2018年热带气旋命名,包括一些(例如,Kong-rey台风和台风玉兔)仍然是一个挑战对于世界上最好的跟踪系统,如ECMWF-HRES(人力资源代表高分辨率)。我们的研究揭示了基于AI中期天气预报系统和进步道路上的进步建立人工智能作为数值天气预报的补充或替代,一个成就,先前被认为是遥远的未来17

确定性全球天气预报

我们执行的确定性预测镇定的从ERA5初始状态。然后我们相比Pangu-Weather最强的方法在数值天气预报和人工智能,即ECMWF的操作IFS(数据从TIGGE下载(THORPEX互动大全球合奏)存档3)和FourCastNet2。Pangu-Weather的空间分辨率,0.25°×0.25°,由训练数据,与控制预期的ECMWF实体5和FourCastNet相同。的间距预测(预测时间的最小单位)Pangu-Weather是1 h,不到FourCastNet 6倍。

2018年的总体预测结果图所示。2。对于每个测试变量,包括高空和地面变量、Pangu-Weather报告比操作IFS和FourCastNet更准确的结果变量时(报道)。的RMSE(低更好),Pangu-Weather通常报告比操作IFS -减少值10%调低至30%——比FourCastNet值。优势依然存在在所有交货期(从1 h - 168 h, 7天),Z500等一些变量,时间变得更显著更大的领先优势。定量研究在北半球,南半球的热带地区,指的是扩展数据无花果。1- - - - - -3。2020年和2021年的预测结果与2018年的比较结果,参考扩展数据图。4

图2:Pangu-Weather生产精度高于操作在确定性预测假设和FourCastNet ERA5数据。
图2

十个变量比较而言latitude-weighted RMSE(低更好)和ACC(更高更好),前五个变量被报道在FourCastNet最后五个没有。Z500, T500、Q500 U500 V500表明位势,温度、含湿量,u分和v分别分500 hPa的风速。Z850和T850表明850 hPa的位势和温度,分别。T2M表示全身温度和U10和V10表示u分和v分别分十米级的风速。

源数据

为了展示我们的优势,我们引入了一个概念叫“预测时间增益”,这对应于平均差异导致Pangu-Weather和竞争者报告时同样的精度。Pangu-Weather通常显示了预测时间增加10 - 15 h /操作IFS,比湿等一些变量,获得超过24小时。这意味着常规数值天气预报方法的困难当预测特定变量,然而基于ai受益的方法从大量的训练数据学习有效的模式。与FourCastNet相比,预测的时间获得Pangu-Weather一样伟大的40 h,展示我们的技术设计的显著优势,特别是从颞深3 d网络和先进的聚合策略。预测时间所得的Pangu-Weather不同天气变量扩展数据表中进行了总结2

3显示了一个可视化Pangu-Weather的为期3天的预测结果。我们研究两个高空变量,Z500 T850 (850 hPa温度),表面和两个变量,全身的温度和十米级风速,并比较结果与操作IFS ERA5地面真理。Pangu-Weather和操作的结果如果足够贴近地面真理,但它们之间有明显差异。Pangu-Weather产生流畅的轮廓线,这意味着模型往往为周边地区预测相似的价值观。这是一个任何回归算法的一般属性(包括深层神经网络)平均收敛值。相比之下,操作IFS预测不太顺利,因为它计算一个估算值在每个网格单元通过求解系统pd的初始条件,而混乱的自然天气和不可避免的不精确知识的初始条件和亚格子尺度过程会导致统计在每个预测的不确定性。

图3:预测结果的可视化。
图3

两个高空的为期3天的预测变量(Z500和T850)和两个表面变量温度和十米级风速(米)。对于每个案例,Pangu-Weather(左),操作的前提条件3(中间)和ERA5地面真理18(右)所示。所有情况下,输入时间是2018年9月1日00:00 UTC。

追踪热带气旋

接下来,我们使用Pangu-Weather追踪热带气旋。给定一个初始时间点,我们将交货时间设为6 h (ref的倍数。23)和启动Pangu-Weather预测未来天气状态。我们寻找的MSLP局部最小值满足一定条件下,如飓风眼。跟踪算法是本文的补充材料中描述。我们使用国际气候最好的跟踪档案管理(IBTrACS)项目24,25,其中包含了热带气旋的最好的估计。

我们与ECMWF-HRES Pangu-Weather相比,一个强大的飓风追踪方法基于高分辨率(9公里×9公里)业务天气预报。我们选择88年命名为热带气旋在2018年出现在IBTrACS和ECMWF-HRES。如无花果所示。4,比ECMWF-HRES Pangu-Weather统计结果更准确地跟踪这些气旋。为期3天,5天的意思是直接对飓风的眼睛位置错误报道Pangu-Weather 120.29公里和195.65公里,这是ECMWF-HRES小于162.28公里和272.10公里,分别。跟踪错误的故障区域和强度提供了扩展的数据图。5。Pangu-Weather变得更重要的优势随着时间的增加。我们的跟踪结果也显示两个最强的飓风在西太平洋,Kong-rey玉兔,在无花果。4。看到一个详细的分析的补充材料。

图4:Pangu-Weather比ECMWF-HRES在早期飓风更准确跟踪。
图4

一个,b跟踪结果,强热带气旋的两个2018年,也就是说,台风Kong-rey(2018 - 25)和玉兔(2018 - 26)。每个小组最初的时间点如下所示。相邻点之间的时间差距是6 h。玉兔Pangu-Weather预测正确的路径(也就是说,它去菲律宾)在2018年10月23日12:00 UTC,而ECMWF-HRES得到相同的结论2天后,在它之前预测,玉兔将产生很大的转向东北。c,比较Pangu-Weather和ECMWF-HRES意味着直接位置误差超过88 2018年飓风。每个数字在括号中x设在表明样品用来计算平均的数量。例如,“(788)”意味着总共有788的初始点台风持续至少24小时,和788个直接位置错误Pangu-Weather和ECMWF-HRES平均到最终的结果。面板一个b是使用Matplotlib绘制技术工具包。

源数据

尽管有前途的跟踪结果,我们Pangu-Weather之间的直接比较和ECMWF-HRES有点不公平,因为ECMWF-HRES使用IFS初始条件数据作为输入,而Pangu-Weather用再分析数据。

总体天气预报

作为一个基于ai的方法,Pangu-Weather 10000倍速度比操作的前提条件。这提供了一个机会来执行large-member合奏预测小计算成本。我们研究了FourCastNet2研究初步整体方法,增加扰动初始天气状态。然后,我们生成的99随机扰动(详细方法初始状态)并将它们添加到您的工作。因此,我们获得了100名成员集合预报通过简单平均预测的结果。如无花果所示。5为每个变量,合奏的意思是在短程略比单一方法(例如,1天)天气预报,但更好的交货时间是5 - 7天。这符合FourCastNet2,这表明large-member合奏预测单模精度较低时尤其有用,然而他们现在引入意想不到的噪音短程预测的风险。集成预测提出了更多的效益模型的变量如Q500 (500 hPa比湿)和U10 (10 mu风速分量)。此外,spread-skill Pangu-Weather比小于1,表明当前的整体方法有点underdispersive。与数值天气预报方法相比,Pangu-Weather很大程度上降低了整体的成本预测,气象学家可以应用他们的专业知识来控制噪音和提高集合预报的准确性。

图5:Pangu-Weather的集合预报结果。
图5

合奏的RMSE意味着预测(低更好)三个高空变量(Z500, Q500和U500)和两个变量(T2M和U10)表面。我们也遵循了最近的工作35绘制两个指标,crp(低更好)和spread-skill比率(理想的整体模型产生spread-skill比率为1.0,显示为虚线),这也进一步证明了我们的集合预报结果的性质。这里,Z500 Q500 U500表明位势,温度和u分别分500 hPa的风速。T2M表示全身温度和U10表示u十米级风速分量。

源数据

讨论

在本文中,我们目前的Pangu-Weather,一个基于ai系统,列车深层网络的快速和准确的数值天气预报。主要技术贡献包括3桌子的设计架构和层次的应用时间聚合中程战略预测。通过训练39年的全球天气数据模型,Pangu-Weather产生更好的确定性预报结果再分析数据比世界上最好的数值天气预报系统,ECMWF的操作IFS,同时也快得多。此外,Pangu-Weather善于预测极端天气事件和执行合奏天气预报。Pangu-Weather揭示潜在的使用大型pre-trained模型各种下游应用,显示了与其他人工智能范围相同的趋势,如计算机视觉26,27,自然语言处理28,29日,跨通道的理解30.甚至更远。

尽管有前途的预测精度再分析数据,我们的算法具有一定的局限性。首先,在本文,Pangu-Weather训练和再分析测试数据,但实际预测系统观测数据。这些数据源之间存在差异;因此,Pangu-Weather跨应用程序的性能需要进一步调查。第二,一些天气变量,如降水、没有调查。忽略这些因素可能会导致当前模型缺乏一些能力,例如,利用降水数据的准确预测小规模的极端天气事件,如龙卷风爆发31日,32。第三,基于ai的方法产生平滑预测结果,增加的风险低估了极端天气事件的大小。飓风追踪我们研究一种特殊情况,但还有很多工作要做。第四,时态不一致可以使用模型引入了不同的交货期。这是一个具有挑战性的话题值得进一步调查。

展望未来,仍有改进的空间基于ai的方法和数值天气预报的方法。在人工智能方面,可以发现通过加入更多的垂直水平进一步上涨和/或大气变量,将时间维度和四维深培训网络33,34使用更深的和/或更广泛的网络,或简单地增加训练时期的数量。所有这些方向呼吁更强大的GPU集群大记忆和更高的失败(每秒浮点运算),这是当前人工智能社区的趋势。在数值天气预报方面,后处理方法可以开发缓解NWP模型的预测偏差。我们希望基于ai和数值天气预报方法将结合在未来带来更强的性能。

方法

数学的设置

我们一直研究全球气候变量表示t作为一个t。这是一个三维矩阵的大小N纬度×N×69,N纬度= 1440,N= 721是空间分辨率沿着经度和纬度轴,分别和69是研究变量的数量。换句话说,每个水平像素占用0.25°×0.25°在地球表面。数学问题是由于预测时间点t0,假设一个t对所有tt0要求可用,该算法预测\ ({{\ bf{一}}}_ {{t} _{0} +δt \} \)Δ在哪里t被称为交货时间。由于GPU内存的限制,在我们的工作中,预测算法只使用\ ({{\ bf{一}}}_ {{t} _ {0}} \)作为输入,并预测\ ({{\ bf{一}}}_ {{t} _{0} +δt \} \)作为输出。为此,我们训练神经网络,\ (f ({{\ bf{一}}}_ {{t} _ {0}} \,, {\ boldsymbol{\θ}})\),在那里θ表示可学的参数。

评价指标

当预测的版本一个t是可用的(t=t0t),表示为\({\帽子{{\ bf{一}}}}_ {t} \)我们两个指标计算,RMSE ACC,定义如下:

$ $ {\ rm {RMSE}} \离开v, t \ = \√{\压裂{{\总和}_ {i = 1} ^ {{N} _ {{\ rm {lat}}}}{\总和}_ {j = 1} ^ {{N} _ {{\ rm{朗}}}}L \离开(我\右){\离开({\帽子{{\ bf{一}}}}_ {i, j, t} ^ {v} - {{\ bf{一}}}_ {i, j, t} ^ {v} \右)}^ {2}}{{N} _ {{\ rm {lat}}} \ * {N} _ {{\ rm{朗}}}}}$ $
$ $ {\ rm {ACC}} \离开v, t \ = \√{\压裂{{\总和}_ {i = 1} ^ {{N} _ {{\ rm {lat}}}}{\总和}_ {j = 1} ^ {{N} _ {{\ rm{朗}}}}L \离开(我\右){\帽子{{{\ bf{一}}}^{{\ '}}}}_{我\ \,t} ^ {v} {{{\ bf{一}}}^{{\ '}}}_{我\ \,t} ^ {v}}{{\总和}_ {i = 1} ^ {{N} _ {{\ rm {lat}}}}{\总和}_ {j = 1} ^ {{N} _ {{\ rm{朗}}}}L \离开(我\右){\离开({\帽子{{{\ bf{一}}}^ {{\ '}}}}_ {i, j, t} ^ {v} \右)}^{2}\ *{\总和}_ {i = 1} ^ {{N} _ {{\ rm {lat}}}}{\总和}_ {j = 1} ^ {{N} _ {{\ rm{朗}}}}L \离开(我\右){\离开({{{\ bf{一}}}^ {{\ '}}}_ {i, j, t} ^ {v} \右)}^ {2}}}$ $

在这里,v任何天气变量,\ ({{\ bf{一}}}_ {i, j, t} ^ {v} \)是一个标量代表的价值吗v在时间t和水平坐标(,j)。\ (L \左(我\右)= {N} _ {{\ rm {lat}}} \ * \压裂{{\ rm{\因为}}{\φ}_{我}}{{\总和}_{{我文本\ {}}= 1}^ {{N} _ {{\ rm {lat}}}} {\ rm{\因为}}{\φ}_{{我文本\ {}}}}\)在纬度是重量吗ϕ一个′表示之间的区别一个和气候学,天气状态的长期均值估计的训练数据超过39年。ACC和RMSE值是所有时间和水平长度的平均值坐标变量的平均数字v和交货时间Δt。RMSE和ACC指标还可以评估特定区域,例如,在北半球,南半球的热带地区。指无花果。2无花果和扩展数据。1- - - - - -3在2018年整体和分解结果。

集合预报指标

我们最近的工作35为合奏天气预报计算两个指标,即连续排名得分(crp)和概率spread-skill比率(SSR)。在数学上,crp的定义是

$ $ {\ rm {crp}} = {\ int} _ {- {\ rm {\ infty}}} ^ {+ {\ rm {\ infty}}} \离开[F \离开({\帽子{{\ bf{一}}}}_{我\ \,t} ^ {v} \右)——{\ mathbb{我}}\离开({{\ bf{一}}}_ {i, j \ t} ^ {v} \ le z \) \右]{rm \ d {}} z $ $

在哪里F(·)表示预测分布的累积分布函数\ ({\ mathbb{我}}\)(·)是一个指标函数需要一个值1如果声明是真的和0。我们遵循原来的纸和使用为计算crp xskillscore Python包。SSR获得“传播”除以RMSE与传播

$ $ {\ rm{传播}}\离开v, t \ = \√{\压裂{{\总和}_ {i = 1} ^ {{N} _ {{\ rm {lat}}}}{\总和}_ {j = 1} ^ {{N} _ {{\ rm{朗}}}}L左(\)\ \ cdot rm {var}}{\ \离开({\帽子{{\ bf{一}}}}_{我\ \,t} ^ {v} \右)}{{N} _ {{\ rm {lat}}} \ * {N} _ {{\ rm{朗}}}}}$ $

在这里,var(·)表示整体维度的方差。传播和RMSE值平均超过所有的预测都是用于计算SSR。如果一个合奏是完全可靠的,应当报告一个SSR为1.0。

数据准备的细节

ERA5数据集18包含全球,每小时再分析数据在过去的60年。观测数据和数值模型的预测是使用数值同化方法融入再分析数据,提供一个高质量的全球天气预报指标。我们利用再分析数据的每一个小时,算法可以执行每小时天气预报。我们一直ERA5最高的可用空间分辨率,0.25°×0.25°地球球体,导致输入分辨率为1440×721:纬度维度有一个额外的条目,因为北部和南部位置不重叠。

我们跟着WeatherBench13选择13 37压力水平(50 hPa, 100 hPa 150 hPa, 200 hPa, 250 hPa, 300 hPa, 400 hPa, 500 hPa, 600 hPa, 700 hPa, 850 hPa, 925 hPa和1000 hPa)和表面的水平。相当与在线版本的ECMWF控制预测,我们选择预测因素TIGGE发表的数据集3,即五个高空变量(位势,特定的湿度,温度,和u分和v风速分量)和四个变量(全身温度、表面u分和v十米级风速分量,MSLP)。研究变量的完整列表和相应的缩写,指的是扩展的数据表1。此外,三个常数面具(近年地形面具,面具和土壤类型的面具)被添加到表面的输入变量。

当我们准备2018年的测试数据,我们排除了测试点2018年1月1日由于训练数据的重叠。此外,2018年12月所有测试点是不可用的高空变量由于ECMWF的服务器错误。这些数据从测试阶段FourCastNet也排除在外。

深层网络细节

有两个输入和输出数据的来源,即表面高空变量和变量。前者涉及13个压力水平,每一个都有5个变量,和他们在一起形成一个13×1440×721×5卷。后者包含一个1440×721×4卷。这些参数被嵌入到一个从原始空间C维潜在空间。我们使用一个叫补丁的常用技术嵌入降维。高空情况下,块的大小是2×4×4的嵌入式数据有一个形状7×360×181×C。对于表面的变量,补丁的大小是4×4的嵌入式数据有一个形状360×181×C,在那里C是基础通道宽度和192年将是我们的工作。这两个数据量被连接在第一维度产生8×360×181×C体积。体积是传播通过标准encoder-decoder架构8 8层编码器和译码器层。译码器的输出仍然是一个181×360××C体积,预计与补丁恢复,回到原来的空间产生所需的输出。下面,我们描述每个组件的技术细节。

补丁嵌入和补丁复苏

我们跟着标准的视觉变压器使用一个线性层GELU(高斯误差线性单元)激活补丁嵌入。在我们的实现中,一片2×4×4像素为高空变量和4×4表面变量。滑动窗口的步幅补丁是一样的大小,和必要的新鲜感填充时添加大小是不可分割的数据块的大小。参数块嵌入的数量(4×4×2×5)×C对高空变量和4×4×4×C表面变量。补丁恢复执行相反的操作,拥有相同数量的参数,但这些参数并不与补丁嵌入共享。

encoder-decoder架构

数据大小保持不变,为181×360××C第一层2编码器,而接下来的6层,横向维度降低2倍,通道的数量翻了一倍,导致数据大小的8×180×91×2C。译码器的部分是对称编码器部分,前6译码器层有大小8×180×91×2C和下一个2层有181×360××的大小C。第二编码器的输出层和第七解码器层沿通道连接尺寸。我们跟随斯温变形金刚的实现19连接相邻层不同的分辨率和采样下来up-sampling操作。对于采样下来,我们合并四个标记成一个(特征维数增加C到4C)和执行一个线性层减少维数为2C。对于up-sampling,进行反向操作。

3 d Earth-specific变压器

每个编码器和译码器层是一个3块不在座位上。它类似于标准视觉变压器20.但是专门设计结合地球的几何。我们使用的标准self-attention机制视觉变形金刚。为进一步降低计算成本,我们继承了window-attention机制19分区特性映射到窗口,每一个都包含最多2×12×6令牌。shifted-window机制19每层,应用网格分区不同于前一个的窗口大小的一半。在经度坐标方向是周期性的,一半的窗户在左边和右边合并成一个完整的窗口。沿着纬度方向没有执行合并操作,因为它不是周期性的。我们参考读者最初的论文19,20.更多细节关于视觉变形金刚。

Earth-specific位置偏差

斯温变压器19使用一个相对位置偏差代表关注的平移不变分量,偏差在哪里计算每个窗口的相对坐标。然而,对全球天气预报情况有点不同:地球上每一个令牌对应于一个绝对的位置的坐标系统;地球的地图投影的球体,邻国之间的间距标记可以是不同的。更重要的是,一些天气状态密切相关的绝对位置。位势的例子,风速和温度扩展数据图所示。6。捕捉这些属性,我们介绍了一个Earth-specific位置偏差,可以通过添加基于它的绝对位置偏差对每个令牌(而不是相对的)坐标。

数学上,让整个功能映射是一个体积的空间分辨率Npl×N×N纬度,在那里Npl,NN纬度显示的大小沿轴压力的水平,分别为经度和纬度。数据量划分pl××纬度窗口,每个窗口的大小Wpl×W×W纬度。Earth-specific位置偏差矩阵包含pl×纬度余子式(没有出现在这里,因为不同经度共享相同的偏见:经度指数循环和间距是均匀分布在这个轴),每一个都有\ ({W} _ {{\ rm {pl}}} ^{2} \ *{\离开(2 {W} _ {{\ rm{朗}}}1 \)\ * W} _ {{\ rm {lat}}} ^ {2} \)可学的参数。注意时计算两个单位之间在同一个窗口中,我们使用了指标的压力水平和纬度,(pl,纬度子矩阵),找到相应的偏见。然后,我们使用了intra-window坐标,\ \离开({h} _{1} ^{{\ '}},{\λ}_{1}^{{\ '}},{\φ}_ {1}^ {{\ '}}\)\)\ \离开({h} _{2} ^{{\ '}},{\λ}_{2}^{{\ '}},{\φ}_ {2}^ {{\ '}}\)\)查找偏差值\(\左({h} _ {1} ^ {{\ '}} \, + \ {h} _ {2} ^ {{\ '}} \ * {W} _ {{\ rm {pl}}},{\λ}_{1}^{{\ '}}-{\λ}_ {2}^ {{\ '}}\,+ \ {W} _ {{\ rm{朗}}},{\φ}_{1}^{{\ '}}\,+ \{\φ}_ {2}^ {{\ '}}\ \ * \ {W} _ {{\ rm {lat}}} \) \)(pl,纬度)子矩阵。

设计选择

我们简要地讨论一下其他的设计选择。由于大型培训开销,我们没有进行详尽的研究hyperparameters和我们相信存在配置或hyperparameters导致更高的精度。首先,我们使用8(2 + 6)编码器和译码器层,明显少于标准斯温变压器19。这是减少时间和记忆的复杂性。如果一个人有一个更强大的集群GPU内存较大,增加了网络的深度可以带来更高的精度。第二,它可以减少参数用于Earth-specific位置偏差参数共享或其他技术。然而,我们不认为这是一个关键问题,因为它不太可能将天气预报模型部署到边缘设备有限的存储。第三,它是可能的,并承诺给更多时间的天气状态指数模型,从三维空间到四维张量变化而变化。虽然人工智能社区显示四维深度网络的有效性33,34,有限的可用计算预算阻止我们探索这个方法。

优化的细节

四个人模型训练了100时代用亚当的优化器。我们使用了mean-absolute-error损失。每个二维上的规范化进行了分别输入字段(例如,Z500)。它的工作原理是减去均值的二维场除以标准差紧随其后。每个变量的平均值和标准偏差计算天气数据从1979年到2017年。每个变量的体重是成反比的平均损失值计算在早期运行,设计促进这些变量等价的贡献。具体来说,高空变量的权重分别为3.00,0.60,1.50,0.77和0.54为Z, Q, T, U和V,分别和表面变量的权重分别为1.50,0.77,0.66和3.00,MSLP U10 V10和T2M分别。我们添加了一个重量的1.0到高空的mean-absolute-error损失变量和变量,0.25的表面和总结两个损失。我们使用一个批处理大小为192(即1训练样本/ GPU)。学习率从0.0005开始,逐步退火后0余弦时间表。 All starting time points in the training subset (1979–2017) were randomly permuted in each epoch to alleviate over-fitting. A weight decay of 3 × 10−6和ScheduledDropPath36下降率为0.2是用来缓解过度学习。我们发现所有的模型尚未到达完全融合在100年底时代,所以我们希望扩展训练过程可以提高预测精度。我们策划一些测试变量的准确性对不同交货期(1 h、3 h, 6 h和24 h)扩展数据图。7

推理速度

的推理速度Pangu-Weather FourCastNet相当2。在系统级比较,FourCastNet需要0.28年代推断一个24小时预报Tesla-A100 GPU(312次浮点运算),而Pangu-Weather需要1.4年代Tesla-V100 GPU(120次浮点运算)。从GPU性能考虑,Pangu-Weather比FourCastNet慢大约是50%。Pangu-Weather超过10000倍操作IFS,这需要几个小时的超级计算机成百上千的节点。

相对分位数的计算错误

我们以前的工作37比较顶级的值分位数计算预测结果和地面真理。在数学上,我们组D= 50百分位数值,表示1,2、……D。我们跟着FourCastNet2设置1= 90%,D= 99.99%,中间百分位值之间呈线性分布1D在对数刻度。然后,表示相应的分位数1,2、……D天气,分别计算每一对变量和交货时间。例如,对于U10的为期3天的预测变量,pixel-wise聚集所有帧的统计值。我们跟着FourCastNet2画出极端百分位数对交货时间扩展数据图。7

最后,相对分位数错误(RQE)测量计算整个地面真理和任何天气预报算法的区别:

$ $ {\ rm {RQE}} = \ mathop{总和\}\ limits_ {d = 1} ^ {d} \压裂{{\帽子{Q}} _ {d} - {Q} _ {d}} {{Q} _ {d}} $ $

在哪里d\({\帽子{Q}} _ {d} \)dth分位数计算ERA5地面实况和预报算法被调查。RQE可以测量的总体趋势,RQE < 0和RQE > 0意味着预测算法倾向于极端低估和高估的强度,分别。我们发现Pangu-Weather和操作IFS往往会低估极端。Pangu-Weather遭受重低估随着时间的增加。有人指出RQE和个人分位数的值限制:他们不评估极端值是否出现在合适的地点和时间,只有看值分布。Pangu-Weather捕捉个人极端事件的能力进一步的实验验证跟踪热带气旋。

算法追踪热带气旋

我们跟着一个经典算法38局部最小值的定位MSLP追踪热带气旋的眼睛。给定的起始时间点和相应的初始位置飓风眼,我们反复呼吁6小时预测算法,寻找当地最低MSLP满足下列条件:

  • 最多有850 hPa相对涡度大于5×10−5在北半球的半径278公里,或至少小于−5×10−5南半球。

  • 之间有一个最大的厚度850 hPa和200 hPa在温带气旋时半径278公里。

  • 最大的十米级风速大于8米−1278公里半径内,当飓风是在陆地上。

一旦飓风的眼睛位于,跟踪算法继续寻找下一个位置的附近445公里。跟踪算法终止时的局部最小值MSLP发现满足上述条件。看到扩展数据图。8两个跟踪的例子。

跟踪结果在不同的子集

我们扩展图。4摄氏度通过绘制意味着直接的位置误差对不同强度不同的盆地或扩展数据图。5。在每个子集,Pangu-Weather报告错误和低的优势与更大的交货时间变得更加显著,使我们从整个数据集的结论。我们再次强调,对ECMWF-HRES比较是有点不公平,因为ECMWF-HRES使用IFS初始条件数据,而Pangu-Weather使用再分析数据。

更多的热带气旋

下面是一个更详细的分析四个热带气旋。Pangu-Weather的优势主要在于跟踪飓风路径的早期阶段。

  1. (1)

    台风Kong-rey(2018 - 25)是其中一个最强大的2018年全世界热带气旋。如无花果所示。4ECMWF-HRES预测,Kong-rey将土地在中国,但实际上没有。Pangu-Weather,相反,产生准确的跟踪结果与地面几乎一致的真理。同时,扩展数据图。8显示Pangu-Weather的跟踪结果,ECMWF-HRES在不同时间点:Pangu-Weather几乎不随时间变化,预测的结果和ECMWF-HRES到达结论Kong-rey不会在中国比Pangu-Weather晚超过48小时。

  2. (2)

    台风玉兔(2018 - 26)是一个极其强大的热带气旋,在马里亚纳群岛和菲律宾造成灾难性的破坏。它与Kong-rey 2018年全世界最强大的热带气旋。如无花果所示。4,Pangu-Weather使正确的预测结果(玉兔去菲律宾)早在着陆前6天,而ECMWF-HRES错误预测,玉兔将产生很大的早期阶段转向东北。ECMWF-HRES产生正确的跟踪结果比Pangu-Weather晚超过48小时。

  3. (3)

    飓风迈克尔(2018 - 13)是最强的飓风2018年大西洋飓风季节。如扩展数据图所示。8,起始时间超过3天提前降落,Pangu-Weather和ECMWF-HRES预测登陆佛罗里达。但是,预计着陆的延迟时间只有3 h Pangu-Weather而ECMWF-HRES 18 h。此外,Pangu-Weather Michael降落后跟踪显示优势而跟踪ECMWF-HRES短很明显转向东方。

  4. (4)

    台风马鞍山(2022 - 09年)是一个严重的热带风暴影响,菲律宾和中国。如扩展数据图所示。8,当起始时间点比降落,大约3天前ECMWF-HRES产生错误的预测结果,马云将土地在珠海,中国,而Pangu-Weather的预测结果接近真相。

更好的跟踪结果Pangu-Weather主要继承了准确确定的预测精度再分析数据。在扩展数据图。8台风,我们展示如何Pangu-Weather追踪飓风迈克尔和马鞍山后指定的跟踪算法。四个变量中,MSLP和十米级风速是直接由确定性预报,厚度和涡度来自位势和风速。这表明Pangu-Weather可以产生中间结果支持飓风跟踪,进而帮助气象学家理解和利用跟踪结果。

随机扰动

每个扰动生成的合奏天气预报包含噪声的3个八度,天平是0.2,0.1和0.05,期间生成的数量和每个轴(经度和纬度)12日分别24和48。我们使用GitHub库中提供的代码(https://github.com/pvigier/perlin-numpy为加速度)和修改代码。我们添加了一个部分的伪代码。

以前的工作

主要有两条线对天气预报的研究。在这篇文章中,我们已经使用“常规数值天气预报”或简单的数值天气预报的方法参考数值模拟方法,并使用基于ai的方法来指定数据驱动的预测系统。我们理解,口头上,基于ai也属于数值天气预报的方法,但是我们遵循公约17使用这些术语。

数值天气预报的方法通常大气状态分割成离散网格,使用pde来描述它们之间的过渡1,39,40使用数值模拟并解决pd。网格间距的预测准确性的关键,但它是受到计算预算,因此天气预报通常是有限的空间分辨率。参数化41是一种有效的方法来捕捉未解决的过程。数值天气预报的方法已被广泛应用,但它们陷入困境的用户数量增加计算开销1,42和通常很难执行高效的并行化43。数值天气预报的沉重的计算开销也限制了乐团成员的数量,因此削弱了多样性和概率天气预报的准确性。

基于ai的方法为天气预报提供互补的道路。人工智能的尖端技术在于深度学习10,假设输入和输出之间的复杂关系数据可以从大量的训练数据不知道实际的物理过程和/或公式。在天气预报的范围,基于ai的方法首次应用于基于雷达数据的降水预报的问题44,45,46,47或卫星数据48,49的传统方法,深受初始条件被deep-learning-based方法所取代。深层神经网络的强大的表达能力在这些问题导致成功,进一步鼓励研究人员深入研究中期天气预报2,11,12,13,14,15,16作为一个更快的补充或替代数值天气预报的方法。最先进的深度学习方法主要依靠大型模型(即有大量可学的参数)从训练数据来学习复杂的模式。

“盘古”的名字

盘古是一个原始的在中国神话和创建图分开天地,成为地理特性,比如山脉和河流https://en.wikipedia.org/wiki/Pangu)。盘古也是一系列pre-trained AI模型由华为云覆盖计算机视觉、自然语言处理、多模式的理解,科学计算(包括天气预报)等等。