机器学习挑战数值预报，你应该了解些什么？

什么是数据驱动天气预报

天气预报业务的发展经历了依靠主观经验为主到以客观预报为基础的发展历程，尤其经过最近几十年的发展，以物理规律驱动的数值天气预报已成为现代天气预报的重要支撑，也是智能网格预报业务的核心基础数据。近年来，随着人工智能尤其是机器学习、深度学习不断取得突破，计算机硬件的不断发展，利用纯数据驱动的天气预报模型研发已成为一个新的探索方向。为了方便不同的研究者进行算法的对比，需要在统一基准数据集（包括基准数据和基准方法）的支撑下进行不断的迭代试验。

基准数据集简介

NMDT是由国家气象中心天气预报技术研发室开发，面向国内天气预报业务和科研应用的通用型天气学诊断分析工具包，其致力于支撑天气预报及其相关的研究工作，为重大天气过程预报、复盘、机理研究等应用场景提供诊断分析技术支持。
在初期的研究中，基准数据集使不同的算法可以相互定量比较，并促进建设性的竞争，也方便来自不同领域的人员更容易进入这一研究领域进行横向比较。国际上已有非常著名的数据集，如计算机视觉数据集MNIST 和ImageNet等。今年2月，Stephan Rasp等人也发布了一套以欧洲中期天气预报中心的ERA5再分析数据为基础的数据集（论文见：https://arxiv.org/abs/2002.00469），经过处理，便于机器学习模型的研究使用，主要用于中期天气预报研究。同时，还提供了一个简单而清晰的评价指标，可以快速评估各类方法的优劣。此外，还提供了来自简单线性回归技术、深度学习模型以及纯物理预测模型的基准评分。毫无疑问，数据集的建设加速了数据驱动的天气预报研究进程。

鉴于太高分辨率很难适用深度学习模型，试验最终选择了5.625°、2.8125°、1.40525° 三种分辨率。
5天预报对比实验

作者使用直接预报和迭代预报的方式对基准数据集进行了测试，所谓直接预报是指以初始时刻的数据作为输入，通过模型训练直接生成目标时刻（如第5天）的预报结果；而迭代预报是指将中间时刻的输出结果作为其下一个时刻的输入场进行迭代训练，比如将6小时的输出结果作为12小时预报模型的输入场，最终获得最终时刻（如第5天）的预报结果。直接预报和迭代预报示意图如下：

在这里插入图片描述

测试结果可见，业务上的数值模式的评分最优（紫色实线），对于神经网络模型而言，直接预报精度明显好于迭代预报。

在这里插入图片描述

5.625°分辨率下不同方法RMSE对比

左）500hPa位势高度；右）850hPa温度，

红色和橙色实线表示逻辑回归和CNN的迭代预测，实心圆点表示未来3天和5天的直接预测

3天和5天预测时间的基准评分

（注：粗体为最佳机器学习和物理模型对比评分，分值越小越好，可见最佳机器学习具备一定潜力）

在这里插入图片描述

数据驱动应用前景

虽然纯数据驱动的天气预报模型研究取得了初步的成果，但只能算是燃起了星星之火，至于能否燎原，还尚未可知。目前物理规律驱动的数值天气预报的地位仍然不可动摇，是整个天气预报业务核心。纯数据驱动的天气预报面临众多的困难与挑战也不可回避，例如：
第一，大气是复杂的三维流体运动。虽然可以将不同垂直层次的变量场都输入模型，但依然无法准确描述大气运动在垂直方向的相互作用和机理。此外，大气运动受科里奥利力影响，随纬度不同有明显的差异，目前的训练网格都是规则的等经纬度网格，而克服该问题，一个可能的解决方案是将纬度信息单独作为一个要素输入到AI模型。
第二，样本独立性不够。大气运动存在周期性，尤其对于中期天气而言，在若干年的长时间序列中，存在很多相似的样本，这会显著减小所有样本之间的独立性，因而实际可用样本会明显减少，进而容易导致过拟合。
第三，受计算机硬件限制。目前的数值模式分辨率愈来愈高，而采用AI技术的预报还受制于GPU内存大小的限制，训练所用的数据分辨率目前采用5.625°，且目前尚未有更高效的数据接入方式，采用多GPU训练可能能提高训练数据的分辨率。
当前随着人工智能技术的快速发展，将物理模型（即数值模式）与数据驱动有效结合起来，有效提高预报和预警产品的精准度、稳定性和可靠性，而且能依据不同决策者或行业用户的需求来定制天气产品，实现“智慧的预报和服务”，是当前天气预报技术发展的主流趋势。

最后，附上文中数据集传送门

欢迎测试：

（https://mediatum.ub.tum.de/1524895）

机器学习挑战数值预报，你应该了解些什么？

猜你喜欢