2022.12.11 第三十四次周报

目录

前言

文献阅读:动态LSTM混合模型改善中国季节性干旱预测

背景

方案

预测变量构造

干旱预测模型

技能分数

LSTM 模型与其他机器学习模型的比较

LSTM

定义

 LSTM的核心思想

遗忘门

输入门

输出门

总结


前言

This week we learned an article combining LSTM to build a seasonal drought prediction model in China.In this study, the ability and robustness of the LSTM model to extract information between atmospheric variables and meteorological drought were evaluated, and the degree of improvement of forecasting skills and the effectiveness of drought occurrence prediction were studied.In addition, in terms of deep learning, I learned about LSTM.

本周学习了一篇结合LSTM来构建中国季节性干旱预测模型的文章。在这项研究中,评估了LSTM模型提取大气变量与气象干旱之间信息的能力和鲁棒性,并研究了预测技能的提高程度和干旱发生预测的有效性。除此之外,在深度学习方面,学习了LSTM的相关内容。

文献阅读:动态LSTM混合模型改善中国季节性干旱预测

--Zhiyong Wu, Hao Yin, Hai He, Yuan Li,
Dynamic-LSTM hybrid models to improve seasonal drought predictions over China,
Journal of Hydrology,
Volume 615, Part A,
2022,
128706,
ISSN 0022-1694,
https://doi.org/10.1016/j.jhydrol.2022.128706.

背景

干旱是在所有气候条件下发生的自然灾害(Liu等人,2016)。全球长期干旱易发地区显著增加,从1902年至1949年的16.19%增加到1950年至2008年的41.09%(Wang et al.,2014)。根据联合国粮食及农业组织(FAO)的数据,2005年至2015年期间,发展中国家因干旱灾害而遭受了290亿美元的农业损失(Conforti et al.,2018)。因此,准确的干旱预测对于提高抗旱能力、管理水资源和减少干旱损失至关重要。

由于地理位置和气候状况,中国长期受到干旱的影响(Ayantobo et al., 2017),近年来,极端干旱变得越来越频繁和严重(Chen et al., 2018, Jin et al., 2013, Ma et al., 2020)。虽然中国使用各种模型在干旱预测方面取得了进展(Xu 等人,2018a,Xu 等人,2018b,Zhang 等人,2019 年,Zhu 等人,2020 年),但由于干旱机制在不同地区和跨时空尺度上存在差异,因此很少有人尝试使用 DL 来预测中国所有地区的季节性干旱。此外,很少有研究从动力学模型中输入同时期的大气变量,以迫使LSTM对未来三个月进行每日预测。该方法与Xu等人,2018bDikshit等人,2021a不同,并且与用于操作干旱监测的每日时间步长相匹配。

方案

在这项研究中,我们将动态模型和DL相结合来构建混合模型。我们使用随机森林(RF)从大气环流变量中提取典型网格。以LSTM为统计模型,寻找大气变量与气象干旱之间的关系。然后处理动力模型预测的大气变量,以强制干旱预测模型。

预测变量构造

在这里,我们使用以下公式计算 90 天标准化异常 (SA90):

干旱预测模型

我们为每个区域构建一个 LSTM 模型,使用 22 年的数据进行训练,8 年的数据用于验证,1 年的数据用于测试。在24个后播年份(1993-2016)中,共有9个×24个地区24个模型。每个模型采用每日 5 层(gh200、gh500、gh850、t2m、slp)SA90 数据集作为预测因子,当天的 SPI3 作为预测因子。在构建模型之前,对gh850和slp上青藏高原上的网格进行屏蔽。在大型地形、SLP 和 GH850 读数上方和附近是非物理的。地形下方的读数是从动力学模型推断的结果,因此是人为的。我们将五层SA90扁平化为3215个数据点(输入神经元)的列,通过RF提取典型数据,然后通过强制LSTM产生输出SPI3数据。

 

上图模型结构:SA90GH200, SA90GH500, SA90GH850, SA90T2M和 SA90斯莱普分别是 GH200、GH500、GH850、T2M 和 SLP 的 90 天标准化异常。青藏高原上GH850和slp上的网格被遮蔽,因此扁平单元总数为3215。 

技能分数

LSTM 模型与其他机器学习模型的比较

众所周知,人工神经网络(ANN)是经典的机器学习模型之一。许多研究人员使用这个模型来改善降水和干旱预测(Belayneh等人,2014年,da Paz等人,2011年,Sigaroodi等人,2014年)。 根据我们研究的相同处理步骤,用ANN替换LSTM可以获得相同的结果吗?此外,由于LSTM模型是ANN,因此我们考虑了线性模型和基于树的模型。在本研究中,我们选择了最小绝对收缩和选择运算符(套索)和随机森林回归器。

从图13可以看出,除西北和新疆外,D-LSTM模型在大多数地区具有优于或同等性能的其他模型。图 14 所示的 RMSE 表明 D-LSTM 模型更熟练。很明显,与其他模型相比,D-LSTM模型在预测SPI3方面略有改进。实际上,在机器学习中,准确性的一点提高通常是机器学习模型的重要改进。另一种观点是,数据和特征决定了机器学习性能的上限,并且使用各种模型/算法来接近这个上限(Zheng et al., 2021)。

LSTM

定义

long short term memory,即我们所称呼的LSTM,是为了解决长期以来问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。LSTM 同样是这样的结构,但是重复的模块拥有一个不同的结构。不同于单一神经网络层,这里是有四个,以一种非常特殊的方式进行交互。

 LSTM的核心思想

LSTM的关键在于细胞的状态整个(绿色的图表示的是一个cell),和穿过细胞的那条水平线。

细胞状态类似于传送带。直接在整个链上运行,只有一些少量的线性交互。信息在上面流传保持不变会很容易。

若只有上面的那条水平线是没办法实现添加或者删除信息的。而是通过一种叫做 门(gates) 的结构来实现的。

门 可以实现选择性地让信息通过,主要是通过一个 sigmoid 的神经层 和一个逐点相乘的操作来实现的。

sigmoid 层输出(是一个向量)的每个元素都是一个在 0 和 1 之间的实数,表示让对应信息通过的权重(或者占比)。比如, 0 表示“不让任何信息通过”, 1 表示“让所有信息通过”。

LSTM通过三个这样的基本结构来实现信息的保护和控制。这三个门分别输入门、遗忘门和输出门。
 

遗忘门

在我们 LSTM 中的第一步是决定我们会从细胞状态中丢弃什么信息。这个决定通过一个称为忘记门层完成。该门会读取Ht-1和Xt,输出一个在 0到 1之间的数值给每个在细胞状态Ct-1中的数字。1 表示“完全保留”,0 表示“完全舍弃”。

其中ht−1表示的是上一个cell的输出,xt表示的是当前细胞的输入。σσ表示sigmod函数。

输入门

下一步是决定让多少新的信息加入到 cell 状态 中来。实现这个需要包括两个 步骤:首先,一个叫做“input gate layer ”的 sigmoid 层决定哪些信息需要更新;一个 tanh 层生成一个向量,也就是备选的用来更新的内容,C^t 。在下一步,我们把这两部分联合起来,对 cell 的状态进行一个更新。

现在是更新旧细胞状态的时间了,Ct−1更新为Ct。前面的步骤已经决定了将会做什么,我们现在就是实际去完成。

我们把旧状态与ft相乘,丢弃掉我们确定需要丢弃的信息。接着加上it∗C~t。这就是新的候选值,根据我们决定更新每个状态的程度进行变化。

输出门

最终,我们需要确定输出什么值。这个输出将会基于我们的细胞状态,但是也是一个过滤后的版本。首先,我们运行一个 sigmoid 层来确定细胞状态的哪个部分将输出出去。接着,我们把细胞状态通过 tanh 进行处理(得到一个在 -1 到 1 之间的值)并将它和 sigmoid 门的输出相乘,最终我们仅仅会输出我们确定输出的那部分。

总结

本周我们主要对LSTM的相关内容进行了学习。下周我们将对更多的RNN变形模型展开学习。

猜你喜欢

转载自blog.csdn.net/weixin_43971717/article/details/128276496
今日推荐