2023.1.1 第三十七次周报

目录

前言

文献阅读:DSTP-RNN:用于长期和多变量时间序列预测的双阶段两阶段基于注意力的递归神经网络

背景

两个动机

主要贡献

时间序列预测方法

基于注意力的神经网络结构

长期预测分析(实验)

结论

注意力机制attention Mechanism

什么是注意力机制

手推Attention Mechanism 

假想机翻任务

初始化

翻译步骤

注意力机制的优缺点

总结


前言

This week, I studied an article about building two attention-based recurrent neural networks for time prediction.In this study, the authors propose two novel attention-based RNNs for long-term and multivariate time series forecasting.Overall, the model constructed by the authors enhances the attention mechanism of spatial correlation and temporal relationship to better learn spatiotemporal relationships, thereby outperforming state-of-the-art methods in four datasets and different time-step predictions.In addition, in terms of deep learning, the content related to the attention mechanism was learned.

本周学习了一篇文章,主要讲的是构建了两个基于注意力的递归神经网络用来做时间预测。在这项研究中,作者提出了两种用于长期和多变量时间序列预测的新型基于注意力的RNN。总的来说,作者构建的模型增强了空间相关性和时间关系的注意力机制,以更好地学习时空关系,从而在四个数据集和不同时间步长预测中优于最先进的方法。除此之外,在深度学习方面,学习了注意力机制的相关内容。

文献阅读:DSTP-RNN:用于长期和多变量时间序列预测的双阶段两阶段基于注意力的递归神经网络

--Yeqi Liu, Chuanyang Gong, Ling Yang, Yingyi Chen,
DSTP-RNN: A dual-stage two-phase attention-based recurrent neural network for long-term and multivariate time series prediction,
Expert Systems with Applications,
Volume 143,
2020,
113082,
ISSN 0957-4174,
https://doi.org/10.1016/j.eswa.2019.113082.

背景

随着物联网和大数据的发展,特定对象的数据收集是从许多不同的特征维度进行的。因此,时间序列主要以多变量特征的形式呈现。另外,目前时间序列的单步预测或短期预测在很多领域的应用前景有限,长期预测在各个领域的应用更有意义。然而,多元时间序列的长期预测仍然是一个具有挑战性的问题,主要体现在不同序列之间时空关系的特征表示和选择机制上。尽管时间序列预测在研究界引起了广泛的关注,但典型的方法,主要侧重于解决动态时空关系的一个方面。因此,这些方法不可能实现对多元时间序列的准确和稳健的长期预测。此外,基于注意力的RNN用于有效地表示和学习时间序列中的时空相关性,但这些方法仅在单步预测和短期预测中成功应用。

两个动机

本文的第一个动机是开发一个优秀的智能模型来表示和学习时间序列中的时空关系,该模型可以实现时间序列的准确长期预测,并为上述领域提供可靠的专家和智能系统。

本文的第二个动机是研究一些适合于表示和学习时间序列中时空关系的新型注意力结构。因此,我们研究了分层注意力机制(DSTP-RNN),分层和并行混合注意力机制(DSTP-RNN-II.)和深度注意力机制(DeepAttn)。

主要贡献

1.DSTP-RNN.受人类注意力的DSTP模型(Ronald等人,2010)的启发,我们建议DSTP-RNN来表示和学习时间序列中的鲁棒时空关系。两相意味着两个连续的注意力模块,有或没有目标序列以产生空间相关性,并且这两个阶段在对干扰的敏感性方面有所不同。双阶段是指原始序列的空间注意力机制和最后一个空间注意力中隐藏状态的时间注意力机制。

2.目标和无目标信息机制。受人类神经元信号的目标和非目标信息机制启发(Ronald et al., 2010),我们开发了DSTP-RNN-II.,以基于并行空间注意力模块提取目标序列和外生序列之间的空间相关性。此外,我们更关注目标系列的过去信息,以更好地学习长期依赖性。具体来说,我们将外生系列对应的目标系列的过去信息嵌入到最后阶段的空间注意力模块中。

3.深度空间关注。 由于人类神经网络的多层结构(Fukushima & Miyake, 1982),我们进一步研究了深度空间注意机制对时空关系的有效性,并给出了解释实验。本文系统地为基于注意力的RNN方法的时间序列预测专家和智能系统提供了参考,因为比较了七个基于注意力的RNN模型,包括三个新提出的模型。

4.在许多领域的应用。 实验结果表明,本工作可以成功用于开发具有广泛应用的专家和智能系统,在能源、金融、环境和医学领域的四个数据集上,其最先进的性能优于九种基线方法

时间序列预测方法

与我们的工作最相关的是(Qin等人,2017)和(Yuxuan等人,2018)采用基于编码器 - 解码器模型的两阶段注意力机制来预测多变量时间序列,同时考虑时空关系。在第一阶段,空间注意力用于学习空间相关性。第二阶段,通过时间注意力机制选择空间阶段的相关隐藏状态,保证时间依赖性。此外,它将所有隐藏状态编码到上下文向量中,以学习不同时间的时空关系。因此,这些网络考虑了同时和不同时间的空间相关性,以及时间维度上的时间关系。

然而,这些基于注意力的RNN方法忽略了目标序列和外生序列之间的空间相关性。此外,单层空间注意力结构学习的权重是分散和暴力的,因此它们只适用于一步或短期预测。实际上,单相不是严格选择性的,也容易受到干扰。例如,来自不相关属性的信息也可以被赋予显著的注意力权重。相比之下,我们采用两阶段注意力机制来学习目标序列和外生序列之间更强大的空间相关性。第一阶段产生暴力但分散的注意力权重,而第二阶段导致固定和集中的注意力权重。此外,对目标序列分配了更多的关注机制,以捕获长期依赖性。最后,我们还研究了深度空间注意机制对空间相关性的响应。

基于注意力的神经网络结构

基于注意力的神经网络首先用于自然翻译(Bahdanau等人,2015),现在它们被广泛用作机器翻译,图像标题,时间序列预测等。注意力机制可以分为三类:单层注意机制,双层注意机制和深度注意机制。具体来说,双层注意力机制包括平行注意力机制,分层注意力机制以及混合注意力机制。一般来说,不同的注意力网络可以应用于不同的任务,但可以训练更深层次的注意力结构来学习更准确的权重。在本文中,我们研究了时间序列预测中的分层注意力机制(DSTP-RNN),分层和并行混合注意力机制(DSTP-RNN-II.)和深度注意机制(DeepAttn)。

长期预测分析(实验)

长期预测在实际应用中更为显著,可以为下一步动作提供足够的缓冲时间。 图中显示了不同时间步长预测的实验结果。我们可以观察到,随着时间步长τ的增加,预测性能会逐渐下降。还发现,这种趋势在纳斯达克100数据集中相对较慢,因为训练数据量足够。此外,在大多数情况下,DSTP-RNN和DSTP-RNN-II.模型在短期和长期预测方面都优于最先进的方法。此外,在大多数情况下,DSTP-RNN-II.在短期预测中的表现优于DSTP-RNN。然而,与目前最先进的方法相比,我们提出的方法在一些小数据集(例如图中的SML2010数据集)的短期预测中没有显着改进。因此,在短期预测中,我们应该更多地关注时空关系的微小波动,而不是更多地关注目标序列的长期依赖性。

结论

在本文中,我们提出了两种用于长期和多变量时间序列预测的新型基于注意力的RNN,即DSTP-RNN和DSTP-RNN-II.。总的来说,我们的模型增强了空间相关性和时间关系的注意力机制,以更好地学习时空关系,从而在四个数据集和不同时间步长预测中优于最先进的方法。我们对基于注意力的模型的解释为进一步理解时空关系和进一步探索基于注意力的时间序列预测方法提供了成熟的思路。大量的实验证明了以下结论:

•DSTP-RNN和DSTP-RNN-II.模型在长期预测中取得了最好的结果,表明人工神经网络的仿生结构在实际应用中具有优异的性能。与人类DSTP模型中的神经反应类似,第一阶段的注意力权重是暴力但分散的,第二阶段导致静止和集中的反应权重,因此提取的空间相关性更加稳定有效。

•由于目标信息和非目标信息在人类神经元信号中的有效性,DSTP-RNN-II.模型和末期对应目标信息的串联方法可以有效提高模型捕捉目标序列与外生序列之间时空关系的能力。

•更深的空间机制不是必需的,因为更深层次的注意力权重是均匀分布的。此外,预测性能会随着时间步长的增加而降低。

总体而言,实现多元时间序列的准确长期预测的关键问题是解决三个主要挑战,包括表示和学习(1)不同属性之间的空间相关性,(2)不同属性在不同时间的时空关系,以及(3) 不同序列之间的时间关系。因此,我们未来可以从以下研究方向进一步发展。

•本研究分别基于原始变量和编码器-解码器模型表示时空特征,并基于不同的注意力机制学习时空关系。然而,使用新颖的注意力机制来表示和学习时间序列中的时空关系仍然是一个悬而未决的问题。特别是,重要的是同时从不同的空间和时间维度学习时空注意力权重(Liu等人,2019),并加强学习时空关系的能力(Cinar等人,2018)。

•建立混合神经网络(Yolcu等人,2018)或结合传统的时间序列预测方法(Chang等人,2018;李等人,2019)可以更好地学习时间序列中的时空关系,例如,使用 CNN 捕获空间相关性并结合经典 AR 方法进行混合预测(Chang 等人,2018 年)。

•原始数据的分解或降维等预处理方法可以组合在基于注意力的方法中,因为深度学习模型是数据驱动的,而目前大多数基于注意力的方法并不执行大量的数据预处理Zhao et al., 2018)。

•时间序列预测策略的选择对专家和智能系统具有重要意义,例如,设计多步预测策略并更好地利用目标序列的过去信息(网络)。

注意力机制attention Mechanism

什么是注意力机制

“注意力机制”实际上就是想将人的感知方式、注意力的行为应用在机器上,让机器学会去感知数据中的重要和不重要的部分。

打个比方:当我们观察下面这张图片时,大部分人第一眼应该注意到的是小猫的面部以及吐出的舌头,然后我们才会把我们的注意力转移到图片的其他部分。

所谓的"注意力机制"也就是当机器在做一些任务,比如要识别图片中是一个什么动物时,我们让机器也存在这样的一个注意力侧重,最重要该关注的地方就是图片中动物的面部特征,包括耳朵,眼睛,鼻子,嘴巴,而不用太关注背景的一些信息,核心的目的就在于希望机器能在很多的信息中注意到对当前任务更关键的信息,而对于其他的非关键信息就不需要太多的注意力侧重。

同样的如果我们在机器翻译中,我们要让机器注意到每个词向量之间的相关性,有侧重地进行翻译,模拟人类理解的过程。

手推Attention Mechanism 

​​​​​​​

假想机翻任务

初始化

假设原语言的词汇量就只有五个字“我”、“很”、“好”、“不”、“你”,别的字不存在。需要翻译的目标语言的英语的词汇量也只有五个'I'、'am'、‘fine'、‘you’、‘very’,再加上Begin of sequence(BOS)和End of sequence(EOS) 就算七个词汇量,别的都不存在。然后随机给这些词生成了词向量,三个数字代表一个词。如下图所示。

翻译步骤

第一步:我们先过一遍编码器,初始hidden state和cell state 都是随机生成的。x1,x2,x3分别是”我”、“很”、“好”的词向量。

第二步:第一个时间节点LSTM输入为x1,h0,c0生成了hidden state h1,cell state c1;                                    然后h1,c1,x2是下一个时间节点的输入, 生成了hidden state h2,cell state c2;                                然后h2,c2,x3是下一个时间节点的输入, 生成了hidden state h3,cell state c3。

第三步:然后再拿着h3进入解码器,h3就变成了解码器h0',拿着h1,h2,h3和h0'进入attention黑盒子。

第四步:把这四个hidden state如下图一样粘起来,然后和alignment weights矩阵相乘,得到energy这组数字。

第五步: 然后energy进入softmax就得到attention,用来衡量哪一个编码器的hidden state是最重要的。(最大的就是最重要的)

第六步:然后用hidden state 和attention矩阵相乘,得到我们想要的context vector。

 

第七步:把算出来的context vector 和 Begin of sequence这个词向量粘起来,放进LSTM得到hidden state h1'。 

 第八步:把h1'放进layer 成为一个七类(这是因为我们要翻译的英文单词总共有七个)分类任务,找到数字最大的那个,就是翻译出的词。

第九步:翻译出的词的词向量顶替了BOS的位置,然后用h1',h1,h2,h3进入黑盒子,以此类推。

注意力机制的优缺点

优点:
1)一步到位的全局联系捕捉
2)并行计算减少模型训练时间
3)模型复杂度小,参数少
缺点:
attention机制不能捕捉语序顺序,即元素的顺序,这在NLP中是比较糟糕的,因为自然语言的语序是包含了太多的信息。

总结

本周简单学习了注意力机制的相关内容。下周我们将系统的学习svm,元胞自动机和许多优化方法。

猜你喜欢

转载自blog.csdn.net/weixin_43971717/article/details/128508382