[神经网络学习笔记]长短期记忆模型(Long-Short Term Memory,LSTM)综述

长短期记忆模型(Long-Short Term Memory,LSTM)

学习其他模型链接

一、引言

  • RNN会受到短时记忆的影响。如果一条序列足够长,那它们将很难将信息从较早的时间步传送到后面的时间步。 因此,如果处理一段文本进行预测,RNN 可能从一开始就会遗漏重要信息。
  • 在反向传播期间,RNN 会面临梯度消失的问题。 梯度是用于更新神经网络的权重值,消失的梯度问题是当梯度随着时间的推移传播时梯度下降,如果梯度值变得非常小,就不会继续学习。
  • 解决短时记忆问题的解决方案LSTM,它们具有称为“门”的内部机制,可以调节信息流

二、LSTM单元有三种类型的门控

Lstm对信息的存储和更新正是通过这些门控来实现。门控是由 sigmoid 函数和点乘运算实现,门控并不会提供额外
的信息。输出是0-1

在这里插入图片描述

分别使用 i、f 和 o 来表示输入、 遗忘和输出门,⊙ 代表对
应元素相乘,W 和 b 表示网络的权重矩阵和偏置向量

(一)遗忘门

在这里插入图片描述

可以控制哪些信息要保留哪些要遗忘,并且以某种方式避免当梯度随时间反向传播时引发的梯度消失和爆炸问题。即上一时刻记忆单元 ct-1 中的信息对当前记忆单元 ct的影响。数学表达式:
在这里插入图片描述

(二)输入门:

在这里插入图片描述

  • 输入门用于更新细胞状态。首先将前一层隐藏状态的信息和当前输入的信息传递到 sigmoid 函数中去。将值调整到 0~1 之间来决定要更新哪些信息。0 表示不重要,1 表示重要。
  • 其次还要将前一层隐藏状态的信息和当前输入的信息传递到 tanh 函数中去,创造一个新的侯选值向量。最后将 sigmoid 的输出值与 tanh 的输出值相乘,sigmoid 的输出值将决定 tanh 的输出值中哪些信息是重要且需要保留下来的。
  • 在时间步 t 时,LSTM 的隐藏层的输入和输出向量分别为 xt 和 ht,记忆单元为 ct。 输入门用于控制网络当前输入数据 xt 流入记忆单元的多少,即有多少可以保存到 ctt,数学表达式为:

在这里插入图片描述

(三)单元(又称细胞cell)更新

在这里插入图片描述

  • 先前一层的细胞状态与遗忘向量逐点相乘。如果它乘以接近 0 的值,意味着在新的细胞状态中,这些信息是需要丢弃掉的。然后再将该值与输入门的输出值逐点相加,将神经网络发现的新信息更新到细胞状态中去。至此,就得到了更新后的细胞状态。

(四)输出门

在这里插入图片描述

  • 输出门用来确定下一个隐藏状态的值
  • 第一步:我们将前一个隐藏状态和当前输入传递到 sigmoid 函数中,然后将新得到的细胞状态传递给 tanh 函数。
  • 第二步:将 tanh 的输出与 sigmoid 的输出相乘,以确定隐藏状态应携带的信息。再将隐藏状态作为当前细胞的输出,把新的细胞状态和新的隐藏状态传递到下一个时间步长中去。
  • 输出门控制记忆单元 ct 对当前输出值 ht的影响,即记忆单元中的哪一部分会在时间步 t 输出。输出门的值如下式1所示,LSTM 单元的在 t 时刻的输出 ht 可以通过如下式2 得到
    在这里插入图片描述

五、学习汇报PPT

猜你喜欢

转载自blog.csdn.net/weixin_43935696/article/details/107485607
今日推荐