RNN与LSTM(反向传播待补充)

1.RNN

在这里插入图片描述

  • 针对问题:训练样本是序列数据
  • 模型思想:循环反馈
  • 模型特点:
    (1)随着序列的推进,前面的隐层将会影响后面的隐层
    (2)U、V、W权值共享
    (3)每个输入只与它本身的那条路线建立权连接,不会和别的神经元连接。
  • 模型缺点:梯度消失,无法处理长序列数据(解决:LSTM、GRU)

RNN的前向传播

在这里插入图片描述

基于时间反向传播BPTT

(略)

2.LSTM

针对RNN梯度消失问题,对序列索引位置t的隐藏结构做改进:

  • 新增另一个隐藏状态,称为细胞状态(LSTM的核心思想)
  • 设置门控结构控制细胞状态:遗忘门、输入门、输出门

2.1 遗忘门

遗忘门决定了上一时刻的细胞状态 C ( t 1 ) C^{(t-1)} (代表长期的记忆) 有多少保留到当前时刻的细胞状态 C ( t ) C^{(t)}
在这里插入图片描述
遗忘门 f ( t ) f^{(t)} 的公式形式和RNN的隐藏状态 h ( t ) h^{(t)} 更新公式一致,区别在于激活函数,RNN是tanh激活函数,取值[-1,1],遗忘门是sigmoid函数,取值[0,1]代表遗忘概率。

2.2 输入门

输入门决定了当前时刻的输入 x ( t ) x^{(t)} 有多少保存到当前时刻的细胞状态 C ( t ) C^{(t)}
在这里插入图片描述
输入门的第一部分 i ( t ) i^{(t)} 表示保存概率,取值[0,1],公式形式和遗忘门完全一样,第二部分 a ( t ) a^{(t)} 代表当前的记忆,公式形式则和RNN的隐藏状态 h ( t ) h^{(t)} 更新公式完全一致。

2.3 细胞状态更新

在研究LSTM输出门之前,我们要先看看LSTM之细胞状态。前面的遗忘门和输入门的结果都会作用于细胞状态 C ( t ) C^{(t)}

2.4 输出门

输出门决定了当前细胞状态 C ( t ) C^{(t)} 有多少输出到 LSTM 的当前输出值 h ( t ) h^{(t)}
在这里插入图片描述
输出门的第一部分 o ( t ) o^{(t)} 表示保存概率,公式形式和遗忘门完全一样

LSTM的前向传播

在这里插入图片描述

LSTM的反向传播

(略)

参考:https://www.cnblogs.com/pinard/p/6519110.html

猜你喜欢

转载自blog.csdn.net/weixin_38493025/article/details/84282901
今日推荐