《序列模型》之循环神经网络基础

RNN model

模型架构

这里写图片描述
这里写图片描述

BPTT

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

不同类型的RNN

这里写图片描述

梯度爆炸和梯度消失

出现原因

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

解决梯度爆炸

检测

这里写图片描述

梯度裁剪

这里写图片描述
这里写图片描述

截断BPTT

这里写图片描述

解决梯度消失

很难检测

这里写图片描述
这里写图片描述

如何解决

  • LSTM,GRU
  • ReLU激活函数
  • 循环权重矩阵初始化方法
  • Skip connections
    这里写图片描述
    这里写图片描述
    将权重矩阵分解 Q 1 Λ Q 的话,其中 Λ 是对角线上是特征值的对角矩阵,Q是特征值对应的特征向量组成的矩阵。
    那么若干时间步的权重乘积可以表示为 Q 1 Λ n Q
    由正交矩阵的特征值绝对值等于1的特性,可以得出进行若干次矩阵乘法的结果既不会爆炸也不会消失。
    这里写图片描述

LSTM and GRU

这里写图片描述

LSTM v0

这里写图片描述
这里写图片描述

LSTM with forget gate

这里写图片描述
这里写图片描述
Long Short-term Memory

GRU

这里写图片描述
这里写图片描述
On the Properties of Neural Machine Translation: Encoder-Decoder Approaches
Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

LSTM or GRU

  • LSTM 更加灵活
  • GRU 更少的参数
    一般先训练LSTM,然后训练GRU,最后对比并选择

BiRNN and Deep RNN

这里写图片描述
这里写图片描述
参考资料

《深度学习》deeplearning.ai
Introduction to Deeplearning HEC

猜你喜欢

转载自blog.csdn.net/u012151283/article/details/79249667