RNN、LSTM和GRU简介

RNN图解

这是网络结构,但和时间有关,为了更好显示可以按时间展开

在这里插入图片描述
按训练次数展开
在这里插入图片描述
在这里插入图片描述

LSTM

参考:参考1参考2参考3
在这里插入图片描述
在这里插入图片描述
为什么使用tanh?
为了克服梯度消失问题,我们需要一个二阶导数在趋近零点之前能维持很长距离的函数。tanh是具有这种属性的合适的函数。
为什么要使用Sigmoid?
由于Sigmoid函数可以输出0或1,它可以用来决定忘记或记住信息。

三个门的作用:
在这里插入图片描述
当ft=0,it=1时,包含历史信息的内部状态ct-1被丢弃,历史信息被清空,此时的内部状态ct只记录了t-1时刻的信息,也就是候选状
当ft=1,it=0时,内部状态ct只复制了前一个内部状态ct-1中的历史信息,而不写入由xt带来的新信息。

遗忘门公式:
在这里插入图片描述
其中Wf*[h,x]可写做以下形式,
在这里插入图片描述
输入门:
在这里插入图片描述
记忆单元状态:
在这里插入图片描述
在这里插入图片描述
输出门:
在这里插入图片描述
最终输出:
在这里插入图片描述

GRU

在这里插入图片描述
公式:
在这里插入图片描述
将输入门、遗忘门、输出门变为两个门:遗忘门和输入门合并为一个更新门(Update Gate)和重置门(Reset Gate)。
将单元状态与输出合并为一个状态:。

发布了70 篇原创文章 · 获赞 1 · 访问量 2410

猜你喜欢

转载自blog.csdn.net/weixin_43794311/article/details/105182494