通俗易懂GRU｜门控循环单元(gated recurrent unit， GRU)

前情回顾

戳上方蓝字【阿力阿哩哩的炼丹日常】关注我~

今天继续给大家介绍第四章的内容

前面我们介绍了:

深度学习开端-全连接神经网络

一文掌握CNN卷积神经网络

超参数（Hyperparameters）| 上

超参数（Hyperparameters）| 下

寄己训练寄己｜自编码器

扫描二维码关注公众号，回复： 9366783 查看本文章

通熟易懂RNN｜RNN与RNN的变种结构 | 上

通俗易懂LSTM｜RNN的变种结构 | LSTM长短期记忆网络

4.6

RNN与RNN的变种结构

4.6.5 門控循環單元(gated recurrent unit， GRU)

4.6.5节我们了解了LSTM的原理，但大家会觉得LSTM门控网络结构过于复杂与冗余。为此，Cho、van Merrienboer、 Bahdanau和Bengio[1]在2014年提出了GRU门控循环单元，这个结构如图 4.53所示，是对LSTM的一种改进。它将遗忘门和输入门合并成更新门，同时将记忆单元与隐藏层合并成了重置门，进而让整个结构运算变得更加简化且性能得以增强。

当重置门接近于0时，隐藏状态被迫忽略先前的隐藏状态，仅用当前输入进行复位。这有效地使隐藏状态可以丢弃将来以后发现不相关的任何信息，从而允许更紧凑的表示。

另一方面，更新门控制从前一个隐藏状态将有多少信息转移到当前隐藏状态。这类似于LSTM网络中的记忆单元，并有助于RNN记住长期信息。

由于每个隐藏单元都有单独的重置和更新门，因此每个隐藏单元将学会捕获不同时间范围内的依赖关系。那些学会捕获短期依赖关系的单元将倾向于重置门，而那些捕获长期依赖关系的单元将倾向于更新门。

而且大量的实验证明，GRU在结构上比LSTM简单，参数更少，但在实践中与LSTM的性能却没有明显的差距，甚至可能在某些任务上性能更好，因此也是当前较为流行的一种RNN变种结构。

图 4.53 GRU门控循环单元

4.6.6 RNN与RNN变种结构小结

好了，到这里，我们就已经将RNN和其变种结构LSTM与GRU的知识点都讲完了。而且我们要知道的是，由于RNN存在梯度爆炸和梯度消失的缺点，现在LSTM和GRU的应用范围会比RNN广阔得多，所以提及RNN，一般指的都是它的变种结构。不过讲了这么多，我们在神经网络框架Keras或者Tensorflow上使用它们也就两三行代码，但是只有当我们熟悉原理，才能更加好地使用它们去完成相应的任务。

当然，笔者在本节所提及的RNN模型只是几种经典的结构，它有各种各样的变种，因此大家需要熟悉它的原理，并在实际工作和学习中结合问题去选择合适的结构，做到具体问题具体分析，切忌死记硬背。