GRU神经网络

转自：http://blog.csdn.net/wangyangzhizhou/article/details/77332582

前面已经详细讲了LSTM神经网络（文末有链接回去），接着往下讲讲LSTM的一个很流行的变体。

GRU是什么

GRU即Gated Recurrent Unit。前面说到为了克服RNN无法很好处理远距离依赖而提出了LSTM，而GRU则是LSTM的一个变体，当然LSTM还有有很多其他的变体。GRU保持了LSTM的效果同时又使结构更加简单，所以它也非常流行。

回顾一下LSTM的模型，LSTM的重复网络模块的结构很复杂，它实现了三个门计算，即遗忘门、输入门和输出门。

这里写图片描述

而GRU模型如下，它只有两个门了，分别为更新门和重置门，即图中的 zt 和 rt 。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多。

这里写图片描述

根据前面GRU模型图来一步步看他是怎么向前传播的，根据图不难得到以下式子：

r t = σ (W r \cdot [h t - 1, x t])

z t = σ (W z \cdot [h t - 1, x t])

h ~ t = tanh (W h ~ \cdot [r t * h t - 1, x t])

h t = (1 - z t) * h t - 1 + z t * h ~ t

y t = σ (W o \cdot h t)

其中[]表示两个向量相连接，*表示矩阵元素相乘。

从前面的公式中可以看到需要学习的参数就是 WrWzWhWo 那些权重参数，其中前三个权重都是拼接的，所以在学习时需要分割出来，即

W r = W r x + W r h

W z = W z x + W z h

W h ~ = W h ~ x + W h ~ h

输出层的输入 yit=Woh ，输出为 yot=σ(yit) 。

设某时刻的损失函数为 Et=12(yd−yot)2 ，则某样本的损失为

E=∑Tt=1Et

与前面LSTM网络类似，最终可以推出

\partial E \partial W o = δ y, t h t

\partial E \partial W z x = δ z, t x t

\partial E \partial W z h = δ z, t h t - 1

\partial E \partial W h ~ x = δ t x t

\partial E \partial W h ~ h = δ t (r t \cdot h t - 1)

\partial E \partial W r x = δ r, t x t

\partial E \partial W r h = δ r, t h t - 1

δ y, t = (y d - y o t) \cdot σ'

δ h, t = δ y, t W o + δ z, t + 1 W z h + δ t + 1 W h ~ h \cdot r t + 1 + δ h, t + 1 W r h + δ h, t + 1 \cdot (1 - z t + 1)

δ z, t = δ t, h \cdot (h ~ t - h t - 1) \cdot σ'

δ t = δ h, t \cdot z t \cdot ϕ'

δ r, t = h t - 1 \cdot [(δ h, t \cdot z t \cdot ϕ') W h ~ h] \cdot σ'

以下是广告和相关阅读

========广告时间========

公众号的菜单已分为“分布式”、“机器学习”、“深度学习”、“NLP”、“Java深度”、“Java并发核心”、“JDK源码”、“Tomcat内核”等，可能有一款适合你的胃口。

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了，有需要的朋友可以购买。感谢各位朋友。

=========================