神经网络学习（十八）循环神经网络（RNN）的正向和反向传播算法梳理

系列博客是博主学习神经网络中相关的笔记和一些个人理解，仅为作者记录笔记之用，不免有很多细节不对之处。

回顾

前面五小节，我们简单学习了卷积神经网络（CNN）反向传播算法的推导，然后我们自己实现了一个浅层卷积神经网络。卷积神经网络在本系列中先告一段落，我们开始学习循环神经网络的相关知识。本系列的主旨是基础学习，大致了解各个神经网络的基本原理。至于更深的应用，我们留待以后学习。

正向传播

网上关于RNN的介绍非常多，我们这里就不多啰嗦了（主要博主也是似懂非懂），直接进入它的公式部分。为了方便理解，咱们还是以一个直观RNN的展开图开始

就上面的网络结构而言，RNN结构的基本单元可以看作是简单的三层神经网络（也可以是多层的，为了简单起见，以三层为例），与常规的神经网络不同的地方在于，它的隐层会将上一个时刻的隐层输出纳入到当前时刻隐层的输入中，这样就携带了过往时刻的相关信息了。下面是公式的对比

	BP Net	RNN
input layer	$a=x$	$a^t=x^t$
hidden layer	$z_h=Va+b_h\\h=\sigma(z_h)$	$z_h^t=Va^t+\color{red}{Uh^{t-1}_h}+b_h\\h^t=\sigma(z^t_h) [一般选取tanh函数]$
output layer	$z_y=Wh+b_y\\y=\sigma(z_y)$	$z_y^t=Wh^t+b_y\\y^t=\sigma(z^t_y)$

结合上图，RNN的正向传播算法就很好理解了。RNN的输入是序列数据，需要训练的模型参数有 $V$ 、 $W$ 、 $U$ 和 $b_h、b_y$ 。下图为某时刻隐层单元的结构示意图

反向传播

记 $C = f(W,U,V,b_h,b_h)$ 是我们的代价函数，依旧记 $\delta = {\partial C}/{\partial z}$ 为误差。那么有

\begin{matrix} (1) & δ_{y}^{t} = \nabla_{y^{t}} C ⊙ σ^{'} (z_{y}^{t}) \end{matrix}

$\delta^t_y=\nabla_{y^t}C \odot \sigma'(z_y^t)\tag{1}$ ，由上式可推导出

\begin{matrix} (2) & δ_{h}^{t} = \frac{\partial C}{\partial z_{h}^{t}} = \frac{\partial C}{\partial z_{y}^{t}} \frac{\partial z_{y}^{t}}{\partial h^{t}} \frac{\partial h^{t}}{\partial z_{h}^{t}} + \frac{\partial C}{\partial z_{y}^{t + 1}} \frac{\partial z_{y}^{t + 1}}{\partial h^{t}} \frac{\partial h^{t}}{\partial z_{h}^{t}} = (W^{T} δ_{y}^{t} + U^{T} δ_{h}^{t + 1}) ⊙ σ^{'} (z_{h}^{t}) \end{matrix}

$% MathType!MTEF!2!1!+- % feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn % hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqr1ngB % PrgifHhDYfgatCvAUfeBSn0BKvguHDwzZbqegSSZmxoasaacH8srpm % 0dbbf9q8WrFfeuY-Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0-yr % 0RYxir-Jbba9q8aq0-yq-He9q8qqQ8frFve9Fve9Ff0dmeaabaqaci % GacaGaaeqabaWaaeaaeaqbaOqaaiabes7aKnaaDaaaleaacaWGObaa % baGaamiDaaaakiabg2da9maalaaabaGaeyOaIyRaam4qaaqaaiabgk % Gi2kaadQhadaqhaaWcbaGaamiAaaqaaiaadshaaaaaaOGaeyypa0Za % aSaaaeaacqGHciITcaWGdbaabaGaeyOaIyRaamOEamaaDaaaleaaca % WG5baabaGaamiDaaaaaaGcdaWcaaqaaiabgkGi2kaadQhadaqhaaWc % baGaamyEaaqaaiaadshaaaaakeaacqGHciITcaWGObWaaWbaaSqabe % aacaWG0baaaaaakmaalaaabaGaeyOaIyRaamiAamaaCaaaleqabaGa % amiDaaaaaOqaaiabgkGi2kaadQhadaqhaaWcbaGaamiAaaqaaiaads % haaaaaaOGaey4kaSceeG+aaaaaaOl7jVkapeWaaSaaaeaacqGHciIT % caWGdbaabaGaeyOaIyRaamOEamaaDaaaleaacaWG5baabaGaamiDai % abgUcaRiaaigdaaaaaaOWaaSaaaeaacqGHciITcaWG6bWaa0baaSqa % aiaadMhaaeaacaWG0bGaey4kaSIaaGymaaaaaOqaaiabgkGi2kaadI % gadaahaaWcbeqaaiaadshaaaaaaOWaaSaaaeaacqGHciITcaWGObWa % aWbaaSqabeaacaWG0baaaaGcbaGaeyOaIyRaamOEamaaDaaaleaaca % WGObaabaGaamiDaaaaaaGcpaGaaeypamaabmaabaWaaeWaaeaacaWG % xbaacaGLOaGaayzkaaWaaWbaaSqabeaacaWGubaaaOGaeqiTdq2aa0 % baaSqaaiaadIgaaeaacaWG0baaaOGaey4kaSYdbmaabmaabaGaamyv % aaGaayjkaiaawMcaamaaCaaaleqabaGaamivaaaakiabes7aKnaaDa % aaleaacaWGObaabaGaamiDaiabgUcaRiaaigdaaaaak8aacaGLOaGa % ayzkaaGaeSyMIuMaeq4WdmNaai4jamaabmaabaGaamOEamaaDaaale % aacaWGObaabaGaamiDaaaaaOGaayjkaiaawMcaaaaa!9F46! \delta _h^t = \frac{{\partial C}}{{\partial z_h^t}} = \frac{{\partial C}}{{\partial z_y^t}}\frac{{\partial z_y^t}}{{\partial {h^t}}}\frac{{\partial {h^t}}}{{\partial z_h^t}} + \color{red}{\frac{{\partial C}}{{\partial z_y^{t + 1}}}\frac{{\partial z_y^{t + 1}}}{{\partial {h^t}}}\frac{{\partial {h^t}}}{{\partial z_h^t}}}{\rm{ = }}\left( {{{W}^T}\delta _y^t + \color{red}{{{U}^T}\delta _h^{t + 1}}} \right) \odot \sigma '\left( {z_h^t} \right)\tag{2}$ 上面表红的地方是因为下一个时刻的

z^{t + 1}

$z^{t+1}$ 也需要当前时刻的

h^{t}

$h^{t}$ 。有了

δ

$\delta$ 的表达式，我们就可以很容易计算出模型参数的梯度，如下：

\begin{matrix} (3) & \frac{\partial C}{\partial W} = \frac{\partial C}{\partial z_{y}^{t}} \frac{\partial z_{y}^{t}}{\partial W} = {(h^{t})}^{T} δ_{y}^{t} \end{matrix}

$\frac{{\partial C}}{{\partial W}} = \frac{{\partial C}}{{\partial z_y^t}}\frac{{\partial z_y^t}}{{\partial W}} = {\left( {{h^t}} \right)^T}\delta _y^t\tag{3}$

\begin{matrix} (4) & \frac{\partial C}{\partial V} = \frac{\partial C}{\partial z_{h}^{t}} \frac{\partial z_{h}^{t}}{\partial W} = a^{T} δ_{h}^{t} \end{matrix}

$\frac{{\partial C}}{{\partial V}} = \frac{{\partial C}}{{\partial z_h^t}}\frac{{\partial z_h^t}}{{\partial W}} = {a^T}\delta _h^t\tag{4}$

\begin{matrix} (5) & \frac{\partial C}{\partial U} = \frac{\partial C}{\partial z_{h}^{t}} \frac{\partial z_{h}^{t}}{\partial U} = {(h^{t - 1})}^{T} δ_{h}^{t} \end{matrix}

$\frac{{\partial C}}{{\partial U}} = \frac{{\partial C}}{{\partial z_h^t}}\frac{{\partial z_h^t}}{{\partial U}} = {\left( {{h^{t - 1}}} \right)^T}\delta _h^t\tag{5}$

\begin{matrix} (6) & \frac{\partial C}{\partial b_{h}} = δ_{h}^{t}, \frac{\partial C}{\partial b_{y}} = δ_{y}^{t} \end{matrix}

$\frac{{\partial C}}{{\partial {b_h}}} = \delta _h^t,\frac{{\partial C}}{{\partial {b_y}}} = \delta _y^t\tag{6}$ 通过矩阵的写法，反向传播算法的表述十分简洁清晰。利用公式（1）-（6）我们就可以实现误差的反向传播了。

小结

上面简单总结了通用的RNN模型和正向反向传播算法。当然，有些RNN模型会有些不同，自然正向反向传播的公式会有些不一样，但是原理基本类似。

RNN虽然理论上可以很漂亮的解决序列数据的训练，但是它也像DNN一样有梯度消失时的问题，当序列很长的时候问题尤其严重。因此，上面的RNN模型一般不能直接用于应用领域。

参考资料：
1、循环神经网络RNN以及LSTM的推导和实现