深度学习中的循环神经网络

1. 循环神经网络的引入与简介
- 1.1 延时神经网络
- 1.2 同步学习模式和异步学习模式
2. 梯度训练BPTT算法与RTRL算法
- 2.1 BPTT算法
- 2.2 RTRL算法
3. 常见的循环神经网络及其变体
4. 双向(Bidirectional)循环神经网络和多层(MultiLayers)神经网络。
- 4.1 双向循环神经网络
- 4.2 多层循环神经网络
5. 应用举例(用theano和pytorch实现循环神经网络)
- 5.1 实验设计
- 5.2 实验训练和结果分析
小结
参考文献

1. 循环神经网络的引入与简介

在前馈神经网络中，信息的传递是单向传递过程，这种学习方法使得网络很容易学习，但是也一定程度上限制了神经网络模型的学习能力。但是在很多任务中，存在一些网络的输入不仅和当前的输入有关系，也和网络的历史输入信息有关系，例如有限状态的自动机。时序数据的长度序列长度不是固定的，不可任意改变。循环神经网络在一定程度上解决了这一类问题，它是一种具有短期记忆能力的神经网络，广泛使用到语音识别、语言模型以及其他自然语言处理等等任务上。循环神经网络中的参数学习过程使用到随时间反向传播算法来进行学习。但是普通的神经网络学习过程中的长期依赖关系，会出现梯度爆炸和消失问题，对这个问题提出了LSTM，GRU以及能够使得循环神经网络加速的SRU神经网络。另外，循环神经网络很容易推广到广义上的记忆型神经网络：递归神经网络和图神经网络，当然也包含树形神经网络。

1.1 延时神经网络

延时神经网络中通过建立一个额外的延时单元来存储网络的历史信息(例如输入、输出、隐藏层状态信息等等)。延时神经网络中在 $t$ 时刻，第 $l + 1$ 层神经网络和第 $l$ 层神经元的最近 $p$ 次输出相关，即
$h_{t}^{(l+1)}=f(h_{t}^{(l)},h_{t-1}^{(l)},...,h_{t-p}^{(l)})$

这样对网络中输入和输出进行延时和神经元存储处理，神经网络就有了短期的记忆能力。

一般情况下函数 $f (.)$ 是一种自回归模型，用变量 $y_{t}$ 的历史信息来预测自己的输出信息：
$y_{t}=w_{0}+\sum\limits_{t=1}^{p}w_{i}y_{t-i}+b_{t}$

这是一种不包含输入信息的一种递归神经网络，下面是一种有外部输入的非线性自回归模型：
$y_{t}=f(x_{t},x_{t-1},...,x_{t-p},y_{t-1},y_{t-2},...,y_{t-p})$

1.2 同步学习模式和异步学习模式

同步的序列到序列模式主要使用序列标注任务，每一时刻都有输入和输出，输入的序列和输出序列的长度相同。例如对单词尽心词性标注的任务就必须对每一个单词进行标注处理。设输入为 $x_{1:T}=\{x_{1},...,x_{T}\}$ ，输出为 $\hat y_{1:T}\{\hat y_{1},...,\hat y_{T}\}$ ，通常模型表达为
$h_{t}=f(h_{t-1},x_{t})$

$\hat y_{t}=g(h_{t})$

异步的序列到序列模式也称作编码器-解码器模型，输入序列和输出序列不需要有严格的对应关系，也没必要保持有相同的长度信息。例如机器翻译中自然语言处理任务。设输入的序列为 $x_{1:T}=\{x_{1},...,x_{T}\}$ ，输出序列为 $\hat y_{1:M}=\{\hat y_{1},...,\hat y_{M}\}$ ，那么通常模型表达为
$h_{t}=f_{1}(h_{t-1},x_{t}),\forall{t}\in{[1,T]}$

$h_{T+t}=f_{2}(h_{T+t-1}),\forall{t}\in{[1,M]}$

$\hat y_{t}=g(h_{T+t}),\forall{t}\in{[1,M]}$

2. 梯度训练BPTT算法与RTRL算法

在循环神经网络中，梯度更新的方法主要有随时间反向传播算法和实时循环学习方法。给定一个训练样本 $(x, y)$ ，其中 $x_{1:T}=(x_{1},...,x_{T})$ 为长度是 $T$ 的输入序列， $y_{1,T}=(y_{1},...,y_{T})$ 为长度为 $T$ 的标签序列。我们定义时刻 $t$ 的损失函数为
$L_{t}=L(y_{t},g(h_{t}))$

其中 $g(h_{t})$ 为 $t$ 时刻的输出， $L$ 为可微分的损失函数。那么整个序列的损失函数为
$L=\sum\limits_{t=1}^{T}L_{t}$

所以说，整个序列的损失函数 $L$ 关于参数 $U$ 的梯度为
$\frac{\partial L}{\partial U}=\sum\limits_{t=1}^{T}\frac{\partial L_{t}}{\partial U}$

所以通过这样可以进行梯度的传播。

2.1 BPTT算法

随时间反向传播算法中，主要计算上面偏导数 $\frac{\partial L}{\partial U}$ 。

参数 $U$ 和隐藏层在每个时刻 $k(1\leq k\leq t)$ 的净输入 $z_{k}=Uh_{k-1}+Wx_{k}+b$ ，所以说第 $t$ 时刻的损失函数 $L_{t}$ 关于参数 $u_{ij}$ 的梯度为
$\frac{\partial L_{t}}{\partial u_{ij}}=\sum\limits_{k=1}^{t}\frac{\partial z_{k}}{\partial u_{ij}}\cdot{\frac{\partial L_{t}}{\partial z_{k}}}$

注意，这里的 $\frac{\partial z_{k}}{\partial u_{ij}}$ 指的是直接的偏导数，即对于公式 $z_{k}=Uh_{k-1}+Wx_{k}+b$ 中，把 $h_{k-1}$ 作为常量来对其求偏导数。所以有以下求法
$\frac{\partial z_{k}}{\partial u_{ij}}=[0,...,[h_{k-1}]_{j},..,0]=\mathbb{I}_{i}([h_{k-1}]_{j})$

其中 $h_{k-1}]_{j}$ 为第 $k - 1$ 时刻的隐藏层状态的第 $j$ 维， $\mathbb{I}_{i}(x)$ 指的是除了第 $i$ 行值为 $x$ 外，其余为 $0$ 的行向量。

定义误差项 $\delta_{t,k}=\frac{\partial L_{t}}{\partial z_{k}}$ 是第 $t$ 时刻的损失对第 $k$ 时刻隐藏层的净输入 $z_{k}$ 的导数，则当 $1\leq k\leq t$ 时
$\delta_{t,k}=\frac{\partial L_{t}}{\partial z_{k}}=\frac{\partial h_{k}}{\partial z_{k}}\cdot{\frac{\partial z_{k+1}}{\partial h_{k}}}\cdot{\frac{\partial L_{t}}{\partial z_{k+1}}}\\ =\text{diag}(f^{'}(z_{k}))U^{T}\delta_{t,k+1}\\ =f^{'}(z_{k})\odot(U^{T}\delta_{t,k+1})$
所以我们得到
$\frac{\partial z_{k}}{\partial u_{ij}}=\sum\limits_{k=1}^{t}[\delta_{t,k}]_{i}[h_{k-1}]_{j}$

写成矩阵的形式为

$\frac{\partial L_{t}}{\partial U}=\sum\limits_{k=1}^{t}\delta_{t,k}h_{k-1}^{T}$

最后得到整个序列的梯度更新公式：
$\frac{\partial L}{\partial U}=\sum\limits_{t=1}^{T}\sum_{k=1}^{t}\delta_{t,k}h_{k-1}^{T}$

同理得到
$\frac{\partial L}{\partial W}=\sum\limits_{t=1}^{T}\sum_{k=1}^{t}\delta_{t,k}x_{k}^{T}$

$\frac{\partial L}{\partial b}=\sum\limits_{t=1}^{T}\sum_{k=1}^{t}\delta_{t,k}$

2.2 RTRL算法

反向传播中的BPTT算法不同的是，实时循环学习是通过前向传播的方式来进行梯度计算。
设循环神经网络中第 $t + 1$ 时刻的状态 $h_{t+1}$ 为
$h_{t+1}=f(z_{t+1})=f(Uh_{t}+Wx_{t+1}+b)$

则有以下的表达式
$\frac{\partial h_{t+1}}{\partial u_{ij}}=(\frac{\partial z_{t+1}}{\partial u_{ij}}+\frac{\partial h_{t}}{\partial u_{ij}}U^{T})\frac{\partial h_{t+1}}{\partial z_{t+1}}\\ =(\mathbb{I}_{i}([h_{t}]_{j})+\frac{\partial h_{t}}{\partial u_{ij}}U^{T})\text{diag}(f^{'}(z_{t+1}))\\ =(\mathbb{I}_{i}([h_{t}]_{j})+\frac{\partial h_{t}}{\partial u_{ij}}U^{T})\odot(f^{'}(z_{t+1}))^{T}$

其中 $\mathbb{I}_{i}(x)$ 是除了第 $i$ 行值为 $x$ 之外，其余都为 $0$ 的行向量。
所以在实时循环学习中，通过迭代递归的方法来进行参数的学习。

这两种算法都是基于梯度下降算法，分别通过前向方法和反向方法应用链式法则来计算梯度。循环神经网络中，一般网络输出的维度远低于输入的维度，故而BPTT算法的计算量会更小，但是在BPTT算法中需要保存所有时刻的中间梯度，空间复杂度比较高。RTRL算法不需要梯度回传，适合于在线学习或者无限序列的任务当中。

3. 常见的循环神经网络及其变体

作为递归神经网络的循环神经网络，其中有各种各样的神经网络。其中最为代表性的有RNN、LSTM、GRU等循环神经网络。这里我们先介绍同步学习的方法，即输入长度和输出长度一致，在梯度更新中我们使用BPTT算法。假设输入变量 $x_{1:T}=\{x_{1},...,x_{T}\}$ ，标签向量 $y_{1:T}=\{\hat y_{1},...,\hat y_{T}\}$ 。RNN中最大的一个特点是，神经网络的偏置和权重值是共享的，接下来会介绍各种神经网络的原理及其应用。

3.1 RNN神经网络

RNN中最为普通的循环神经网络，假设在 $t$ 时刻输出的隐藏层为 $h_{t}$ ，则会有
$h_{t}=f(W_{ih}x_{t}+b_{ih}+W_{hh}h_{t-1}+b_{hh})$

净输入
$z_{t}=W_{ih}x_{t}+b_{ih}+W_{hh}h_{t-1}+b_{hh}$
设t时刻的损失函数为 $L_{t}=L(\hat y_{t},y_{t})$ ，并且
$L=\sum\limits_{t=1}^{T}L_{t}$

在梯度更新中，根据上面公式的讨论，我们知道了误差递推公式如下所示：
$\delta_{t,k}=\text{diag}(f^{'}(z_{k})W_{hh}^{T}\delta_{t,k+1})$

梯度更新的表达式如下所示：

$\frac{\partial L}{\partial W_{hh}}=\sum\limits_{t=1}^{T}\sum_{k=1}^{t}\delta_{t,k}h_{k-1}^{T}$

$\frac{\partial L}{\partial W_{ih}}=\sum\limits_{t=1}^{T}\sum_{k=1}^{t}\delta_{t,k}x_{k}^{T}$

$\frac{\partial L}{\partial b_{ih}}=\sum\limits_{t=1}^{T}\sum_{k=1}^{t}\delta_{t,k}$

$\frac{\partial L}{\partial b_{hh}}=\sum\limits_{t=1}^{T}\sum_{k=1}^{t}\delta_{t,k}$

其中误差传播的更新表达式：
$\delta_{t,k}=f^{'}(z_{k})\odot(W_{hh}^{T}\delta_{t,k+1})$

一个最为典型的RNN网络包含一个输入 $x$ ，一个输出 $h$ 和一个神经网络单元。这个神经网络中只存在一个简单的回归循环单元，上一个时刻的网络状态信息会作用于下一个时刻的网络状态。可以表示为如下
RNN神经网络示意图
普通的RNN神经网络中最大的问题就是长期依赖中的梯度消失或者梯度爆炸的问题。在BPTT算法中，将误差传播的递推表达式展开可以得到：
$\delta_{t,k}=\prod_{\tau=k}^{t-1}(\text{diag}(f^{'}(z_{\tau}))W_{hh}^{T})\delta_{t,t})$

那么，若 $\gamma=||\text{diag}(f^{'}(z_{\tau}))W_{hh}^{T}||$ ，则

$\delta_{t,k}=\gamma^{t-k}\delta_{t,t}$

显然，根据指数函数的性质可知，若 $\gamma>1$ 时， $\gamma^{t-k}\rightarrow\infty$ 。所以当间隔 $t - k$ 比较大的时候，梯度很大，神经网络系统会很不稳定，被称为梯度爆炸问题。
若 $\gamma<1$ 时， $\gamma^{t-k}\rightarrow0$ 。所以当间隔 $t - k$ 比较大的时候，梯度非常小，神经网络系统会出现深层中的梯度消失问题。
为解决上述梯度消失和梯度爆炸等问题，所以在此提出了门控机制进一步解决这类问题，提出了LSTM神经网络和GRU神经网络。

3.2 LSTM神经网络

这种神经网络被称作为长短期记忆(Long Short-Term Memory,LSTM)神经网络，从而有效地解决了梯度消失或者梯度爆炸的问题。主要引入了两个方面的内容：新的内部状态关系以及门控机制。引入门控制机制主要是将隐藏层中的一些变量控制在 $[0, 1]$ 区间内使得信息按照一定的比例通过。LSTM神经网络可以由以下的公式来表达：
$i_{t}=\sigma(W_{ii}x_{t}+b_{ii}+W_{hi}h_{t-1}+b_{hi})\\ f_{t}=\sigma(W_{if}x_{t}+b_{if}+W_{hf}h_{t-1}+b_{hf})\\ o_{t}=\sigma(W_{io}x_{t}+b_{io}+W_{ho}h_{t-1}+b_{ho})\\ g_{t}=\tanh(W_{ig}x_{t}+b_{ig}+W_{hg}h_{t-1}+b_{hg})\\ c_{t}=f_{t}\odot c_{t-1}+i_{t}\odot g_{t}\\ h_{t}=o_{t}\odot\tanh(c_{t})$

上述公式中的三个门分别是输入门 $i_{t}$ 、遗忘门 $f_{t}$ 和输出门 $o_{t}$ 。这三个门主要的作用如下所示：

遗忘门 $f_{t}$ 用于控制上一个时刻的内部状态 $c_{t-1}$ 需要遗忘多少信息；
输入门 $i_{t}$ 控制当前时刻的候选状态 $g_{t}$ 需要多少信息用来保存；
输出门 $o_{t}$ 用于控制当前时刻的内部状态 $c_{t}$ 有多少信息需要输出到外部状态 $h_{t}$

特别地，当 $f_{t}=0,i_{t}=1$ 时候，记忆单元将历史信息清空，并且将候选状态向量 $g_{t}$ 写入神经元中。当 $f_{t}=1,i_{t}=0$ 时候，记忆单元将复制上一个时刻的内容，不写入新的信息。
$\sigma(.)$ 函数表示sigmoid激活函数，用于控制这些信息的流动大小。在BPTT算法中，依旧设 $t$ 时刻的损失函数为 $L_{t}=L(\hat y_{t},y_{t})$ ，则
$L=\sum\limits_{t=1}^{T}L_{t}$

设
$zi_{t}=W_{ii}x_{t}+b_{ii}+W_{hi}h_{t-1}+b_{hi}\\ zf_{t}=W_{if}x_{t}+b_{if}+W_{hf}h_{t-1}+b_{hf}\\ zg_{t}=W_{ig}x_{t}+b_{ig}+W_{hg}h_{t-1}+b_{hg}\\ zo_{t}=W_{io}x_{t}+b_{io}+W_{ho}h_{t-1}+b_{ho}$

所以，对应的偏导数满足以下条件
$\frac{\partial L_{t}}{\partial (W_{hi})_{jk}}=\sum\limits_{s=1}^{t}\frac{\partial zi_{s}}{\partial (W_{hi})_{jk}}\cdot{\frac{\partial L_{t}}{\partial zi_{s}}}$

$\frac{\partial L_{t}}{\partial (W_{hf})_{jk}}=\sum\limits_{s=1}^{t}\frac{\partial zf_{s}}{\partial (W_{hf})_{jk}}\cdot{\frac{\partial L_{t}}{\partial zf_{s}}}$

$\frac{\partial L_{t}}{\partial (W_{hg})_{jk}}=\sum\limits_{s=1}^{t}\frac{\partial zg_{s}}{\partial (W_{hg})_{jk}}\cdot{\frac{\partial L_{t}}{\partial zg_{s}}}$

$\frac{\partial L_{t}}{\partial (W_{ho})_{jk}}=\sum\limits_{s=1}^{t}\frac{\partial zo_{s}}{\partial (W_{ho})_{jk}}\cdot{\frac{\partial L_{t}}{\partial zo_{s}}}$

根据求导公式可以得到
$\frac{\partial zi_{s}}{\partial (W_{hi})_{jk}}=\mathbb{I}_{j}([h_{s-1}]_{k})$

$\frac{\partial zi_{s}}{\partial (W_{hf})_{jk}}=\mathbb{I}_{j}([h_{s-1}]_{k})$

$\frac{\partial zi_{s}}{\partial (W_{hg})_{jk}}=\mathbb{I}_{j}([h_{s-1}]_{k})$

$\frac{\partial zi_{s}}{\partial (W_{ho})_{jk}}=\mathbb{I}_{j}([h_{s-1}]_{k})$

其中，每一个导数的误差项，有以下的推导式

$\delta i_{t,s}=\frac{\partial L_{t}}{\partial zi_{s}}=\frac{\partial h_{s}}{\partial zi_{s}}\cdot{\frac{\partial zi_{s+1}}{\partial h_{s}}}\cdot{\frac{\partial L_{t}}{\partial zi_{s+1}}}\\ =\frac{\partial h_{s}}{\partial zi_{s}}(W_{hi}^{T}\delta_{t,s+1})$

$\delta f_{t,s}=\frac{\partial L_{t}}{\partial zf_{s}}=\frac{\partial h_{s}}{\partial zf_{s}}\cdot{\frac{\partial zf_{s+1}}{\partial h_{s}}}\cdot{\frac{\partial L_{t}}{\partial zf_{s+1}}}\\ =\frac{\partial h_{s}}{\partial zf_{s}}(W_{hf}^{T}\delta f_{t,s+1})$

$\delta g_{t,s}=\frac{\partial L_{t}}{\partial zg_{s}}=\frac{\partial h_{s}}{\partial zg_{s}}\cdot{\frac{\partial zg_{s+1}}{\partial h_{s}}}\cdot{\frac{\partial L_{t}}{\partial zg_{s+1}}}\\ =\frac{\partial h_{s}}{\partial zg_{s}}(W_{hg}^{T}\delta g_{t,s+1})$

$\delta o_{t,s}=\frac{\partial L_{t}}{\partial zo_{s}}=\frac{\partial h_{s}}{\partial zo_{s}}\cdot{\frac{\partial zo_{s+1}}{\partial h_{s}}}\cdot{\frac{\partial L_{t}}{\partial zo_{s+1}}}\\ =\frac{\partial h_{s}}{\partial zo_{s}}(W_{hf}^{T}\delta o_{t,s+1})$

而
$\frac{\partial h_{s}}{\partial zi_{s}}=\frac{\partial h_{s}}{\partial c_{s}}\cdot{\frac{\partial c_{s}}{\partial i_{s}}}\cdot{\frac{\partial i_{s}}{\partial zi_{s}}}=o_{s}\odot{\tanh^{'}(c_{s})}\odot{g_{s}}\cdot{\text{diag}(\sigma^{'}(zi_{s}))}$

$\frac{\partial h_{s}}{\partial zg_{s}}=\frac{\partial h_{s}}{\partial c_{s}}\cdot{\frac{\partial c_{s}}{\partial g_{s}}}\cdot{\frac{\partial g_{s}}{\partial zi_{s}}}=o_{s}\odot{\tanh^{'}(c_{s})}\odot{i_{s}}\cdot{\text{diag}(\tanh^{'}(zi_{s}))}$

$\frac{\partial h_{s}}{\partial zf_{s}}=\frac{\partial h_{s}}{\partial c_{s}}\cdot{\frac{\partial c_{s}}{\partial f_{s}}}\cdot{\frac{\partial f_{s}}{\partial zf_{s}}}=o_{s}\odot{\tanh^{'}(c_{s})}\odot{c_{s-1}}\cdot{\text{diag}(\sigma^{'}(zf_{s}))}$

$\frac{\partial h_{s}}{\partial zo_{s}}=\frac{\partial h_{s}}{\partial o_{s}}\cdot{\frac{\partial o_{s}}{\partial zo_{s}}}=\tanh(c_{s})\cdot{\text{diag}(\sigma^{'}(zo_{s}))}$

所以有
$\delta i_{t,s}=\frac{\partial L_{t}}{\partial zi_{s}}=(o_{s}\odot{\tanh^{'}(c_{s})}\odot{g_{s}})\odot{\text{diag}(\sigma^{'}(zi_{s})})W_{hi}^{T}\delta_{t,s+1}$

$\delta g_{t,s}=\frac{\partial L_{t}}{\partial zg_{s}}=(o_{s}\odot{\tanh^{'}(c_{s})}\odot{i_{s}})\odot{\text{diag}(\tanh^{'}(zg_{s})})W_{hg}^{T}\delta_{t,s+1}$

$\delta f_{t,s}=(o_{s}\odot{\tanh^{'}(c_{s})}\odot{c_{s-1}})\odot{\text{diag}(\sigma^{'}(zf_{s}))}W_{hf}^{T}\delta f_{t,s+1}$

$\delta o_{t,s}=\tanh(c_{s})\odot{\text{diag}(\sigma^{'}(zo_{s}))}W_{ho}^{T}\delta o_{t,s+1}$

故而，用矩阵的方式表示梯度更新表达式为
$\frac{\partial L}{\partial W_{hi}}=\sum\limits_{t=1}^{T}\sum_{s=1}^{t}\delta i_{t,s}h_{s-1}^{T}$

$\frac{\partial L}{\partial W_{hg}}=\sum\limits_{t=1}^{T}\sum_{s=1}^{t}\delta g_{t,s}h_{s-1}^{T}$

$\frac{\partial L}{\partial W_{hf}}=\sum\limits_{t=1}^{T}\sum_{s=1}^{t}\delta f_{t,s}h_{s-1}^{T}$

$\frac{\partial L}{\partial W_{ho}}=\sum\limits_{t=1}^{T}\sum_{s=1}^{t}\delta o_{t,s}h_{s-1}^{T}$

同样，对于其他的权重矩阵有
$\frac{\partial L}{\partial W_{ii}}=\sum\limits_{t=1}^{T}\sum_{s=1}^{t}\delta i_{t,s}x_{s}^{T}$

$\frac{\partial L}{\partial W_{ig}}=\sum\limits_{t=1}^{T}\sum_{s=1}^{t}\delta g_{t,s}x_{s}^{T}$

$\frac{\partial L}{\partial W_{if}}=\sum\limits_{t=1}^{T}\sum_{s=1}^{t}\delta f_{t,s}x_{s}^{T}$

$\frac{\partial L}{\partial W_{io}}=\sum\limits_{t=1}^{T}\sum_{s=1}^{t}\delta o_{t,s}x_{s}^{T}$

$\frac{\partial L}{\partial b_{ii}}=\frac{\partial L}{\partial b_{hi}}=\sum\limits_{t=1}^{T}\sum_{s=1}^{t}\delta i_{t,s}$

$\frac{\partial L}{\partial b_{ig}}=\frac{\partial L}{\partial b_{hg}}=\sum\limits_{t=1}^{T}\sum_{s=1}^{t}\delta g_{t,s}$

$\frac{\partial L}{\partial b_{if}}=\frac{\partial L}{\partial b_{hf}}=\sum\limits_{t=1}^{T}\sum_{s=1}^{t}\delta f_{t,s}$

$\frac{\partial L}{\partial b_{io}}=\frac{\partial L}{\partial b_{ho}}=\sum\limits_{t=1}^{T}\sum_{s=1}^{t}\delta o_{t,s}$

所以这样我们就得到了LSTM神经网络中的BPTT算法权重矩阵和偏置矩阵的梯度更新公式。通过LSTM循环单元，整个神经网络可以建立较长距离的时序依赖关系。LSTM神经网络中的关系公式可以写为：

$\left[\begin{array}{cccc} g_{t}\\ o_{t}\\ i_{t}\\ f_{t} \end{array}\right]= \left[\begin{array}{cccc} \tanh\\ \sigma\\ \sigma\\ \sigma \end{array}\right] \left(\begin{array}{cccc} W \left[\begin{array}{cccc} x_{t}\\ h_{t-1} \end{array}\right]+b \end{array}\right)$

$c_{t}=f_{t}\odot c_{t-1}+i_{t}*g_{t}\\ h_{t}=o_{t}\odot\tanh(c_{t})$

其中 $t\in{\mathbb{R}^{e}}$ 是当前时刻的输入， $W\in{\mathbb{R}^{4d\times(d+e)}},b\in{\mathbb{R}^{4d}}$ 是网络中的权重矩阵和偏置矩阵参数。
在循环神经网络中隐藏层状态 $h$ 存储了网络的历史信息，所以可以看作是一种记忆状态。简单的RNN中隐藏层的每一个时刻都会被重写状态信息，因此是一种短期记忆效应。在LSTM神经网络中，长期记忆可以看作是网络的参数，隐含了从训练数据中学习到的经验，但是更新速度远远慢于短期记忆的神经网络。记忆单元 $c$ 可以在某一个时刻捕捉到某一个关键信息，并且有能力将关键信息保存一定的时间间隔。记忆单元中 $c$ 中保存信息的生命周期要长于短期记忆 $h$ ，但是又远远短于长期记忆，故而称之为长期记忆。
对于LSTM神经网络也有很多变体形式。我们举例下面几种形式

没有遗忘门的LSTM：最早提出的LSTM神经网络中并没有遗忘门，即表达为以下的形式：
$i_{t}=\sigma(W_{ii}x_{t}+b_{ii}+W_{hi}h_{t-1}+b_{hi})\\ o_{t}=\sigma(W_{io}x_{t}+b_{io}+W_{ho}h_{t-1}+b_{ho})\\ g_{t}=\tanh(W_{ig}x_{t}+b_{ig}+W_{hg}h_{t-1}+b_{hg})\\ c_{t}=c_{t-1}+i_{t}\odot g_{t}\\ h_{t}=o_{t}\odot\tanh(c_{t})$

但是其中会出现这个问题，即记忆单元 $c$ 会不断增大。当输入的序列的长度非常打的时候，记忆单元的容量会饱和，从而大大降低LSTM的性能。

peephole连接：三个门的不仅仅依赖于输入 $x_{t}$ 和上一个时刻的隐藏状态 $h_{t-1}$ ，也依赖于上一个时刻的记忆单元 $c_{t-1}$ ：
$i_{t}=\sigma(W_{ii}x_{t}+b_{ii}+W_{hi}h_{t-1}+b_{hi}+V_{ci}c_{t-1}+b_{ci})\\ f_{t}=\sigma(W_{if}x_{t}+b_{ii}+W_{hf}h_{t-1}+b_{hi}+V_{cf}c_{t-1}+b_{cf})\\ o_{t}=\sigma(W_{io}x_{t}+b_{io}+W_{ho}h_{t-1}+b_{ho}+V_{co}c_{t-1}+b_{co})\\ g_{t}=\tanh(W_{ig}x_{t}+b_{ig}+W_{hg}h_{t-1}+b_{hg})\\ c_{t}=f_{t}\odot c_{t-1}+i_{t}\odot g_{t}\\ h_{t}=o_{t}\odot\tanh(c_{t})$
其中， $V_{ci},V_{cf},V_{co}$ 为对角矩阵。
耦合输入门和遗忘门：由于LSTM网络中输入们和遗忘门之间有些互补关系，因而同时用两个比较冗余。为了减少LSTM网络中的计算复杂度，所以将这两个门合并为一个门。
令
$f_{t}=1-i_{t}$

这样LSTM更新状态为如下式：
$i_{t}=\sigma(W_{ii}x_{t}+b_{ii}+W_{hi}h_{t-1}+b_{hi})\\ o_{t}=\sigma(W_{io}x_{t}+b_{io}+W_{ho}h_{t-1}+b_{ho})\\ g_{t}=\tanh(W_{ig}x_{t}+b_{ig}+W_{hg}h_{t-1}+b_{hg})\\ c_{t}=(1-i_{t})\odot c_{t-1}+i_{t}\odot g_{t}\\ h_{t}=o_{t}\odot\tanh(c_{t})$

3.3 GRU神经网络

门控循环单元(Gated Recurrent Unit,GRU)网络是一种改进版的RNN神经网络，相对于LSTM神经网络更加简单的循环神经网络。GRU网络引入门控制机制来控制信息的更新方式。GRU不引入额外的记忆单元，而是引入一个更新门来控制当前状态需要从历史状态中保留多少信息，以及需要从候选状态中接受多少信息。GRU神经网络的更新表达式如下：
$r_{t}=\sigma(W_{ir}x_{t}+b_{ir}+W_{hr}h_{t-1}+b_{hr})\\ z_{t}=\sigma(W_{iz}x_{t}+b_{iz}+W_{hz}h_{t-1}+b_{hz})\\ n_{t}=\tanh(W_{in}x_{t}+b_{in}+r_{t}\odot{(W_{hn}h_{t-1}+b_{hn})})\\ h_{t}=(1-z_{t})\odot{n_{t}}+z_{t}\odot{h_{t-1}}$

其中 $z_{t}\in{[0,1]}$ 为更新门，由于LSTM神经网络中，输入门与遗忘门是互补关系，具有一定的冗余性。GRU神经网络中使用更新门来控制输入信息与遗忘信息之间的平衡性质。当 $z_{t}=0$ 时， $h_{t}$ 和 $h_{t-1}$ 之间为非线性关系；当 $z_{t}=1$ 时， $h_{t}$ 和 $h_{t-1}$ 之间为线性关系。
$r_{t}\in{[0,1]}$ 表示的是重置门，用于控制候选状态 $n_{t}$ 是否依赖于上一个隐藏层状态 $h_{t-1}$ 。当 $r_{t}=0$ 时，候选状态 $n_{t}=\tanh(W_{in}x_{t}+b_{in})$ 之和当前的输入 $x_{t}$ 有关系，并不和历史状态有关； $r_{t}=1$ 时，候选状态中与当前输入以及历史状态信息有关，与简单循环神经网络一致。
从上面的公式可以明显看出，当 $z_{t}=0,r_{t}=1$ 时，GRU退化为普通的RNN神经网络；当 $z_{t}=0,r_{t}=0$ 时，当前状态 $h_{t}$ 仅仅和当前输入 $x_{t}$ 有关；当 $z_{t}=1$ 时，当前的状态 $h_{t}=h_{t-1}$ 与当前的输入状态 $x_{t}$ 无关。
下面计算在BPTT算法中的梯度更新表达式。设损失函数
$L_{t}=\sum\limits_{s=1}^{t}L(\hat y_{t},y_{t})$

$L=\sum\limits_{t=1}^{T}L_{t}$

显然，我们设

$zr_{t}=W_{ir}x_{t}+b_{ir}+W_{hr}h_{t-1}+b_{hr}$

$zz_{t}=W_{iz}x_{t}+b_{iz}+W_{hz}h_{t-1}+b_{hz}$

$zn_{t}=W_{in}x_{t}+b_{in}+r_{t}\odot{(W_{hn}h_{t-1}+b_{hn})}$

所以梯度更新表达式有
$\frac{\partial L_{t}}{\partial (W_{hr})_{jk}}=\sum\limits_{s=1}^{t}\frac{\partial zr_{s}}{\partial (W_{hr})_{jk}}\cdot{\frac{\partial L_{t}}{\partial zr_{s}}}$

$\frac{\partial L_{t}}{\partial (W_{hz})_{jk}}=\sum\limits_{s=1}^{t}\frac{\partial zz_{s}}{\partial (W_{hz})_{jk}}\cdot{\frac{\partial L_{t}}{\partial zz_{s}}}$

$\frac{\partial L_{t}}{\partial (W_{hn})_{jk}}=\sum\limits_{s=1}^{t}\frac{\partial zn_{s}}{\partial (W_{hn})_{jk}}\cdot{\frac{\partial L_{t}}{\partial zn_{s}}}$

经过推导，同理有以下的梯度更新表达式：

$\delta r_{t,s}=\frac{\partial L_{t}}{\partial zr_{s}}=\frac{\partial h_{s}}{\partial zr_{s}}\cdot{\frac{\partial zr_{s+1}}{\partial h_{s}}}\cdot{\frac{\partial L_{t}}{\partial zr_{s+1}}}=\frac{\partial h_{s}}{\partial zr_{s}}\cdot{W_{hr}^{T}\delta_{t,s+1}}$

$\delta z_{t,s}=\frac{\partial L_{t}}{\partial zz_{s}}=\frac{\partial h_{s}}{\partial zz_{s}}\cdot{\frac{\partial zz_{s+1}}{\partial h_{s}}}\cdot{\frac{\partial L_{t}}{\partial zz_{s+1}}}=\frac{\partial h_{s}}{\partial zz_{s}}\cdot{W_{hz}^{T}\delta_{t,s+1}}$

$\delta n_{t,s}=\frac{\partial L_{t}}{\partial zn_{s}}=\frac{\partial h_{s}}{\partial zn_{s}}\cdot{\frac{\partial zn_{s+1}}{\partial h_{s}}}\cdot{\frac{\partial L_{t}}{\partial zn_{s+1}}}=\frac{\partial h_{s}}{\partial zn_{s}}\cdot{W_{hn}^{T}r_{s}\delta_{t,s+1}}$

其中，
$\frac{\partial h_{s}}{\partial zr_{s}}=\frac{\partial h_{s}}{\partial n_{s}}\cdot{\frac{\partial n_{s}}{\partial r_{s}}}\cdot{\frac{\partial r_{s}}{\partial zr_{s}}}=(1-z_{s})\odot{((W_{hn}h_{t-1}+b_{hn})\odot{\tanh^{'}(zn_{s})})}\cdot{\text{diag}(\sigma^{'}(zr_{s}))}$

$\frac{\partial h_{s}}{\partial zz_{s}}=\frac{\partial h_{s}}{\partial z_{s}}\frac{\partial z_{s}}{\partial zz_{s}}=(-n_{s}+h_{s-1})\cdot{\text{diag}(\sigma^{'}(zz_{s}))}$

$\frac{\partial h_{s}}{\partial zn_{s}}=\frac{\partial h_{s}}{\partial n_{s}}\cdot{\frac{\partial n_{s}}{\partial zn_{s}}}=(1-z_{s})\cdot{\text{diag}(\sigma^{'}(zn_{s}))}$

所以我们得到了梯度更新的表达式：
$\frac{\partial L}{\partial W_{hr}}=\sum\limits_{t=1}^{T}\sum\limits_{s=1}^{t}\delta r_{t,s}h_{s-1}^{T}$

$\frac{\partial L}{\partial W_{hz}}=\sum\limits_{t=1}^{T}\sum\limits_{s=1}^{t}\delta z_{t,s}h_{s-1}^{T}$

$\frac{\partial L}{\partial W_{hn}}=\sum\limits_{t=1}^{T}\sum\limits_{s=1}^{t}\delta n_{t,s}[h_{s-1}\odot{r_{s}}]^{T}$

同样可以得到其他的权重矩阵以及偏置矩阵的梯度更新表达式：
$\frac{\partial L}{\partial W_{ir}}=\sum\limits_{t=1}^{T}\sum\limits_{s=1}^{t}\delta r_{t,s}x_{s}^{T}$

$\frac{\partial L}{\partial W_{iz}}=\sum\limits_{t=1}^{T}\sum\limits_{s=1}^{t}\delta z_{t,s}x_{s}^{T}$

$\frac{\partial L}{\partial W_{in}}=\sum\limits_{t=1}^{T}\sum\limits_{s=1}^{t}\delta n_{t,s}x_{s}^{T}$

$\frac{\partial L}{\partial b_{ir}}=\frac{\partial L}{\partial b_{hr}}=\sum\limits_{t=1}^{T}\sum\limits_{s=1}^{t}\delta r_{t,s}$

$\frac{\partial L}{\partial b_{iz}}=\frac{\partial L}{\partial b_{hz}}=\sum\limits_{t=1}^{T}\sum\limits_{s=1}^{t}\delta z_{t,s}$

$\frac{\partial L}{\partial b_{in}}=\sum\limits_{t=1}^{T}\sum\limits_{s=1}^{t}\delta n_{t,s}$

$\frac{\partial L}{\partial b_{hn}}=\sum\limits_{t=1}^{T}\sum\limits_{s=1}^{t}\delta n_{t,s}\odot{r_{s}}$

3.4 SRU神经网络

在RNN，LSTM，GRU神经网络提出来之后，在很多方面例如机器翻译，语言模型，问答系统等等方面具有很大的成就，RNN类神经网络的循环结构使得对于处理时间序列的问题上具有较好的处理结果。但是正式由于串行结构的神经网络使得RNN神经网络在处理中限制了模型的训练速度，所以RNN并不能够进行并行化处理问题，由此提出了一种能够将大部分运算放在并行处理的问题中，将有些小部分的运算问题放在串行计算中。
SRU神经网络的计算架构如下所示。
$\tilde x_{t}=Wx_{t}\\ f_{t}=\sigma(W_{f}x_{t}+b_{f})\\ r_{t}=\sigma(W_{r}x_{t}+b_{r})\\ c_{t}=f_{t}\odot{c_{t-1}}+(1-f_{t})\odot{\tilde x}\\ h_{t}=r_{t}\odot{g(c_{t})}+(1-r_{t})\odot{x_{t}}$

在前馈神经网络中，矩阵相乘是计算中最为耗费时间的部分，所以SRU的主要设计原理就是：门的计算只依赖于当前的输入循环，这样使得模型只有逐点相乘的计算是依赖于之前的时间步的，从而能够让网络容易进行并行化处理。

4. 双向(Bidirectional)循环神经网络和多层(MultiLayers)神经网络。

为了增强循环神经网路中捕获信息的能力，所以在某些模型训练的场合下增加网络的深度而增强循环神经网络的能力。所以就提出了两种类型的神经网络，即双向循环神经网络和多层循环神经网络。

4.1 双向循环神经网络

在有些任务中，数据信息的输出不仅和过去的信息有关系，也和后续时刻的信息有关系，例如自然语言处理中的句子信息，它的含义是和上下文都有关系的，即包含句子左右两边的信息。按照这样的一个思路，我们就可以增加一个神经网络的逆序来建立和传递信息。
双向循环神经网络是由两层循环神经网络组成，输入相同，但是信息传递的方向并不相同。
假设神经网络中按照时间顺序传播，第二层按照时间逆序传播，在 $t$ 时刻的状态定义为 $\mathop{h_{t}} \limits ^{\rightarrow}$ 和 $\mathop{h_{t}} \limits ^{\leftarrow}$ ，那么对于简单的RNN神经网络就有

$\mathop{h_{t}}\limits^{\rightarrow}=f(\mathop{U}\limits^{\rightarrow}\mathop{h_{t}}\limits^{\rightarrow}+\mathop{W}\limits^{\rightarrow}\mathop{h_{t}}\limits^{\rightarrow}+\mathop{b}\limits^{\rightarrow})\\ \mathop{h_{t}}\limits^{\leftarrow}=f(\mathop{U}\limits^{\leftarrow}\mathop{h_{t}}\limits^{\leftarrow}+\mathop{W}\limits^{\leftarrow}\mathop{h_{t}}\limits^{\leftarrow}+\mathop{b}\limits^{\leftarrow})$

$h_{t}=[\mathop{h_{t}}\limits^{\rightarrow},\mathop{h_{t}}\limits^{\leftarrow}]$

$h_{t}$ 为两个前向传播和后向传播的拼接操作。

4.2 多层循环神经网络

另外一种常见的操作就是将多个神经网络进行堆叠，并成为多层循环神经网络，或者被称作是堆叠式循环神经网络(Stacked Recurrent Neural Network)。对于简单的RNN神经网络，它的表达如下所示：
$h_{t}^{(l)}=f(U^{(l)}h_{t-1}^{(l)}+W^{(l)}h_{t-1}^{(l)}+b^{(l)})$

其中， $U^{(l)}$ 、 $W^{(l)}$ 、 $b^{(l)}$ 为神经网络中权重矩阵和偏置矩阵。

5. 应用举例(用theano和pytorch实现循环神经网络)

循环神经网络常常用作自然语言处理中文本分类或者其他一些预测信息，所以我们对RNN神经网络实验的设计在自然语言处理上。

5.1 实验设计

实验中我们对一个自然语言处理问题做一个基本的实验。SICK数据集用于2014年SemEval-任务1：评估成分分布,通过语义相关性和文本蕴涵的完整句子语义模型。当前版本是代表任务1测试数据的数据集的子集（4927个句子对）SICK数据集由10,000个英语句子对组成，从两个现有句子对开始构建复述集：8K ImageFlickr数据集和SEMEVAL-2012语义文本相似性视频描述数据集。每个句子对都有注释含义上的相关性以及两个元素之间的必然关系。实验中的数据信息表示如下所示：
句子对ID、句子A、句子B、语义相关性分值(以1-5的连续分值)、文字蕴含的分值(NEUTRAL, ENTAILMENT, CONTRADICTION)
模型的结构如下所示：
神经网络结构图

数据中的目标值分数我们将其转化为一个稀疏离散分布的表示，即：
$p_{i}=\begin{cases} y-\lfloor y\rfloor&,i=\lfloor y\rfloor+1\\ \lfloor y\rfloor-y+1&,i=\lfloor y\rfloor\\ 0&,\text{otherwise} \end{cases}$

这样，设 $r = [1, 2, 3, . . ., K]$ ，那么语义相关性分值可以表示为 $\approx r^{T}p$ 。

5.2 实验训练和结果分析

实验结果的评价这里使用到了 $\text{MSE}$ 指标和 $\text{Peason}$ 指标。这两个指标分别表示的意义为：
$v_{\text{MSE}}=\frac{1}{N}\sum\limits_{k=1}^{N}(p_{o}-p_{t})^{2}$

$v_{\text{Peason}}=\frac{\text{cov}(p_{o},p_{t})}{\sigma_{p_{o}}\sigma_{p_{t}}}=\frac{\sum{p_{o}p_{t}}-\frac{1}{N}\sum{p_{o}}\sum{p_{t}}}{\sqrt{(\sum{p_{o}^{2}}-\frac{1}{N}(\sum{p_{o}})^{2})(\sum{p_{t}^{2}}-\frac{1}{N}(\sum{p_{t}})^{2})}}$

实验的结果如下所示，由于训练最后得到的数据太多，我们这里只列举了BiGRU循环神经网络的训练结果：
损失函数图
MSE指标图片
Peason指标图片

经过多次实验，可以发现，三种神经网络中性能优劣的比较如下所示：
RNN<LSTM<GRU

多层神经网络以及双向神经网络对于数据信息的拟合结果会更好一些。具体代码可以参见笔者github。另外笔者使用theano实现了时间序列预测的一些实验，参见笔者github

小结

本小节介绍了基本的循环神经网络的原理与梯度更新的方法，在文章的最后实现了循环神经网络的设计实验。最重要的一点就是，必须很好地把握住循环神经网络中的数学原理和实验设计原理，能够更好地应用到实际中。

参考文献

[1] 神经网络与深度学习，邱锡鹏
[2] Train RNNs as fast as CNNs
[3] Pattern Recognition and machine learning，BiShop

深度学习中基本神经网络(二)