循环神经网络

1. 循环神经网络
2. LSTM
- 2.1 LSTM 的网络结构
- 2.2 LSTM 单元解读

1. 循环神经网络

1.1 什么是循环神经网络？

循环神经网络（Recurrent Neural Network , RNN）是专门用来处理序列数据的神经网络，它能够挖掘数据中的时序信息以及语义信息。利用了RNN的这种能力，使深度学习模型在解决语音识别、语言模型、机器翻译以及时序分析等NLP领域的问题时有所突破。

全连接神经网络在处理序列数据时存在的缺陷：比如在股票预测问题中，股票价格不仅取决于现在的输入数据状态，更依赖于历史信息，这是全连接神经网络所不能做到的。
在这里插入图片描述

1.2 循环神经网络的网络结构

下图中展示的是一种典型的RNN网络结构。
在这里插入图片描述
图中， $U$ 是输入层到隐藏层的权重矩阵， $W$ 是隐藏层到隐藏层的循环连接的权重矩阵， $V$ 是隐藏层到输出层的权重矩阵。 $x_t$ 表示 $t$ 时刻的输入， $h_t$ 表示 $t$ 时刻的隐藏层向量， $o_t$ 表示 $t$ 时刻的输出。

$h_t = f(U \cdot x_t + W \cdot h_{t-1} + b_h)$
$o_t = g(V \cdot h_t + b_o)$

其中， $f(\cdot)$ 和 $g(\cdot)$ 为激活函数。

用来计算隐藏层向量 $h_t$ 的激活函数通常在RNN中选择 tanh ，有时 ReLU 也经常使用；

用来计算输出 $o_t$ 的激活函数：

如果是二分类问题，我们可能会使用 sigmoid 函数；

如果是k分类问题，我们可能会使用 softmax 函数。

可以看出，RNN每一时刻的隐藏层向量不仅由当前时刻的输入决定，还取决于上一时刻的隐藏层向量，这就使得RNN有了记住过去时间序列信息的功能。

值得注意的一点是，循环神经网络在不同的时间步中共享相同的权重。

1.3 损失函数

在RNN中，我们将损失函数定义为标准的逻辑回归损失（即交叉熵损失）。

可以参考这篇文章中关于交叉熵的介绍。

我们的神经网络的输出 $\widehat{y}^{(t)}$ 通常是一些概率值，而 $y^{(t)}$ 是一系列确定的数值（标签），因此 $y^{(t)} = 1$ 。

单个单词或时序数据中单个片段的损失函数：
$L^{(t)} (\widehat{y}^{(t)} , y^{(t)}) = -y^{(t)} log \widehat{y}^{(t)} = -log \widehat{y}^{(t)}$
序列的整体损失：（交叉熵损失的平均值）
$L(\widehat{y} , y) = \frac{1}{T}\sum\limits^T_{t=1} L^{(t)} (\widehat{y}^{(t)} , y^{(t)})$
然后通过back propagation的方式来计算模型中的参数，并使用梯度下降法来更新参数。

对于语言模型，一个好的语言模型能够用高度准确的词元来预测我们接下来会看到什么，比如我们打字时输入法的提示信息。
在最好的情况下，模型能够完美地估计标签词元的概率为1；
在最坏的情况下，模型预测标签词元的概率为0；
在基线上，模型的预测是词表的所有可用词元上的均匀分布。

1.4 循环神经网络存在的问题

对于长度为 $T$ 的序列，我们在迭代过程中计算这 $T$ 个时间步上的梯度，这将会在反向传播过程中产生长度为 $O (T)$ 的矩阵乘法链。当 $T$ 较大时，这可能导致数值不稳定，例如可能导致梯度爆炸或梯度消失。这样我们可以发现RNN具有附近效应，不擅长捕捉长期的依赖关系。

2. LSTM

下面内容参考自详解LSTM 。

2.1 LSTM 的网络结构

LSTM 全称是 Long Short Term Memory，提出该算法的动机是为了解决上面提到的RNN的长期依赖问题。而LSTM之所以能够解决RNN的长期依赖问题，是因为LSTM引入了门（gate）机制用于控制特征的流通和损失。LSTM是由一系列LSTM单元（LSTM Unit）组成，其链式结构如下图。
在这里插入图片描述
在LSTM单元中，图中每个黄色方框表示一个神经网络层，由权值，偏置以及激活函数组成；每个粉色圆圈表示元素级别操作；箭头表示向量流向；相交的箭头表示向量的拼接；分叉的箭头表示向量的复制。

2.2 LSTM 单元解读

LSTM的核心部分是LSTM单元中类似于传送带的部分（如下图），这一部分一般叫做单元状态（cell state）它自始至终存在于LSTM的整个链式系统中。

单元状态（cell state）	公式
	$C_t = f_t \cdot C_{t-1} + i_t \cdot \widetilde{C}_t$

其中，

$f_t$ 叫做遗忘门，表示 $C_{t-1}$ 的哪些特征用于计算 $C_t$ 。 $f_t$ 是一个向量，向量的每个元素均位于[0,1]范围内。通常我们使用 $s i g m o i d$ 函数作为激活函数， $s i g m o i d$ 函数的输出是一个介于[0,1]区间的值。
$i_t$ 叫做输入门，用于控制 $\widetilde{C}_t$ 的哪些特征用于更新 $C_t$ 。同 $f_t$ 一样也是一个元素介于[0,1]区间的向量，通常我们使用 $s i g m o i d$ 函数作为激活函数。

遗忘门 $f_t$	公式
	$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$

输入门 $i_t$ 与单元状态更新值 $\widetilde{C}_t$	公式
	$i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$ $\widetilde{C}_t = tanh(W_C \cdot [h_{t-1}, x_t] + b_C)$

其中，

$i_t$ 叫做输入门，用于控制 $\widetilde{C}_t$ 的哪些特征用于更新 $C_t$ 。同 $f_t$ 一样也是一个元素介于[0,1]区间的向量，通常我们使用 $s i g m o i d$ 函数作为激活函数。
$\widetilde{C}_t$ 表示单元状态更新值，激活函数通常使用 $t anh$ 。

隐藏层输出 $h_t$	公式
	$o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$ $h_t = o_t \cdot tanh(C_t)$

其中， $o_t$ 表示输出门（注意这里不要和RNN中的输出搞混），计算方式与 $f_t$ 和 $i_t$ 相同。

参考：
[1] 《深度学习》
[2] 吴恩达-深度学习课程
[3] 《动手学深度学习》
[4] 史上最详细循环神经网络讲解（RNN/LSTM/GRU）
[5] 详解LSTM

循环神经网络（RNN&LSTM）