概述

通过前两小节的介绍，可以清楚的了解RNN模型的网络结构以及LSTM。本小节主要介绍RNN其他变形以及应用，包括

1.GRU单元
2.序列到序列（Seq2Seq）模型
3.注意力（Attention）模型
4.RNN在NLP中的应用
5.总结

GRU单元

GRU通过引入重置门和遗忘门来解决长期依赖问题，相对于LSTM有更少参数并且在某些问题上，效果好于LSTM。
这里写图片描述

重置门 $r t = σ (W r x + U r h t - 1)$ $r_t=\sigma(W^rx+U^rh_{t-1})$ 如果重置门关闭，会忽略掉历史状态，即将历史不相干的信息不会影响未来的输出。

遗忘门 $z t = σ (W z x + U z h t - 1)$ $z_t=\sigma(W^zx+U^zh_{t-1})$ 遗忘门能够控制历史信息对当前输出的影响，如果遗忘门接近1，此时会把历史信息传递下去

节点状态 $h^t = t a n h (W x + r t o U h t - 1)$ $\hat h_t=tanh(Wx+r_t \; o \; Uh_{t-1})$

输出 $h t = z t o h t - 1 + (1 - z t) o h^t$ $h_t=z_t \; o \; h_{t-1}+(1-z_t)\; o \; \hat h_t$

Seq2Seq模型

序列到序列模型可以解决很多不定长输入到输出的变换问题，等价于编码和解码模型，即编码阶段将不定长输入编码成定长向量；解码阶段对输出进行解码。

这里写图片描述

1.其中序列ABC是输入序列，WXYZ是输出序列，EOS是结束符号
2.模型分为两个阶段1）encode阶段，该阶段将输入序列编码成一个定长维度的向量2）decode阶段，根据编码后向量预测输出向量。
3.编码过程，可以使用标准的RNN模型，例如
$h t y t = f (W h x x t + W h h h t - 1) = W h y h t$ $\begin{align}h_t&=f(W^{hx}x_t + W^{hh}h_{t-1}) \\ y_t&=W^{hy}h_t \end{align}$
4.解码过程，也可以使用一个标准的RNN模型进行解码，例如RNN-LM $p (y 1, y 2 . . . y M | x 1, x 2 . . . x N) = \prod t = 1 M P (y t | c, y 1, y 2... y t - 1)$ $p(y_1,y_2...y_M|x_1,x_2...x_N)=\prod_{t=1}^M P(y_t|c,y1,y2...y_{t-1)}$ 其中v为编码后的定长向量。

注意力模型

注意力模型类似于序列到序列模型，不同的是在解码阶段：序列到序列模型将输入同等看待，而注意力机制会模拟人类大脑运作机制，在预测不同输出是会将部分输入作为此次预测的输入。

注意力通用框架

定义解码阶段条件概率模型如下

p (y i | y 1, y 2 . . . y i, x) = g (y i - 1, s i, c i)

$p(y_i|y_1,y_2...y_i, x)=g(y_{i-1}, s_i,c_i)$ 其中

yi−1 $y_{i-1}$ 可以理解为本次输入的上下文；

si=f(si−1,yi−1,ci) $s_i=f(s_{i-1},y_{i-1}, c_i)$ 该时间序列状态；
c_i不同于传统的解码过程，传统解码过程每一步的解码对应于相同的c（编码的后定长向量），注意力机制对于不同的时间序列输出对应不同编码向量。

c_i计算过程就是注意力机制关键步骤，计算过程如下：

$c_i=\sum_j^{T_x}\alpha _{ij}h_j$ ，其中c_i表示解码阶段的第i个时间序列；h_j为对输入编码后的结果，传统的编码过程只保留最后一个时刻作为编码的输出，这里对所有编码输出分别加权得到每一个c_i

加权系数 $\alpha_{ij}$ 计算如下： $α i j = e x p ( e i j ) \sum T x k - 1 e x p ( e i k ) e i j = a (s i - 1, h j)$ $\alpha_{ij}=\frac{exp(e_{ij})}{\sum_{k-1}^{T_x}exp(e_{ik})} \\ e_{ij}=a(s_{i-1}, h_j)$ ，相当于额外加了一个网络层计算加权系数，需要注意的是 $e_{ij}的计算仅仅依赖于上一输出状态和输入h_j$
3.这里注意力机制相当于对编码过程中的输出进行了一个软加权，上述过程也称之为对齐模型。

注意力机制实例

介绍一个2015年注意力机制应用机器翻译的模型，该模型编码阶段使用双向RNN模型，解码采用注意力机制模型，模型架构如下：
这里写图片描述

输入序列表示为: $x=(x_1,x_2...x_{Tx})$ ;输出序列表示为: $x=(x_1,x_2...x_{Tx})$

编码阶段采用BIRNN，并且采用GRU单元，则 $h ⃗ i = {(1 - z ⃗ i) o h ⃗ i - 1 + z ⃗ i h ⃗ i, i > 0 0, i = 0$ $\vec h_i=\begin{cases} (1-\vec z_i) \ o \ \vec h_{i-1} + \vec z_i \vec h_i , i>0\\ 0 ,\;\; \ i=0\end{cases}$ 其中 $h ⃗ i z ⃗ i r ⃗ i = t a n h (W ⃗ E x i + U ⃗ [r ⃗ i o h ⃗ i - 1]) = σ (W ⃗ z E x i + U ⃗ z h ⃗ i - 1) = σ (W ⃗ r E x i + U ⃗ r h ⃗ i - 1)$ $\begin{align} \vec h_i &= tanh(\vec WEx_i+\vec U [\vec r_i \; o \; \vec h_{i-1}])\\ \vec z_i&= \sigma (\vec W_zEx_i + \vec U_z \vec h_{i-1})\\ \vec r_i&= \sigma (\vec W_rEx_i + \vec U_r \vec h_{i-1})\\ \end{align}$ 不同的是和原版GRU计算输出值略有不同，不影响最后结果。由于采用的是双向RNN，编码单元最终的输出为 $h i = [h ⃗ i; h \leftarrow i]$ $h_i=[\vec h_i;\overleftarrow h_i]$ 其中E为词向量矩阵

解码阶段采用RNN并且采用注意力机制进行对齐，计算过程如下： $s i = (1 - z i) o s i - 1 + z i s^i$ $s_i=(1-z_i) \ o \ s_{i-1} + z_i \hat s_i$ 其中 $s^i z i r i = t a n h (W E x i + U [r i o s i - 1] + C c i) = σ (W z E x i + U z s i - 1 C z c i) = σ (W r E x i + U r h i - 1 + C r c i)$ $\begin{align} \hat s_i &= tanh(WEx_i+U [r_i \; o \; s_{i-1}] + Cc_i)\\ z_i&= \sigma ( W_zEx_i + U_z s_{i-1}C_zc_i)\\ r_i&= \sigma ( W_rEx_i + U_r h_{i-1}+C_rc_i)\\ \end{align}$

注意力机制，下面主要集中介绍c_i的计算过程，首先c_i是输入表示的加权平均，即 $c i α i j e i j = \sum j T x α i j h j = e x p ( e i j ) \sum T x k - 1 e x p ( e i k ) = v T a t a n h (W a s i - 1 + U a h j)$ $\begin{align}c_i&=\sum_j^{T_x}\alpha _{ij}h_j \\ \alpha_{ij}&=\frac{exp(e_{ij})}{\sum_{k-1}^{T_x}exp(e_{ik})} \\ e_{ij}&=v_a^T tanh(W_as_{i-1} + U_ah_j)\end{align}$

输出层采用maxout网络，这里不再赘述。

另外这里是软对齐模型，此外还有硬对齐以及混合对齐等。

RNN其他应用

理论上只要问题可以建模成序列到序列的映射均可以采用RNN进行求解，例如：
1. 命名实体识别问题NER
2. 词级别的情感分析
3. 问答系统
4. 机器翻译
5. 图片添加注释
6. 文本摘要

总结

通过该小结学习需要了解Seq2Seq模型以及能够解决问题；了解注意力机制模型等。

深度学习（Deep Learning）读书思考八：循环神经网络三（RNN应用）

概述