Seq2Seq模型讲解

概述

Seq2Seq是一个Encoder-Deocder结构的模型，输入是一个序列，输出也是一个序列。

Encoder将一个可变长度的输入序列变为固定长度的向量，Decoder将这个固定长度的向量解码成可变长度的输出序列。

使用 $x=\{x_1,x_2,...,x_n\}$ 表示输入语句, $y=\{y_1,y_2,...,y_n\}$ 代表输出语句， $y_t$ 代表当前输出词。

所有的Seq2Seq模型都是以下目标函数，都是为了优化这个函数：

p (y | x) = \prod_{t = 1}^{n_{y}} p (y_{t} | y_{1}, y_{2}, . . ., y_{t - 1}, x)

$p(y|x)=\prod_{t=1}^{n_y}p(y_t|y_1,y_2,...,y_{t-1},x)$
即输出的

y_{t}

$y_t$ 不仅依赖之前的输出

{y_{1}, y_{2}, . . ., y_{n}}

$\{y_1,y_2,...,y_n\}$ ，还依赖输入语句

{x_{1}, x_{2}, . . ., x_{n}}

$\{x_1,x_2,...,x_n\}$ ，模型无论怎么变化都是在该公式的约束下。

mark

该模型包括Encoder和Decoder两个部分，图中每个圆圈是一个RNN Cell，可以是RNN，也可以是LSTM、GRU等。

【流程】

Encoder
- 每个时刻输入一个词，隐藏层状态根据公式 $h_t=f(h_{t-1},x_t)$ 改变。其中激活函数 $f$ 可以是sigmod,tanh,ReLU,sotfplus,LSTM等。
- 读完序列的每一个词之后，会得到一个固定长度向量 $c=tanh(Vh^N)$
Decoder
- 由结构图可以看出，t时刻的隐藏层状态 $h_t$ 由 $h_{t-1},y_{t-1},c$ 决定： $h_t=f(h_{t-1},y_{t-1},c)$ ，其中 $h_0=tanh(V'c)$
- 最后的输出 $y_t$ 是由 $h_t,y_{t-1},c$ 决定
  
  $P = (y_{t} | y t - 1, y t - 2, . . ., y 1, c) = g (h_{t}, y t - 1, c)$ $P=(y_t|y{t-1},y{t-2},...,y1,c)=g(h_t,y{t-1},c)$
  以上, $f,g$ 都是激活函数，其中 $g$ 一般是softmax
目标
- 最大化对数似然条件概率
  $max_{θ} \frac{1}{N} \sum_{n = 1}^{N} l o g p_{θ} (y_{n} | x_{n})$ $\max _\theta \frac{1}{N} \sum_{n=1}^N log p_\theta(y_n|x_n)$

mark

该模型包括Encoder和Decoder两个部分，图中每个圆圈是一个RNN Cell，可以是RNN，也可以是LSTM、GRU等。本篇论文中Encoder、Decoder用的都是LSTM

【流程】

Encoder

同上个模型。如下图所示：
Decoder
- 初始状态：Encoder得到的向量表示即Encoder最后一个时间步长的隐藏层状态会作为Decoder的初始状态输入。通过激活函数与softmax层得到候选symbols，筛选出概率最大的symbol，作为下一时刻的输入。
- t时刻的输出 $y_t$ ：由 $h_t,y_{t-1}$ 决定，而没有 $c$ ： $p(y_t)=f(h_t,y_{t-1})$ 。即在Decoder中，每个时刻 $t$ 的输出 $y_t$ 会作为下一时刻 $t+1$ 的输入，直到Decoder在某个时刻预测出结束符号才停止。
目标函数：

$p (y_{1}, . . ., y_{T^{'}} | x_{1}, . . ., x_{T}) = \prod_{t = 1}^{T^{'}} p (y_{t} | v, y_{1}, . . ., y_{t - 1})$ $p(y_1,...,y_{T'}|x_1,...,x_T)=\prod_{t=1}^{T'}p(y_t|v,y_1,...,y_{t-1})$
最终多层模型采用下图说明：

【区别】

与上个模型的区别是Decoder部分

mark

【流程】

Encoder
- 使用双向RNN
- $\vec{h_j}$ 表示前向RNN的隐藏层状态， $\hat{h_j}$ 表示反向隐藏层状态
- $h_j$ 最终因状态将两者拼接起来，即 $h_j=[\vec{h_j},\hat{h_j}]$
Decoder
- 每一时刻 $i$ 的输出由三个要素决定：时刻 $i$ 的隐状态 $s_i$ ，attention计算得到的context向量 $c_i$ ，上一时刻 $i-1$ 的输出 $s_{i-1}$
  
  $p (y_{i} | y_{1}, . . ., y_{i - 1}, X) = g (y_{i - 1}, s_{i}, c_{i})$ $p(y_i|y_1,...,y_{i-1},X)=g(y_{i-1},s_i,c_i)$
  其中 $s_i$ 由三个要素决定：时刻 $i$ 的隐状态，attention计算得到的context向量 $c_i$ ，上一时刻 $i-1$ 输出 $y_{i-1}$
  $s_{i} = f (s_{i - 1}, y_{i - 1}, c_{i})$ $s_i=f(s_{i-1},y_{i-1},c_i)$
- 其中 $c_i$ 由以下公式得到
  
  $c_{i} = \sum_{j = 1}^{T_{x}} α_{i j} h_{j} α_{i j} = \frac{e x p (e_{i j})}{\sum_{k = 1}^{T_{x}} e x p (e_{i k})} e_{i j} = a (s_{i - 1}, h_{j})$ $c_i=\sum_{j=1}^{T_x}\alpha_{ij}h_j\\ \alpha_{ij}=\frac{exp(e_{ij})}{\sum_{k=1}^{T_x}exp(e_{ik})}\\ e_{ij}=a(s_{i-1},h_j)$
  其中 $\alpha_{ij}$ 代表权重

【总结】

context向量 $c_i$ 通过计算输入中的每个单词的权重，加权求和得到。
其中权重 $\alpha_{ij}$ 即Decoder的上一时刻 $i-1$ 隐状态 $s_{i-1}$ 和Encoder的最终隐状态 $h_j$ 通过非线性函数得到。