Seq2Seq中的Attention和self-attention

一、Seq2Seq Model

首先介绍Seq2Seq模型，进而引入Attention机制。Seq2Seq模型的经典应用是语言模型，类似于语言翻译的例子（英译汉），Seq2Seq的目的就是将英文句子（输入Sequence），转换为汉语句子（输出Sequence），这里的Sequence是由字（单词）的序列。
这种Seq2Seq通常Encoder-Decoder结构组成，其中encoder将输入Sequence转换为embedding向量，用来高度的表示输入信息。而decoder则将embedding向量作为输入，进而将embedding向量转化为输出Sequence。如下图：

其中的Context Vector就是Embedding Vector，这一层也可以叫做Embedding layer。Encoder和Decoder一般由GRU（如LSTM）构成，Sequence模型适用于任意N-to-M的Sequence。其中Encoder中每个时刻t（即每个单词）都会对应一个hiden state向量，最后时刻T的hidden state作为Context Vector传递给Decoder。那么但是其中隐含一个缺点：仅仅利用最后一个Context Vector能够代表输入Sequence的所有信息么？

二、Attention Model

之前的Seq2Seq模型中，所有input经过Encoder之后只形成了一个固定的Context Vector，而Attention机制则为Decoder中的每个output都形成了Context Vector。Attention机制：Decoder中的每个字（她、在等）都要与Encoder中的所有单词的hidden state 关联，以Decoder中的“她”为例，要计算其与Encoder中的所有hidden state 的relation，即relation(她,she)，relation(她，is)等等。同理，Decoder中的其它字也要做同样的计算。这里的relation在Attention中叫Attention Weights，用alpha表示，其实就是注意力的概率分布。

根据alpha将Encoder的所有hidden state加权求和则形成了Context Vector即Attention layer。这样每个output都可以通过Attention与所有的hidden state关联，从而“将Attention根据概率分布分散给所有hidden state，而不是只关注一个向量”。最后当前时刻的Context Vector与之前的state共同组成了下一个时刻的state。
具体的计算公式如下：

其中score的计算有很多种，具体如下：

每一个output都要计算相应的context vector，因此Context就是一个2D的matrix=输出单词数量*输入单词数量。
Attention机制是可训练的，其中score的计算到alpha和context vector的计算都是可训练的。如上图所示，不同的计算方式导致不同的训练参数，也就导致不同的模型表现。

三、self-Attention

Self-attention也叫做intra-attention，attention指的是同一个Sequence的不同位置之间的关联。如下面的例子：红色为当前单词，绿色的深浅表示与当前词的关联强弱。

下面逐步讲解self-Attention的过程，举例输入为： Thinking Machines

Step 1

首先为每个input生成三个向量：a Query vector（q）, a Key vector（k）, and a Value vector（v）。

其中三个W矩阵是训练参数，三个向量都是由对应的W矩阵和输入点乘得到，如q1=WQ*X1。注意：这三个q,k,v向量的维度小于Embedding Vector的维度

Step 2

第二步要做的是计算一个分数score，假设我们正在计算“Thinking”的self-attention，那么每个input都要与“Thinking”计算一个score，这个score表示在encoding的过程中，“Thinking”对于所有input的关注度，可以理解为普通Attention机制中的attention weight，其实就是“Thinking”对所有input的概率分布。