【自然语言处理】Attention 讲解

有任何的书写错误、排版错误、概念错误等，希望大家包含指正。

在阅读本篇之前建议先学习：
【自然语言处理】Seq2Seq 讲解

Attention Mechanism

注意力机制源于对人类视觉的研究，注意力是一种人类不可或缺的复杂认知功能，指人可以在关注一些信息的同时忽略其他信息的选择能力。注意力机制符合人类看图片的逻辑，当我们看一张图片时，往往并没有看清图片的全部内容，而是将注意力集中在图片的某个重要部分。重点关注部分，就是一般所说的注意力集中部分，而后对这一部分投入更多注意力资源，以获取更多所需要关注的目标的细节信息，忽略其他无用信息。这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段，是人类在长期进化中形成的一种生存机制。人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。深度学习中也应用了类似注意力机制的机制，从而极大提升了自然语言处理、语音识别、图像处理的效率和性能。

在实践中人们发现，EncoderDecoder（Seq2Seq）模型有一个严重的问题，即编码器部分与解码器部分之间只有一个向量 $c$ ，无论输入到编码器的语句多长，都只能通过向量 $c$ 传递给解码器，这往往会导致信息的丢失。为此，利用注意力机制，为解码器的每个状态生成一个中间语义向量 $c_{t'}$ ，该中间语义向量能够很好地描述输入到编码器的语句中每个单词对解码器的第 $t^{'}$ 个状态对的影响。引入注意力机制的 Encoder-Decoder 模型如图 $1$ 所示。

在这里插入图片描述

图 1 引入注意力机制的 Encoder-Decoder 模型架构

Query、Key 和 Value

有一种解释说，注意力机制中的 Query (Q)，Key (K)，Value (V) 的概念源于信息检索系统。举个简单的例子，使用搜索引擎查找信息时，输入栏中的输入内容为 Query，搜索引擎对比数据库中全部数据的关键字 Key 与要查询的内容 Query 的匹配程度，选择出最佳匹配对应的 Value 返回。

可见，Query 和 Key 的匹配程度决定了选择哪个 Value。在注意力机制中同理，向量 Query 与每个元素的 Key 计算相似程度作为权重，权重越大表示在 Query 的指引下我们的关注度越高，再将权重与 Value 对应相乘，得到对 Value 中不同元素赋予不同关注度的最终向量。

在不同的任务、不同的具体注意力模型中，选择的 Query、Key 和 Value 有所不同，但大致仅涉及两组选择方式。

本篇博客讨论的是 Query 与输出序列有关，一般为输出序列状态向量的线性变换；Key=Value 与输入序列有关，一般为输入序列状态向量的线性变换。

在自然语言处理应用中会把注意力机制看作输出（Target）句子中某个单词和输入（Source）句子每个单词的相关性。目标句子生成的每个单词对应输入句子单词的概率分布可以理解为输入句子的单词和这个目标生成的单词的对齐概率，这在机器翻译语境下是非常直观的：传统的统计机器翻译过程一般会专门有一个短语对齐的步骤，而注意力模型其实起的是相同的作用。

Source 由一系列的 <Key, Value> 数据对构成，对给定 Target 中的某个元素 Query，通过计算 Query 和各个 Key 的相似性或者相关性，得到每个 Key 对应 Value 的权重系数，然后对 Value 进行加权求和，得到最终的 Attention 数值。所以本质上注意力机制是对 Source 中元素的 Value 值进行加权求和，而 Query 和 Key 是用来计算对应 Value 的权重系数的。可以将其本质思想改写为如下公式：
${\rm Attention(Query, Source)}=\sum_{i=1}^{T}{\rm Similarity}({\rm Query}, {\rm Key}_i)·{\rm Value}_i$
其中， $T$ 为 Source 的长度。

注意力（中间语义向量）的计算过程为：根据 Query 和 Key 计算两者的相似性或者相关性，最常见的计算方法包括求两者的向量点积、求两者的向量 Cosine 相似性或者通过再引人额外的神经网络来求，假设求得的相似值为 $s_i$ ；对计算出的 $T^{'}$ 个 $s_i$ 进行归一化处理，得到权重系数，使用 Softmax 函数计算各个权重的值 $a_i$ ，计算公式为 $a_i = {\rm Softmax}(s_i) = \frac{e^{s_i}}{\sum_{j=1}^{T'}e^{s_j}}$ ；使用权重系数 $a_i$ 对 Value 进行加权求和，计算公式为 ${\rm Attention(Query, Source) }= \sum_{i=1}^{T}{a_i}·{\rm Value}_i$ 。

其中， $\rm Attention$ 即为中间语义向量。

Bahdanau Attention

Bahdanau Attention 结构如图 $2$ 所示。其中， $\alpha_{i,j}$ 表示输入序列第 $j$ 个时刻对输出序列第 $i$ 个时刻的贡献权重。

在这里插入图片描述

图 2 Bahdanau Attention 模型

记 $X$ 和 $Y$ 分别由各自的单词序列构成：
$X=(x_1,x_2,\dots, x_T) \\ Y = (y_1,y_2,\dots, y_{T'})$

$t^{'}$ 时刻注意力（中间语义向量）的计算为，拼接双向模型每个时刻的向量 $\mathop{h_t}\limits^{→}$ 和 $\mathop{h_t}\limits^{←}$ 得到 $h_t$ ，计算 $s_{t'-1}$ 与每个 $h_t$ $(t=1,2,\dots, T)$ 之间的相似度，进而通过 Softmax 得到概率分布，亦权重，将权重与 $s_{t'-1}$ 按元素相乘得到 $t^{'}$ 时刻的注意力。注意， $t^{'}$ 时刻的注意力是通过 $s_{t'-1}$ 得到的。

在训练时的解码阶段，将每个时刻 $t^{'}$ 的中间语义向量 $c_{t'}$ 与当前时刻的的真实标签 $y_{t'}$ 拼接作为解码器 $t^{'}$ 时刻的输入；在预测时的解码阶段，中间语义向量 $c_{t'}$ 与预测标签 $\hat y_{t'}$ 拼接作为输入。

Luong Attention

论文主要提出了三点：全局注意力、局部注意力和 Input-feeding 方法。

Luong Attention 模型结构也是采用 Encoder-Decoder 框架，只是编码器和解码器采用多层 LSTM，如图 $3$ 所示。对于全局注意力模型和局部注意力模型，在计算中间语义向量时，均使用编码器和解码器最顶层的 LSTM 的隐藏状态。

在这里插入图片描述

图 3 Luong Attention 模型结构

全局注意力

全局注意力模型与 Bahdanau Attention 相似，在计算注意力时会涉及全部的编码器状态 $h_t$ $(t=1,2,\dots, T)$ 。不同之处在于全局注意力模型不像 Bahdanau Attention 一样计算 $s_{t'-1}$ 和每个 $h_t$ 的相似度，而是计算 $s_{t'}$ 和 $h_t$ 的相似度；另外，还将 $s_{t'}$ 和 $c_{t'}$ 拼接经过一层全连接得到 $\tilde s_{t'}$ ，将 $\tilde s_{t'}$ 作为获取概率分布的依据。大致流程如图 $4$ 所示。

在这里插入图片描述

图 4 全局注意力模型

不妨将权重向量 $\alpha_{i,j}$ 重新标记为每个输出时刻关于输入时刻的函数，即 $\alpha_{t'}(t)$ 。那么其计算公式为
$\begin{align} \alpha_{t'}(t) &= {\rm align}(h_t, s_{t'})\notag \\ &= \frac{\exp \left({\rm score}(h_t, s_{t'})\right)}{\sum_{i}\exp \left({\rm score}(h_t, s_{i})\right)} \notag\\ \end{align}$
其中， $\rm score$ 有三种计算方式：
${\rm score}(h_t, s_{t'}) = \left\{\begin{array}{ll} s_{t'}^Th_t & {\rm dot} \\ s_{t'}^TW_a h_t & {\rm general} \\ v_a^T \tanh (W_a[s_{t'};h_t]) & {\rm concat} \end{array}\right.$
其中， $v_a$ 和 $W_a$ 为权重矩阵。

得到权重向量 $\alpha$ 后确定中间语义向量 $c_{t'}$ ，将中间语义表示与 $s_{t'}$ 拼接输入到一个新的全连接层，输出 $\tilde s_{t'}$ ，公式为
$\tilde s_{t'} = \tanh (W_c [c_t;s_{t'}])$
最后，通过 $\tilde s_{t'}$ 以及其它变量确定条件概率或条件分布。具体地，我们可以认为条件分布由 $\tilde s_{t'}$ 经过 Softmax 得到，即
$P(y_{t'}\mid y_1,\dots, y_{t'-1}, x_1,\dots, x_T) = {\rm softmax}(W_s \tilde s_{t'})$
其中， $W_s$ 为权重矩阵。

局部注意力

全局注意力模型保证全部输入单词都被给予一定的关注，但是带来了比较大的开销。局部注意力模型可以视为软注意力模型和硬注意力模型的一种折中，它比全局模型或软注意力的计算成本更低。同时，与硬注意力不同的是，局部注意力模型是可微分的，这使得它更容易实现和训练。

全局注意力模型由于在解码器的每个时刻都需要考虑编码器所有的隐藏状态，因此，其计算成本是非常昂贵的，特别是对于一些长句子或长篇文档，其计算就变得不切实际，故论文作者提出了局部注意力模型，即每次解码时不再考虑编码器的全部隐藏状态了，只考虑局部的隐藏状态。

在局部注意力模型中，解码器的每个时刻 $t^{'}$ ，需要先确定输入序列中与该时刻对齐的一个位置 $p_{t'}$ ，然后以该位置为中心，设定一个窗口大小 $D$ ，对应的窗口为 $p_{t'}-D, p_{t'}+D]$ ， $D$ 具体的取值需要凭经验设定。在计算权重向量时，只考虑编码器中在该窗口内的隐藏状态，当窗口的范围超过输入序列的范围时，则对超出的部分直接舍弃。大致流程如图 $5$ 所示。

在这里插入图片描述

图 5 局部注意力模型

确定 $p_{t'}$ 的方式有两种：单调对齐（Monotonic alignment，local-m）和预测对齐（Predictive alignment，local-p）。单调对齐直接规定 $p_{t'} = t'$ ，即假设输入序列与输出序列是按时间顺序对齐的；预测对齐，引入下面公式计算每个时刻 $t^{'}$ 对应的位置 $p_{t'}$ ：
$p_{t'} = S· {\rm sigmoid}\left(v^T_p \tanh(W_ps_{t'})\right)$
其中， $S$ 为输入序列长度， $v_p$ 和 $W_p$ 为权重矩阵。可见， $p_{t'}\in [0, S]$ 。另外，论文作者还对 $\alpha$ 进行了高斯修正，即
$\alpha_{t'}(t) = {\rm align}(h_t, s_{t'})\exp\left(-\frac{(t - p_{t'})^2}{2\sigma^2}\right)$
其中， $\sigma = D/2$ 。