神经网络与深度学习（六）——注意力机制

邱锡鹏《神经网络与深度学习》学习笔记。

神经网络与深度学习（六）—— 注意力机制

为了减少计算复杂度，我们引入了局部连接，权重共享以及池化操作来简化网络结构。但目前计算机的计算能力依然是限制神经网络发展的瓶颈。因此我们依然希望在不过度增加模型复杂度（主要是模型参数）的情况下来提高模型的表达能力。

神经网络中可以存储的信息量称为网络容量（Network Capacity）。一般来讲神经网络的存储容量和神经元的数量以及网络的复杂度成正比。

我们可以借鉴人脑解决输入信息过载的机制，从两个方面来提高神经网络处理信息的能力：

注意力机制。通过自上而下的信息选择机制来过滤掉大量的无关信息；
外部记忆。引入额外的外部记忆，优化神经网络结构来提高网络存储信息的容量。

本文仅探讨注意力机制。

1.1 注意力机制

在计算能力有限的情况下，Attention Mechanism 作为资源分配方案，是解决信息超载问题的主要手段。

一个非常有助于理解的链接：深度学习中的注意力模型。

1.1.1 认知神经学中的注意力

大脑从大量的输入信息中，重点关注一小部分有用的信息同时忽略其他信息的选择能力，叫做注意力 （Attention）。

大脑的注意力一般分为两种：

聚焦式注意力（Focus Attention）。有预定目标、依赖任务的、主动有意识的聚焦于某一对象的注意力。
基于显著性的注意力（Saliency Based Attention）。由外界刺激驱动的注意力，不需要主动干预，也和任务无关。如果一个对象的刺激信息不同于其周围信息，一种无意识的“赢者通吃（Winner-Take-All）”或者门控机制（Gating）就可以把注意力转向这个对象。

目前的神经网络模型中最大池化（Max Pooling）、门控机制（Gating）近似可以看做基于显著性的注意力机制。

1.1.2 注意力机制

此处注意力机制指主动的聚焦式注意力。

用 $\boldsymbol{X}=\left[\boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{N}\right] \in \mathbb{R}^{D \times N}$ 表示 $N$ 组输入信息，其中 $D$ 维向量 $\boldsymbol{x}_{n}\in\mathbb{R}^{D},n\in[1,N]$ 表示一组输入信息。为了节省计算资源，只需要从 $\boldsymbol{X}$ 中选择一些和任务相关的信息。

注意力机制的计算可以分为两步：

在所有输入信息上计算注意力分布，
根据注意力分布计算输入信息的加权平均。

1.1.2.1 注意力分布

为了从 $N$ 个输入向量 $[\boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{N}]$ 中选择出和某个特定任务相关的信息，我们需要引入一个和任务相关的表示，称为查询向量（Query Vector）。并通过一个打分函数来计算每个输入向量和查询向量之间的相关性。

给定一个和任务相关的查询向量 $\boldsymbol{q}$ （查询向量可以是动态生成的，也可以是可学习的参数），我们用注意力变量 $z\in[1,N]$ 来表示被选择信息的索引位置，即 $z = n$ 表示选择了第 $n$ 个输入向量。为了方便计算，我们采用一种“软性”的信息选择机制。首先计算在给定 $\boldsymbol{q}$ 和 $\boldsymbol{X}$ 下，选择第 $i$ 个输入向量的概率 $\alpha_n$ ：
$\begin{aligned} \alpha_{n} &=p(z=n \mid \boldsymbol{X}, \boldsymbol{q}) \\ &=\operatorname{softmax}\left(s\left(\boldsymbol{x}_{n}, \boldsymbol{q}\right)\right) \\ &=\frac{\exp \left(s\left(\boldsymbol{x}_{n}, \boldsymbol{q}\right)\right)}{\sum_{j=1}^{N} \exp \left(s\left(\boldsymbol{x}_{j}, \boldsymbol{q}\right)\right)} \end{aligned}$
其中 $\alpha_{n}$ 称为注意力分布（Attention Distribution)， $s\left(\boldsymbol{x}_{n}, \boldsymbol{q}\right)$ 为注意力打分函数（s即similarity，计算两者的相似性或者相关性），可以使用以下几种方式来计算：

加性模型： $s(\boldsymbol{x}, \boldsymbol{q})=\boldsymbol{v}^{\top} \tanh (\boldsymbol{W} \boldsymbol{x}+\boldsymbol{U} \boldsymbol{q})$
点积模型： $s(\boldsymbol{x}, \boldsymbol{q})=\boldsymbol{x}^{\text{T}}\boldsymbol{q}$
缩放点积模型： $s(\boldsymbol{x}, \boldsymbol{q})=\frac{\boldsymbol{x}^{\top} \boldsymbol{q}}{\sqrt{D}}$
双线性模型： $S(\boldsymbol{x}, \boldsymbol{q}）=\boldsymbol{x}^{\top} \boldsymbol{W} \boldsymbol{q}$

其中 $\boldsymbol{W}$ ， $\boldsymbol{U}$ ， $\boldsymbol{v}$ 为可学习的参数， $D$ 为输入向量的维度。

理论上加性模型和点积模型的复杂度差不多，但点积模型可以更好的利用矩阵乘积，计算效率更高。

当输入向量的维度较高时，点积模型的值通常由较大的方差，从而导致 Softmax 函数的梯度会比较小。而缩放点积模型可以较好的解决这个问题。

双线性模型是一种泛化的点积模型，假设模型参数 $\boldsymbol{W}=\boldsymbol{U}^T\boldsymbol{V}$ ,双线性模型可写为 $s(\boldsymbol{x}, \boldsymbol{q})=\boldsymbol{x}^{\top} \boldsymbol{U}^{\top} \boldsymbol{V} \boldsymbol{q}=(\boldsymbol{U} \boldsymbol{x})^{\top}(\boldsymbol{V} \boldsymbol{q})$ ，即分别对 $\boldsymbol{x}$ , $\boldsymbol{q}$ 进行线性变换后计算点积。相比点积模型，双线性模型在计算相似度时引入了非对称性。

1.1.2.2 加权平均

注意力分布 $\alpha_n$ 可以解释为在给定任务相关的查询 $\boldsymbol{q}$ 时，第 $n$ 个输入向量受关注的程度。我们采用一种“软性”的信息选择机制对输入信息进行汇总，即软性注意力机制（Soft Attention Mechanism）：
$\begin{aligned} \operatorname{att}(\boldsymbol{X}, \boldsymbol{q}) &=\sum_{n=1}^{N} \alpha_{n} \boldsymbol{x}_{n} \\ &=\mathbb{E}_{z \sim p(z \mid \boldsymbol{X}, \boldsymbol{q})}\left[\boldsymbol{x}_{z}\right] \end{aligned}$

软性注意力机制选择的信息是所有输入向量在注意力分布下的期望。

下图为软性注意力机制示例：
在这里插入图片描述

另一种注意力是只关注某一输入向量，叫作硬性注意力（Hard Attention）。硬性注意力有两种实现方式：

1）选取注意力分布中概率最高的输入向量，即最大采样：
$\operatorname{att}(\boldsymbol{X}, \boldsymbol{q})=\boldsymbol{x}_{\hat{n}}$

其中 $\hat{n}$ 为概率最大的输入向量的下标，即 $\hat{n}={\arg \max}^{N}_{n=1} \alpha_{n}$ 。

2）在注意力分布式上随机采样。

硬性注意力的一个缺点是损失函数与注意力分布之间的函数关系不可导，无法使用反向传播算法进行训练。因此硬性注意力通常使用强化学习来进行训练。

注意力机制可以单独使用，但更多的是作为神经网络中的一个组件。

1.1.3 注意力机制的变体

1.1.3. 1 键值对注意力

用键值对（key-velue pair）格式表示输入信息，其中“键”用来计算注意力分布 $\alpha_n$ ，“值”用来计算聚合信息。

用 $(\boldsymbol{K}, \boldsymbol{V})=\left[\left(\boldsymbol{k}_{1}, \boldsymbol{v}_{1}\right), \cdots,\left(\boldsymbol{k}_{N}, \boldsymbol{v}_{N}\right)\right]$ 表示 $N$ 组输入信息，给定任务相关的查询向量 $\boldsymbol{q}$ 时，注意力函数为：
$\begin{aligned} \operatorname{att}((\boldsymbol{K}, \boldsymbol{V}), \boldsymbol{q}) &=\sum_{n=1}^{N} \alpha_{n} \boldsymbol{v}_{n} \\ &=\sum_{n=1}^{N} \frac{\exp \left(s\left(\boldsymbol{k}_{n}, \boldsymbol{q}\right)\right)}{\sum_{j} \exp \left(s\left(\boldsymbol{k}_{j}, \boldsymbol{q}\right)\right)} \boldsymbol{v}_{n} \end{aligned}$
当 $\boldsymbol{K}=\boldsymbol{V}$ 时，键值对模式就等价于普通的注意力机制。

键值对模式图示：
在这里插入图片描述

1.1.3.2 多头注意力

Multi-Head Attention 是利用多个查询 $\boldsymbol{Q}=\left[\boldsymbol{q}_{1}, \cdots, \boldsymbol{q}_{M}\right]$ 来并行地从输入信息中选取多组信息，每个注意力关注输入信息的不同部分。
$\operatorname{att}((\boldsymbol{K}, \boldsymbol{V}), \boldsymbol{Q})=\operatorname{att}\left((\boldsymbol{K}, \boldsymbol{V}), \boldsymbol{q}_{1}\right) \oplus \cdots \oplus \operatorname{att}\left((\boldsymbol{K}, \boldsymbol{V}), \boldsymbol{q}_{M}\right)$ $\oplus$ 表示向量拼接。

1.1.3.3 结构化注意力

1.1.3.4 指针网络

注意力机制主要用来做信息筛选，从输入信息中选取相关的信息。

指针网络（Pointer Network）是一种序列到序列模型，输入是长度为 $N$ 的向量序列 $\boldsymbol{X}=\left[\boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{N}\right]$ ，输出是长度为 $M$ 的下标序列 $\boldsymbol{c}_{1: M}=c_{1}, c_{2}, \cdots, c_{M}, c_{m} \in[1, N], \forall m$

和一般的序列到序列的任务不同，这里的输出序列是输入序列的下标（索引）。比如输入一组乱序的数字，输出为按大小排序的输入数字序列的下标。如输入 20，5，10，输出 1，3，2。

条件概率 $p\left(c_{1: M} \mid \boldsymbol{x}_{1: N}\right)$ 可以写为
$\begin{aligned} p\left(c_{1: M} \mid \boldsymbol{x}_{1: N}\right) &=\prod_{m=1}^{M} p\left(c_{m} \mid c_{1:(m-1)}, \boldsymbol{x}_{1: N}\right) \\ & \approx \prod_{m=1}^{M} p\left(c_{m} \mid \boldsymbol{x}_{c_{1}}, \cdots, \boldsymbol{x}_{c_{m-1}}, \boldsymbol{x}_{1: N}\right) \end{aligned}$ 其中条件概率 $p\left(c_{m} \mid \boldsymbol{x}_{c_{1}}, \cdots, \boldsymbol{x}_{c_{m-1}}, \boldsymbol{x}_{1: N}\right)$ 可以通过注意力分布来计算。假设用一个循环神经网络对 $\boldsymbol{x}_{c_{1}}, \cdots, \boldsymbol{x}_{c_{m-1}}, \boldsymbol{x}_{1: N}$ 进行编码得到向量 $\boldsymbol{h}_m$ ，则
$p\left(c_{m} \mid c_{1:(m-1)}, x_{1: N}\right)=\operatorname{softmax}\left(s_{m, n}\right)$
其中 $s_{m,n}$ 为在解码过程的第 $m$ 步时， $\boldsymbol{h}_m$ 对 $\boldsymbol{h}_n$ 的未归一化的注意力分布，即
$s_{m, n}=\boldsymbol{v}^{\top} \tanh \left(\boldsymbol{W} \boldsymbol{x}_{n}+\boldsymbol{U} \boldsymbol{h}_{m}\right), \forall n \in[1, N]$
其中 $\boldsymbol{v}$ , $\boldsymbol{W}$ , $\boldsymbol{U}$ 为可学习的参数。

下图给出了指针网络的实例，其中 $\boldsymbol{h}_1$ ， $\boldsymbol{h}_2$ ， $\boldsymbol{h}_3$ 为输入数字 20，5，10 经过循环神经网络的隐状态， $\boldsymbol{h}_0$ 对应特殊字符‘<’.当输入‘>’时，网络一步一步输出桑输入数字从大到小排列的下标。
在这里插入图片描述

1.2 自注意力机制

虽然循环网络理论上可以建立长距离依赖关系，但由于信息传递的容量以及梯度消失问题，实际上也只能建立短距离依赖关系。

如果要建立序列之间的长距离依赖关系，可以使用以下两种方法：
1）增加物理的层数，通过一个深层网络来获取远距离的信息交互；
2）使用全连接网络。

全连接网络是一种非常直接的建模远距离依赖的模型，但是无法处理变长的输入序列，不同的输入长度，其连接权重的大小也不同。这时我们可以利用注意力机制来“动态”的生成不同连接的权重，这就是自注意力模型（self-attention model）。自注意力模型更容易捕获中长距离的相互依赖关系。

为提高模型能力，自注意力模型经常采用查询-键-值（query-key-velue，QKV）模式，其计算过程如下图所示，其中红色字母表示矩阵的维度。
在这里插入图片描述
假设输入序列为 $\boldsymbol{X}=\left[\boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{N}\right] \in \mathbb{R}^{D_{x} \times N}$ ，输出序列为 $\boldsymbol{H}=\left[\boldsymbol{h}_{1}, \cdots, \boldsymbol{h}_{N}\right] \in \mathbb{R}^{D_{v} \times N}$ ,自注意力模型的具体计算过程如下：

1）对于每个输入 $\boldsymbol{x}_{i}$ ，我们首先将其线性映射到三个不同的空间，得到查询向量 $KaTeX parse error: Expected '}', got 'EOF' at end of input: …athbb{R}^{D_{k}$ 、键向量 $\boldsymbol{k}_{i} \in \mathbb{R}^{D_{k}}$ 和值向量 $\boldsymbol{v}_{i} \in \mathbb{R}^{D_{v}}$ 。
对于整个输入序列 $\boldsymbol{X}$ ,线性映射过程可以简写为 $\begin{array}{l}\boldsymbol{Q}=\boldsymbol{W}_{q} \boldsymbol{X} \in \mathbb{R}^{D_{k} \times N} \\ \boldsymbol{K}=\boldsymbol{W}_{k} \boldsymbol{X} \in \mathbb{R}^{D_{k} \times N} \\ \boldsymbol{V}=\boldsymbol{W}_{v} \boldsymbol{X} \in \mathbb{R}^{D_{v} \times N}\end{array}$
其中 $\boldsymbol{W}_{q} \in \mathbb{R}^{D_{k} \times D_{x}}, \boldsymbol{W}_{k} \in \mathbb{R}^{D_{k} \times D_{x}}, \boldsymbol{W}_{v} \in \mathbb{R}^{D_{v} \times D_{x}}$ 分别为线性映射的参数矩阵， $\boldsymbol{Q}=\left[\boldsymbol{q}_{1}, \cdots, \boldsymbol{q}_{N}\right], \boldsymbol{K}=\left[\boldsymbol{k}_{1}, \cdots, \boldsymbol{k}_{N}\right], \boldsymbol{V}=\left[\boldsymbol{v}_{1}, \cdots, \boldsymbol{v}_{N}\right]$ 分别由查询向量、键向量和值向量构成的矩阵。

2）对于每一个查询向量 $\boldsymbol{q}_{n}$ 利用键值对注意力机制，可以得到输出 $\boldsymbol{h}_{n}$
$\begin{aligned} \boldsymbol{h}_{n} &=\operatorname{att}\left((\boldsymbol{K}, \boldsymbol{V}), \boldsymbol{q}_{n}\right) \\ &=\sum_{j=1}^{N} \alpha_{n j} \boldsymbol{v}_{j} \\ &=\sum_{j=1}^{N} \operatorname{softmax}\left(s\left(\boldsymbol{k}_{j}, \boldsymbol{q}_{n}\right)\right) \boldsymbol{v}_{j} \end{aligned}$
其中 $n,j\in[1,N]$ 为输出和输入向量序列的位置， $\alpha_{nj}$ 表示第 $n$ 个输出关注到第 $j$ 个输入的权重。

如果使用缩放点积来作为注意力打分函数，输出向量序列可以简写为
$\boldsymbol{H}=\boldsymbol{V} \operatorname{softmax}\left(\frac{\boldsymbol{K}^{\top} \boldsymbol{V}}{\sqrt{D_{k}}}\right)$
其中 softmax(·)为按列进行归一化的函数。

下图为全连接模型和自注意力模型的对比，实线表示可学习的权重，虚线表示动态生成的权重。由于自注意力模型的权重是动态生成的，因此可以处理变成的信息序列。
在这里插入图片描述

一个有助于理解的延伸阅读：详解Transformer （Attention Is All You Need）。