深入理解深度学习——注意力机制（Attention Mechanism）：注意力评分函数（Attention Scoring Function）

《深入理解深度学习——注意力机制（Attention Mechanism）：注意力汇聚与Nadaraya-Watson 核回归》中使用了高斯核来对查询和键之间的关系建模。式中的高斯核指数部分可以视为注意力评分函数（Attention Scoring Function），简称评分函数（Scoring Function），然后把这个函数的输出结果输入到Softmax函数中进行运算。通过上述步骤，将得到与键对应的值的概率分布（即注意力权重）。最后，注意力汇聚的输出就是基于这些注意力权重的值的加权和。

从宏观来看，上述算法可以用来实现注意力机制框架。下图说明了如何将注意力汇聚的输出计算成为值的加权和，其中 $a$ 表示注意力评分函数。由于注意力权重是概率分布，因此加权和其本质上是加权平均值。

计算注意力汇聚的输出为值的加权和
用数学语言描述，假设有一个查询 $q\in R^q$ 和 $m$ 个“键—值”对 $(k_1, v_1), (k_2, v_2), \cdots, (k_m, v_m)$ ，其中 $k_i\in R^k, v_i\in R^v$ 。注意力汇聚函数就被表示成值的加权和：
$(k_1, v_1), (k_2, v_2), \cdots, (k_m, v_m)) = \sum_{i=1}^m\alpha(q, k_i)v_i\in R^v$

其中查询 $q$ 和键 $k_i$ 的注意力权重（标量）是通过注意力评分函数 $a$ 将两个向量映射成标量，再经过Softmax运算得到的：
$\alpha(q, k_i) = \text{Softmax}(a(q, k_i))=\frac{\exp(a(q, k_i))}{\sum_{j=1}^m\exp(a(q, k_i))} \in R$

正如上图所示，选择不同的注意力评分函数会导致不同的注意力汇聚操作。本文将介绍两个流行的评分函数，稍后将用他们来实现更复杂的注意力机制。

加性注意力

一般来说，当查询和键是不同长度的矢量时，可以使用加性注意力作为评分函数。给定查询 $q\in R^q$ 和键 $k\in R^k$ ，加性注意力（Additive Attention）的评分函数为
$\alpha(q, k)=w^T_v\tanh(W_qq+W_kk)\in R$

其中可学习的参数是 $W_q\in R^{h\times q}$ 、 $W_k\in R^{h\times k}$ 和 $W_v\in R^h$ 。如上式所示，将查询和键连结起来后输入到一个多层感知机（MLP）中，感知机包含一个隐藏层，其隐藏单元数是一个超参数 $h$ 。通过使用 $\tanh$ 作为激活函数，并且禁用偏置项。

缩放点积注意力

使用点积可以得到计算效率更高的评分函数，但是点积操作要求查询和键具有相同的长度。假设查询和键的所有元素都是独立的随机变量，并且都满足零均值和单位方差，那么两个向量的点积的均值为0，方差为 $d$ 。为确保无论向量长度如何，点积的方差在不考虑向量长度的情况下仍然是1，我们再将点积除以 $\sqrt{d}$ ，则缩放点积注意力（Scaled Dot-product Attention）评分函数为：
$\alpha(q, k)=\frac{q^Tk}{\sqrt{d}}$

在实践中，我们通常从小批量的角度来考虑提高效率，例如基于 $n$ 个查询和 $m$ 个“键—值”对计算注意力，其中查询和键的长度为 $d$ ，值的长度为 $v$ 。查询 $Q\in R^{n\times d}$ 、键 $K\in R^{m\times d}$ 和值 $V\in R^{m\times v}$ 的缩放点积注意力是：
$\text{Softmax}(\frac{Q^TK}{\sqrt{d}})V\in R^{n\times v}$

参考文献：
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.