原文

深度学习中注意力如何工作：理解序列模型中的注意力原理: How Attention works in Deep Learning: understanding the attention mechanism in sequence models.

翻译说明：

attention ：注意力
transformer ：翻译器、迁移，或不翻译
token：词，或不翻译

翻译

什么是注意力？

记忆是时间上的注意力。~ Alex Graves 2020 [1]

注意力机制很自然地从时变数据（序列）问题中浮现。
既然用了 “序列”一词，让我们以机器学习术语来公式化该问题。
在处理序列的通用任务中注意力很流行。

序列到序列学习

在注意力和翻译器之前，序列到序列 (seq2seq) 工作的很棒，如下图：

在这里插入图片描述

序列的元素 x1,x2,等通常叫 token。token可以是任意字面量。例如，文本表示、像素、甚至视频中的图像。

为什么用这样的模型？

(因为) 目标是翻译输入序列(源) 为新序列(目标)。

两个序列的长度相同，也可以任意长度。

循环神经网络(rnn)支配这类任务。原因很简单：我们喜欢把序列看作顺序的。
听起来很明显也很优？transformer告诉我们不是这样的。

译者：因为，对一个序列而言，token相邻未必相关，不相邻也未必不相关。序列看起来是顺序的(比如表达为链表)，但其实是个图。

编码器-解码器的高层视角

编码器、解码器其实就是堆叠的 RNN层(例如LSTM)。
编码器从所有输入时间步产生压缩表示，通常叫z。z被当作输入的一个压缩形式。

在这里插入图片描述

解码器接受上下文向量z，然后产生输出序列。seq2seq的最常见应用是语言翻译。可以想象输入序列表示一个英文句子，输出序列表示法语句子（意思相同）。

在这里插入图片描述

事实上，基于RNN的架构仅仅在小于20个时间步的情况下工作的很好。可视化如下：

在这里插入图片描述

下面叙述原因。

RNN的限制

无法压缩长句子

中间表示z不能编码输入的全部时间步。这常被成为瓶颈问题。向量z需要捕捉源句子的全部信息。

理论上，数学表明这是可能的。然而在实践中，从当前位置能看到多远的过去是有限的（这叫参考窗口）。RNN倾向于忘记太远的(相距时间步太长)信息。

大多数情况下，向量z不能压缩早期单词。

梯度倾向于句末、对句首的梯度倾向于消失

最后，系统在句子的最后部分花了太多注意力。对于序列任务，这不是最佳方案。并且人类也不是用这种方式翻译或理解语言的。

而且，层叠的RNN层常产生梯度消失问题，可视化如下：

在这里插入图片描述

这个层叠的RNN可能导致梯度消失
(译者: 颜色深浅表示梯度大小，水平方向表示输入的序列)

因此，让我们跳出标准的编码器-解码器 RNN。

注意力来营救RNN

attention的诞生是为了解决上面的两个问题的。怎么解决？

核心想法是上下文向量z应该访问输入序列的所有部分，而不是只访问最后一个单词。

换句话说，我们需要对每个时间步直接连接。

这个想法最初在计算机视觉被提出。Larochelle and Hinton [5] 提出：瞥一眼图像的不同部分，能学到一个局部形状的信息，并据此分类该图像。

同样的原理后来被扩展到序列。在同一时刻，观察所有不同的单词，对不同的任务学会注意该任务相关的多个单词。

这就是我们所说的注意力，她简直就是记忆。沿着时间轴关注多个不同的单词，这就形成了记忆。

以我的拙见，理解这个概念的通用性很重要。从这里到本文结束，注意力原理的分类。

注意力类型：隐式 vs 显式

在说机器翻译怎么使用注意力的具体例子之前，声明一点：

超深神经网络已经学到隐式注意力的一种形式 [6]

深度网络是非常丰富的函数逼近器。所以，没有进一步修改，他们倾向于忽略输入的这些部分而倾向于聚焦在那些部分（译者：因为那些部分是和目标函数相关的，而这些部分与目标函数无关）。例如，人类姿势检测，该网络对于人类身体的像素更敏感。视频的自监督方法例子如下：

这些地方倾向于激活当用自监督方法的时候

“很多激活单元偏爱人类身体部分和姿态” Misraetal. 2016

可视化隐式注意力的一个方法是 Jocabin 矩阵，这超出了本文范文。

然而，我们有多种原因强迫隐式注意力显式化。对人类思想来说，注意力是特别直观且可解释的。因此，要求网络基于记忆对先前的多个输入的敏感度权重化，我们引入了显式注意力。从现在开始，我们称显式注意力为注意力。

注意力类型：硬 vs 软

软注意力（可微函数）

另一个注意力分类是：硬注意力和软注意力。
前面所有例子，我们所说的注意力是一个可微函数。文献上，把可微函数注意力叫做软注意力。正式定义：

软注意力意味着该函数在她的定义域平滑的改变，所以，她是可微的

硬注意力（离散函数）

在历史上，有另一个概念叫硬注意力。

一个直观例子：想象迷宫中一个机器人，必须要对走哪条路做出硬决定(离散决定) ，如红箭头所示：

迷宫中的一个决策

区别和联系

一般而言，硬意味着离散变量，而软意味着连续变量（译者：例如softmax中的软）。换句话说，硬注意力不使用确定性方法而使用随机采样模型。

接下来的这个例子中（译者：硬注意力例子），在图像中从一个随机位置开始找到对分类而言的 “重要像素”。大致来说，训练阶段，该算法必须要选一个方向以进入该图像。

既然硬注意力是不可微分的，那就不能用标准的梯度方法。这就是为什么需要用强化学习(RL)技术来训练硬注意力模型。强化学习技术，例如策略梯度和强化算法 [6]

译者：离散函数梯度不存在，因为定义域只有有限个点无法定义无穷小

不过，强化算法和类似的强化学习方法的主要问题是高方差。总结如下：

硬注意力被当作用于确定是否注意一个区域的开关，这意味着该函数在其顶医院有很多突变。

译者：高方差，简单理解就是太分散，拟合曲线在目标曲线上下分散的太多。
译者：高偏差，简单理解就是平移量太大，拟合曲线实际是目标曲线上或下平移了太多。

最后，假设已经有所有可用的 token，可以松弛硬注意力的定义。以这种方式，得到一个光滑可微函数，可以用梯度下降法端到端的训练。

译者：离散函数松弛化为连续函数，但并不是总是可行

编码器-解码器例子中的注意力

译者: 翻译到这里，我发现这一小节的有错误，而且错误不少。但是它引用的内容没错误，所以，接下来，翻译引用1

翻译深度学习中注意力如何工作：理解序列模型中的注意力原理

原文

翻译说明：

翻译

序列到序列学习

编码器-解码器的高层视角

RNN的限制

无法压缩长句子

梯度倾向于句末、对句首的梯度倾向于消失

注意力来营救RNN

注意力类型：隐式 vs 显式

注意力类型：硬 vs 软

软注意力（可微函数）

硬注意力（离散函数）

区别和联系

编码器-解码器例子中的注意力

对于机器翻译注意力是可训练的权重均值

如何计算注意力

全局注意力 vs 局部注意力

自注意力：迁移架构（翻译架构）的关键概念

注意力的优势

注意力不止用于语言翻译

猜你喜欢

翻译 深度学习中注意力如何工作：理解 序列模型 中的 注意力原理

原文

翻译说明：

翻译

序列到序列 学习

编码器-解码器 的高层视角

RNN的限制

无法压缩长句子

梯度倾向于句末、对句首的梯度倾向于消失

注意力来营救RNN

注意力类型：隐式 vs 显式

注意力类型：硬 vs 软

软注意力（可微函数）

硬注意力（离散函数）

区别和联系

编码器-解码器 例子 中的 注意力

对于机器翻译 注意力 是 可训练的 权重 均值

如何计算注意力

全局注意力 vs 局部注意力

自注意力：迁移架构（翻译架构） 的关键概念

注意力的优势

注意力 不止用于 语言翻译

猜你喜欢

翻译深度学习中注意力如何工作：理解序列模型中的注意力原理

序列到序列学习

编码器-解码器的高层视角

编码器-解码器例子中的注意力

对于机器翻译注意力是可训练的权重均值

自注意力：迁移架构（翻译架构）的关键概念

注意力不止用于语言翻译