█ 微信号█:138-0226-9370█ █代孕包成功█代孕包健康 ████████████南方试管代孕公司L

阅读目录

什么是注意力机制？

注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。例如人的视觉在处理一张图片时，会通过快速扫描全局图像，获得需要重点关注的目标区域，也就是注意力焦点。然后对这一区域投入更多的注意力资源，以获得更多所需要关注的目标的细节信息，并抑制其它无用信息。

图片来源：深度学习中的注意力机制，其中红色区域表示更关注的区域。

回到目录

Encoder-Decoder 框架

目前大多数的注意力模型都是依附在 Encoder-Decoder 框架下，但并不是只能运用在该模型中，注意力机制作为一种思想可以和多种模型进行结合，其本身不依赖于任何一种框架。Encoder-Decoder 框架是深度学习中非常常见的一个模型框架，例如在 Image Caption 的应用中 Encoder-Decoder 就是 CNN-RNN 的编码 - 解码框架；在神经网络机器翻译中 Encoder-Decoder 往往就是 LSTM-LSTM 的编码 - 解码框架，在机器翻译中也被叫做 Sequence to Sequence learning 。

所谓编码，就是将输入的序列编码成一个固定长度的向量；解码，就是将之前生成的固定向量再解码成输出序列。这里的输入序列和输出序列正是机器翻译的结果和输出。

为了说明 Attention 机制的作用，以 Encoder-Decoder 框架下的机器翻译的应用为例，该框架的抽象表示如下图：

为了方便阐述，在选取 Encoder 和 Decoder 时都假设其为 RNN。在 RNN 中，当前时刻隐藏状态 $h_{t}$

h t = f (h t - 1, x t) (1)

在 编码阶段，获得各个时刻的隐藏层状态后，通过把这些隐藏层的状态进行汇总，可以生成最后的语义编码向量 $C$

C = q (h 1, h 2, \dots, h T x) (2)

在一些应用中，也可以直接将最后的隐藏层编码状态作为最终的语义编码 $C$

C = q (h 1, h 2, \dots, h T x) = h T x (3)

在 解码阶段，需要根据给定的语义向量 $C$

y t = arg max P (y t) = \prod t = 1 T p (y t | y 1, y 2, \dots, y

由于我们此处使用的 Decoder 是 RNN ，所以当前状态的输出只与上一状态和当前的输入相关，所以可以将公式（4）简写成如下形式：

y t = g (y t - 1, s t - 1, C) (5)

在公式（5）中， $s_{t - 1}$

局限性

Encoder-Decoder 框架虽然应用广泛，但是其存在的局限性也比较大。其最大的局限性就是 Encoder 和 Decoder 之间只通过一个固定长度的语义向量 $C$

回到目录

Attention 机制

在上述的模型中，Encoder-Decoder 框架将输入 $X$

而带有 Attention 机制的 Encoder-Decoder 模型则是要从序列中学习到每一个元素的重要程度，然后按重要程度将元素合并。这就表明，在 Encoder 将输入的序列元素进行编码时，得到的不在是一个固定的语义编码 C ，而是存在多个语义编码，且不同的语义编码由不同的序列元素以不同的权重参数组合而成。一个简单地体现 Attention 机制运行的示意图如下：

在 Attention 机制下，语义编码 C 就不在是输入序列 $X$

C i = \sum j = 0 T x a i j f (x j) (6)

在公式（6）中，参数 $i$

a i j = e x p ( e i j ) \sum T x k = 1 e x p ( e i k

这里 $e_{i j}$

因此，得出 $a_{i j}$

其中， $h_{i}$

回到目录

Attention 原理

到目前为止，相信各位客官对 Attention 机制的思想和作用都有了一定的了解。接下来，我们将对 Attention 机制的具体实现原理进行剖析。

Attention 机制的一个重点就是获得 attention value，即机器翻译中的语义编码 $C_{i}$

通过工作示意图我们可以知道，一个 attention value 的获得需要经过三个阶段：

查询 Query 和各个键值 Key 进行相似度计算得到权值；
对上述得到的权值利用类 SoftMax() 进行归一化；
用归一化后的权值和各个 Value 进行加权求和，得到的值就是 attention value。

在自然语言任务中，往往 Key 和 Value 是相同的。需要注意的是，计算出来的 attention value 是一个向量，代表序列元素 $x_{j}$

回到目录

Attention 机制的优劣

相比于传统的 RNN 和 CNN，attention 机制具有如下优点：

一步到位的全局联系捕捉，且关注了元素的局部联系；attention 函数在计算 attention value 时，是进行序列的每一个元素和其它元素的对比，在这个过程中每一个元素间的距离都是一；而在时间序列 RNNs 中，元素的值是通过一步步递推得到的长期依赖关系获取的，而越长的序列捕捉长期依赖关系的能力就会越弱。
并行计算减少模型训练时间；Attention 机制每一步的计算都不依赖于上一步的计算结果，因此可以并行处理。
模型复杂度小，参数少

但 attention 机制的缺点也比较明显，因为是对序列的所有元素并行处理的，所以无法考虑输入序列的元素顺序，这在自然语言处理任务中比较糟糕。因为在自然语言中，语言的顺序是包含了十分多的信息的，如果缺失了该部分的信息，则得到的结果往往会大大折扣。

回到目录

总结

简而言之，Attention 机制就是对输入的每个元素考虑不同的权重参数，从而更加关注与输入的元素相似的部分，而抑制其它无用的信息。其最大的优势就是能一步到位的考虑全局联系和局部联系，且能并行化计算，这在大数据的环境下尤为重要。同时，我们需要注意的是 Attention 机制作为一种思想，并不是只能依附在 Encoder-Decoder 框架下的，而是可以根据实际情况和多种模型进行结合。

该文仅是对 Attention 机制的思想和原理进行了分析，在具体的实现上还有许多的细节信息，包括和框架的结合方式，具体的数学计算，并行计算的过程以及具体的代码实现等，后续会持续更新 Attention 机制这些部分的内容。

回到目录

南方试管代孕公司L

什么是注意力机制？

Encoder-Decoder 框架

局限性

Attention 机制

Attention 原理

Attention 机制的优劣

总结

参考资料

猜你喜欢