注意力机制浅析

一、注意力机制的发展

Attention机制最早是在视觉图像领域提出来的，应该是在九几年思想就提出来了，但是真正火起来应该算是google mind团队的这篇《Recurrent Models of Visual Attention》，他们在RNN模型上使用了attention机制来进行图像分类。随后，Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》中，使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近，如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。

二、注意力机制解决了什么问题？

早期在解决机器翻译这一类序列到序列(Sequence to Sequence)的问题时，通常采用的做法是利用一个编码器(Encoder)和一个解码器(Decoder)构建端到端的神经网络模型，但是基于编码解码的神经网络存在两个问题，拿机器翻译举例：

问题1：如果翻译的句子很长很复杂，比如直接一篇文章输进去，模型的计算量很大，并且模型的准确率下降严重。

问题2：在翻译时，可能在不同的语境下，同一个词具有不同的含义，但是网络对这些词向量并没有区分度，没有考虑词与词之间的相关性，导致翻译效果比较差。

同样在计算机视觉领域，如果输入的图像尺寸很大，做图像分类或者识别时，模型的性能就会下降。

针对这样的问题，注意力机制被提出。

三、什么是注意力机制？

注意力机制是上世纪九十年代，一些科学家在研究人类视觉时，发现的一种信号处理机制。人工智能领域的从业者把这种机制引入到一些模型里，并取得了成功。目前，注意力机制已经成为深度学习领域，尤其是自然语言处理领域，应用最广泛的“组件”之一。这两年曝光度极高的BERT、GPT、Transformer等等模型或结构，都采用了注意力机制。

注意力机制实际上就是想将人的感知方式、注意力的行为应用在机器上，是人们在机器学习模型中嵌入的一种特殊结构，用来自动学习和计算输入数据对输出数据的贡献大小。

例如当我们观察下面这副图的时候，大部分人第一眼注意到的是猫咪的面部以及吐出的舌头，然后才会注意到图片上的其他部分。

所谓的"注意力机制"也就是当机器在做一些任务，比如要识别这张图片是一个什么动物时，我们让机器也存在这样的一个注意力侧重，最重要该关注的地方就是图片中动物的面部特征，包括耳朵，眼睛，鼻子，嘴巴，而不用太关注背景的一些信息，核心的目的就在于希望机器能在很多的信息中注意到对当前任务更关键的信息，而对于其他的非关键信息就不需要太多的注意力侧重。

同样的如果我们在机器翻译中，我们要让机器注意到每个词向量之间的相关性，有侧重地进行翻译，模拟人类理解的过程。

四、注意力机制的实现和分类

简单来说就是对于模型的每一个输入项，可能是图片中的不同部分，或者是语句中的某个单词分配一个权重，这个权重的大小就代表了我们希望模型对该部分一个关注程度。这样一来，通过权重大小来模拟人在处理信息的注意力的侧重，有效的提高了模型的性能，并且一定程度上降低了计算量。

深度学习中的注意力机制通常可以分为三类：软注意（全局注意）、硬注意（局部注意）和自注意力（内注意）。

Soft/Global Attention(软注意机制)：对每个输入项的分配的权重为0-1之间，也就是某些部分关注的多一点，某些部分关注的少一点，因为对大部分信息都有考虑，但考虑程度不一样，所以相对来说计算量比较大。

Hard/Local Attention(硬注意机制)：对每个输入项分配的权重非0即1，和软注意不同，硬注意机制只考虑那部分需要关注，哪部分不关注，也就是直接舍弃掉一些不相关项。优势在于可以减少一定的时间和计算成本，但有可能丢失掉一些本应该注意的信息。

Self/Intra Attention（自注意力机制）：对每个输入项分配的权重取决于输入项之间的相互作用，即通过输入项内部的"表决"来决定应该关注哪些输入项。和前两种相比，在处理很长的输入时，具有并行计算的优势。

一、注意力机制的发展

二、注意力机制解决了什么问题？

三、什么是注意力机制？

四、注意力机制的实现和分类

猜你喜欢