视觉注意力机制集锦之引言

1 注意力机制

1.1 注意力机制简介

卷积神经网络具有很强的拟合数据的能力，但是由于优化算法和计算能力的限制，在实践中，卷积网络很难达到通用近似的能力。特别是在处理规模较大的输入数据，实现复杂任务时，计算能力仍可能成为模型的瓶颈。卷积网络中的局部连接的卷积结构、池化层等设计本身可以用来简化网络结构、缓解模型复杂度和表达能力的矛盾。针对网络模型的任务，我们需要进行进一步的操作，可以在不过多增加模型复杂度的同时提高模型的表达能力。
神经网络中，可以存储的信息量称为网络容量，显然，网络容量和网络的复杂度成正比。需要存储更多的信息，将导致网络的复杂度提升，从而使得网络的参数显著増加。视觉注意力机制，其思想来自人类的视觉注意力系统，指的是模仿人类观察图像和其他物品的方式，能够首先把注意力集中在重要的关键的信息和特征上，忽视相对不重要的无关的信息和特征。Wang 等人在鸟类分类中引入了注意力机制，通过并行的三种网络结构捕捉了鸟类不同层次的注意力特征，并与人类视觉注意力特征图进行了对比，其示意图如下图所示。
在这里插入图片描述

1.2 视觉注意力机制分类

1.2.1 产生方式分类

按照注意力产生的方式，注意力可分为两种：一种是自顶向下的的注意力，或称聚焦式（Focus）注意力，指的是主动有意识的、有预定的目的和任务的、聚焦于某一对象的注意力。另一种是自底向上的注意力，称为基于显著性（Saliency-based）的注意力。基于显著性的注意力利用获得的外界信息驱动，和任务无关。在应用注意力机制于神经网络模型时，很多时候结合了这两种注意力，特别是在注意力产生机制较为复杂的情形下。

1.2.2 作用形式分类

按照注意力作用的特征的形式，注意力机制可分为两种：基于项的（Item-wise）注意力和基于位置（Location-wise）的注意力。基于项的注意力的输人是包含明确的项的序列性数据；基于位置的注意力的输人是具有空间维度的特征图。在计算机视觉领域中，基于位置的注意力是与任务较为相关、作用方法较为直接的注意力机制，应用更为广泛，但基于项的注意力在很多特殊的模型中也得到了应用。

1.2.3 机制本身分类

按照注意力本身的形式，注意力机制可分类两种：软性注意力（Soft Attention），或称柔性注意力，和硬性注意力（Hard Attention），或称刚性注意力。软性注意力表现为作用在相应特征上每一位置或维度的权重信息，即注意力本身是软性的不同大小的注意力值的组合。硬性注意力表现为离散的位置信息，只关注于输入特征的一个位置，例如在输人中切割出一块区域作为注意力作用的结果。硬性注意力机制的一大缺点是采用离散的位置来选择信息，导致注意力的作用不能成为可导的函数某，这使得硬性注意力本身难以在神经网络中进行端对端训练。一般情况下，在需要网络模型自身提供注意力信息时，使用软性注意力是更好的选择。

2 视觉注意力机制近来发展

从下图中可以看到，视觉注意力机制近年来蓬勃发展，特别是在去年，相关研究的增幅显著。
在这里插入图片描述
下表是对视觉注意力机制具体方法简短总结的表格，在接下来几篇文章中我们主要对表格中的内容进行基于论文和代码的详解。

【视觉注意力机制集锦】引言