Learn To Pay Attention

翻译:LEARN TO PAY ATTENTION

摘要

我们提出了一种用于图像分类的卷积神经网络(CNN)架构的端到端可训练注意力模块。该模块将2D特征矢量图作为输入,其形成CNN流水线中不同阶段的输入图像的中间表示,并输出每个特征图的2D得分矩阵。通过结合该模块来修改标准CNN架构,并且在约束下训练中间2D特征向量的凸组合(由得分矩阵参数化)必须单独用于分类。激励激励相关并抑制不相关或误导,因此得分承担注意值的作用。我们的实验观察为这种效果提供了明确的证据:学习的注意力图巧妙地突出了感兴趣的区域,同时抑制了背景杂乱。因此,所提出的功能能够引导标准CNN架构用于图像分类任务,展示了超过6个看不见的基准数据集的优越性。当进行二值化时,我们的注意力图优于其他基于CNN的注意力图,传统显着性图以及弱监督分割的顶级目标提出,如对象发现数据集所示。我们还证明了对抗对抗性攻击的快速梯度符号方法的改进的鲁棒性。
 

1.Instruction

前馈卷积神经网络(CNN)已经在各种视觉任务上展示了令人印象深刻的结果,例如图像分类,字幕,分割和目标检测。 然而,他们在解决这些问题时所实施的视觉推理仍然在很大程度上是不可理解的,妨碍了对他们的成功和失败的理解。

一个用来可视化和解释CNNs内部工作的方法是注意力图:一个标量矩阵表示相对于目标任务在不同2D空间位置处的层激活的相对重要性。这种用于形成目标特定表示的相关特征的非均匀空间分布的概念,以及它们相对相关性的显式标量表示,就是我们所说的“注意力”。先前的工作已经表明,对于仅使用图像级注释训练的CNN分类,提取注意力图提供了确定感兴趣目标的位置的直接方式和 /或其分割掩模,以及帮助识别不同类别的判别性视觉特性。最近,也表明,训练较小的网络以模仿较大和较高性能的网络架构的注意力图可以使得那些较小网络的分类准确度的提高。

Simonyan等人的工作代表了一系列日益复杂的技术,用于估计分类CNN中的注意力图。但是,这些方法具有一个至关重要的局限性:所有这些都是作为完全训练有素的网络的后期增加而实施的。另一方面,已经提出了在整个网络的端到端训练过程中学习其参数的综合注意力机制,并且已经在可以将注意力作为线索的各种应用中显示出益处。这些包括属性预测(Seo等,2016),机器翻译(Bahdanau等,2014),图像标题(Xu et al。,2015; You et al。,2016; Mun et al。,2016)和visual 问答(VQA)(Xu&Saenko,2016; Yang et al。,2016)。 与这些方法类似,我们在此将注意力表示为输入图像位置上的概率图,并通过端到端框架实现其估计。 我们贡献的新颖之处在于将全局图像表示重新用作查询以估计分类中的多尺度注意力,该任务不同于例如 图像字幕或VQA,自然不涉及查询。
 

图1提供了所提出方法的概述。 此后,我们将使用术语“局部特征”和“全局特征”来指代由CNN的某个层提取的特征,其有效感知野分别是图像的连续适当子集(“局部)和整个图像 ('全局')。通过定义局部和全局特征之间的兼容性度量,我们重新设计标准体系结构,使得它们必须仅使用局部特征的加权组合对输入图像进行分类,其中权重由注意力图表示。 因此,网络被迫学习与解决手头任务相关的注意力模式。

我们尝试将所提出的注意机制应用于流行的CNN架构中的VGGNet(Simonyan&Zisserman,2014)和ResNet(He等人,2015),并在多个级别捕获粗糙到精细的注意力图。 我们观察到所提出的机制可以提升基准CNN架构用于图像分类任务:例如,增加注意力到VGG模型使得CIFAR-100的准确度增加7%。 我们对注意力加权表示的使用导致改进的细粒度识别和针对域位移分类的6个基准数据集的优异泛化。正如在训练细粒度鸟类识别的模型中观察到的那样,注意力意识模型对低和中等L1噪声规范中的对抗性愚弄提供限制性的对抗。训练过的的注意力图优于其他CNN衍生的注意力图(Zhou等,2016),传统的显着性图(Jiang et al。(2013); Zhang&Sclaroff(2013)),以及关于弱监督任务的高级目标发现对象发现数据集的分割(Rubinstein等人(2013))。在第五章中,我们提供的样本结果表明这些改进可能归因于该方法倾向于突出感兴趣的目标同时抑制背景杂乱。

2 RELATED WORK

3 APPROACH

这项工作的核心目标是使用注意力图来识别和利用CNN在制定分类决策时使用的视觉信息的有效空间支持。 这种方法的前提是假设识别显着图像区域并放大其影响,同时抑制其他区域中不相关和可能混淆的信息是有好处的。 特别是,我们期望对图像信息进行更集中和更简洁的使用应该有助于对数据分布变化的概括,例如在一组培训和另一组测试时。因此,我们提出了一种可训练的注意力估计器,并说明如何将其集成到标准CNN管道中,以便如上所述影响它们的输出。该方法基于强制执行在CNN流水线中间阶段提取的局部特征向量与通常馈送到流水线末端的线性分类层的全局特征向量之间的兼容性概念。 我们通过在分类示例中将分类器限制为仅使用由兼容性得分选择和加权的局部特征向量的集合来实现注意感知分类。 我们将首先讨论对网络体系结构的修改以及对其进行训练的方法,并给出兼容性函数的选择。 然后,我们将通过提供兼容性函数的替代选择来结束方法描述。

3.1 DESIGN AND TRAINING OF ATTENTION SUBMODULE

 

所提出的方法如图2所示。由表示在给定卷积层处提取的特征向量集合。 这里,每个是层中n个总空间位置的空间位置i处的输出激活的矢量。 全局特征向量g具有整个输入图像作为支持并且由网络的一系列卷积和非线性层输出,仅需要穿过最终的完全连接的层以产生该输入的原始架构的类得分。 现在假设存在兼容性函数C,它将两个相等维度的向量作为参数并输出标量兼容性分数:这将在3.2中指定。

 

猜你喜欢

转载自blog.csdn.net/moshiyaofei/article/details/85370208