Tell Me Where to Look: Guided Attention Inference Network论文阅读

背景:

摘要:对于只有粗糙标签的弱监督学习,可以通过反向传播梯度的办法,获得深层神经网络的视觉解释,如通过获得注意力图的方式。注意力图可用作对象本地化和语义分割等任务的先驱。本文解决三个问题:首次使注意图成为端到端训练的一个明确且自然的组成部分;直接在这些注意图上提供自我指导,通过探索网络本身的监督来改进它们;无缝地弥合使用弱监督和额外监督(如果有的话)之间的差距。语义分割任务的实验证明了方法的有效性。另外,提出的框架不仅可以用于网络的视觉解释,还可以给出反馈,直接指导特定任务。在温和假设下,我们的方法也可以理解为现有弱监督学习者的插件,以提高其泛化性能。

介绍:

弱监督学习近来备受关注,成为解决计算机视觉中“标记数据稀缺问题“的流行解决方案。例如,仅使用图像级别标签,在卷积神经网络(CNN)上使用反向传播的办法,便可以获得给定输入的注意图。这些注意图能够给出在不同模式和任务下,网络的响应机制。注意图上每个像素的值揭示了输入图像上相同像素对网络最终输出的贡献程度。已经表明,可以从这些注意图中提取本地化和分割信息,而无需额外的标记工作。

现有获得注意力图的办法有缺陷:仅受分类损失的监督,关注地图通常只覆盖感兴趣对象的小型和最具区分性的区域。虽然这些注意图仍然可以作为分割等任务的可靠先验,但是获得”尽可能完整地包含覆盖目标前景对象“的注意图,可以进一步提升性能(本文的目标)。为此,最近的一些作品要么依靠通过迭代擦除步骤[31]或者从多个网络合并注意力图来合并来自网络的多个注意图[11]。 我们设想了一种端到端的框架,可以在训练阶段直接将任务特定的监督应用于注意力图上,而不是被动地利用受过训练的网络注意力。如下图:

图1

作为解释网络决策的有效方式,注意图可以帮助找到训练网络的限制。例如,(要识别船,但网络的注意力在水上而不是船本身)在仅具有图像级对象类标签的对象分类任务中,当前景对象偶然与相同背景对象相关时,我们可能在训练数据中遇到病态偏差。 图1显示了示例类“船”,其中可能存在偏向于作为具有高度相关性的”水“。在这种情况下,训练没有动机将注意力集中在前景上,当测试数据没有相同的相关性时(“水上游艇”),泛化性能可能会受到影响。虽然有人试图通过重新平衡训练数据来消除这种误差,但我们建议将注意图明确地建模为训练的一部分。作为其中一个好处,我们能够明确地控制网络的注意力,并且可以采取人工努力对关注点进行最小限度的监督,而不是重新平衡数据集。虽然可能并不总是清楚如何手动平衡数据集以避免偏差,但引导对感兴趣区域的关注通常很简单。我们还观察到,即使没有额外的监督,我们的显式自引导注意模型已经提高了泛化性能。

猜你喜欢

转载自blog.csdn.net/weixin_41803874/article/details/85210721