【读点论文】DAS: A Deformable Attention to Capture Salient Information in CNNs，结合了层特征的上下文信息和可变形卷积的能力

DAS: A Deformable Attention to Capture Salient Information in CNNs

Abstract

卷积神经网络(cnn)在局部空间模式识别方面表现优异。对于许多视觉任务，如物体识别和分割，显著信息也存在于CNN的内核边界之外。然而，由于cnn的接受域有限，它很难捕捉到相关的信息。自关注可以改善模型对全局信息的访问，但会增加计算开销。我们提出了一种快速简单的全卷积方法，称为DAS，有助于将注意力集中在相关信息上。它使用可变形卷积来定位相关图像区域，使用可分离卷积来提高效率。DAS插入现有的cnn并使用门控机制传播相关信息。与 transformer 式注意力的计算复杂度O(n2)相比，DAS的计算复杂度为O(n)。我们的观点是，当将DAS增加对相关特征的关注的能力添加到流行的cnn用于图像分类和目标检测时，会导致性能的提高。例如，DAS在基于ResNet50骨干网的Stanford Dogs(4.47%)、ImageNet(1.91%)和COCO AP(3.3%)上产生了改进。在使用相似或更少的FLOPs时，这种方法优于其他CNN注意机制。
本文的主要内容是介绍了一种名为DAS（Deformable Attention to Capture Salient Information）的注意力机制，该机制能够在卷积神经网络（CNNs）中提供对相关信息的专注注意力。作者通过将DAS注意力门引入ResNet和MobileNetV2等标准CNN模型中，展示了在各种任务中提升性能的实验结果。该注意力机制结合了层特征的上下文信息和可变形卷积的能力，从而使模型能够更加专注并增加对显著特征的注意力。

Introduction

卷积神经网络(Convolutional Neural Networks, CNNs)在架构上设计为利用局部空间层次结构，利用核实现的卷积滤波器。虽然这使得它们对于涉及局部空间模式的任务高效有效，但它们的内在设计限制了它们的接受域，并且可能阻碍内核边界之外的相关信息的完全集成。(Vision Transformers, ViT)支持捕获图像中的全局依赖关系和上下文理解，并且在许多计算机视觉任务中显示出改进的性能。ViTs将图像分解成平面化补丁序列，然后将它们映射到Transformer编码器的嵌入向量序列。由于注意机制固有的输入向量个数的计算复杂度为0 (n2)，所以采用了基于patch的方法。通过将图像转换成更粗的斑块，ViTs有效地减少了输入斑块的数量，即n。然而，在粒度上提供密集的关注，比如像素上，在计算上仍然具有挑战性。此外，与cnn相比，vit往往需要更大的模型尺寸、更高的内存需求和大量的预训练，并且它们的计算需求限制了它们在实时嵌入式应用中的实用性。虽然人们一直在努力控制transformer的二次复杂度，以便在长序列上使用卷积实现密集关注，但也有相当多的研究[Attention mechanisms in computer vision: A survey]将自注意机制直接纳入cnn，目的是提供密集的显著特征关注。这项工作的主要动机是后者。
cnn的注意机制大致可分为通道注意、空间注意和混合域注意。这些方法使用聚合、子采样、池化等技术来包含特定注意力的计算，这反过来又使提供密集注意力变得困难。例如，大多数研究注意力模块堆叠的论文在计算注意力感知特征图中的注意力权重之前，都采用了平均池化操作。一种流行的策略是为每个通道计算一个权重。这可能会导致忽略重要的空间上下文信息。已经提出了一些方法，通过混合通道和空间注意来扩展上述方法，产生更鲁棒的注意模块。另一种扩展[Rotate to attend: Convolutional triplet attention module]使用了输入的两个旋转的全局池化以及原始张量的全局池化，并结合了特征的三个视图的信息。然而，它们仍然在努力有效地提供对显著特征的关注。他们将通道和空间注意力视为独立的过程，因此他们不会整体地看待特征中的信息，这可能导致潜在的信息丢失。
图像的区域使用可变形网格，而不是标准卷积滤波器中使用的规则网格。Deformable ConvNets v2显示出对相关图像区域进行聚焦的能力有所提高。这些类型的方法已被用于通过在vit中找到更好的 key 和 query，为语义分割和图像分类的精细任务提供vit中的可变形注意力。然而，我们的主要兴趣是在cnn中直接提供一种注意力机制，对原始网络或其训练进行最小的更改。因此，本文其余部分的重点是卷积注意方法。
我们的方法的灵感部分来自于可变形卷积的成功，部分来自于Raft架构设计在各种视觉任务中的主导地位，如光流和立体视觉，它们使用门控循环单元(GRU)递归地传播图像/特征映射。我们的主要贡献是一个有效的门控注意机制，DAS，它集中和增加对显著图像区域的关注。它可以很容易地集成到任何现有的CNN中，以最小的FLOPs增加来增强CNN的性能，重要的是，不改变主干。我们的注意力门结合了层特征提供的上下文和可变形卷积聚焦相关图像区域的能力，以优雅地增加对显著特征的关注。
- DAS注意力集成了深度可分离卷积(DSC)和可变形卷积(DC)来聚焦和增加对显著区域的注意力，并计算密集注意力(像素级)权重。在这张图中，最左边的热图显示了未加注意的ResNet-50显著性图(此处仅用于说明)，最右边的热图显示了同一层，但经过了DAS门控。
DAS只添加了一个超参数，也很容易调整。我们演示了将我们的门集成到标准cnn中，如ResNet和MobileNetV2，并且通过广泛的实验结果，显示了在各种任务中的性能提升。为了支持我们的观点，即添加了我们的注意力门的cnn确实集中并增加了对任务相关特征的关注，我们展示了突出重要像素的gradCAM[30]热图视觉效果。我们还定义并计算了一个简单的度量，称为显著特征检测(sfd)分数，用于定量比较我们的注意力门的有效性。

Related Work

CNN注意力机制的发展是为了消除冗余信息在神经网络中流动，同时解决计算负荷问题。目标是增加对显著特性的关注，减少或不关注无关特性。
Channel Attention. Squeeze-and-Excitation Networks (SENet)采用全局池化和全连接层引入了一种高效的通道智能注意机制。SENet为每个通道计算单个注意力权重，与基本体系结构相比，可以显著提高性能。同时，Global Secondorder Pooling Networks (GSoP-Net)方法采用二阶池化来计算注意力权重向量。高效通道注意力(ECA-Net)通过全局平均池化和一维卷积计算每个通道的注意力权重。空间语境信息在上述的通道注意方法中很大程度上被忽略了。
Spatial Attention. GE-Net通过深度卷积对信息进行空间编码，然后将输入信息和编码信息整合到下一层。双注意网络(A2-Nets)方法为非局部(NL)块引入了新的关系函数，连续使用两个连续的注意块。Global-Context Networks (GC-Net)方法使用复杂的基于排列的操作集成了nl块和SE块，以捕获远程依赖关系。CC-Net结合了沿相交轨迹的像素的上下文信息。SA-NET利用通道分裂并行处理子特征。在上述所有的空间注意力方法中，虽然目标更多地是捕获远程依赖关系，但计算开销可能很高，这从我们的实验结果中也可以看出。
Channel-Spatial Attention。卷积块注意力模块(Convolutional Block Attention Module, CBAM)和瓶颈注意力模块(Bottleneck Attention Module, BAM)将通道注意力和空间注意力分开，并在最后一步将它们结合起来，从而获得比SENet更好的性能。CBAM的注意力块包含多层感知器(MLP)和卷积层，采用全局平均和最大池化的融合。SPNet中引入了一种称为条形池的池化技术，它利用长而窄的内核来有效地捕获涉及像素预测的任务的广泛上下文细节。GALA也分别用两个二维张量找到局部和全局信息，并对它们进行积分，得到通道空间关注。Triplet Attention通过排列输入张量和池化捕获跨维交互，从而提高性能。DRA-Net也采用两个独立的FC层来捕获信道和空间关系。OFDet同时使用信道、空间和信道空间这三种注意力。在上述所有情况下，这些单独处理的注意需要明智地结合起来，以提供对功能依赖的更全面的表示。由于使用平均和/或池化，提供密集关注也很困难。同样，计算开销很高。
一项关于cnn的注意机制的调查将其分为6类:通道注意、空间注意、时间注意、分支注意、通道与空间注意、时空注意。我们提出的注意力模块并没有像上面那样分离注意力，相反，它会一次查看整个功能，并以一种非常简单的方式返回像素级的注意力权重。
总之，现有的方法并没有以整体的方式完全解决渠道、空间和相关的全球依赖关系的捕获问题，而这对于理解上下文信息至关重要。在大多数情况下，密集的注意力和/或计算开销也可能是一个问题。相比之下，我们提出的注意力门结合了深度可分离卷积和可变形卷积的优势，以整体地提供像素级的注意力。它使我们的模型能够有效地集中和增加对相关信息的关注，同时保持cnn架构的简单性。

Methodology

在本节中，我们介绍了我们的DAS注意机制，旨在以计算效率的方式增强cnn的能力，以提供对相关信息的集中注意。我们通过在ResNet和MobileNetV2模型中每个主块的跳过连接后使用我们的DAS注意门来说明它的使用。我们的方法的关键步骤和组成部分如下所述。

Bottleneck Layer

我们使用深度可分离卷积操作作为瓶颈层。该操作减少了特征映射中的通道数，将它们从c通道转换为α × c通道，其中0 < α < 1。选择尺寸缩减参数α是为了平衡计算效率和精度。我们在消融研究中通过实验确定了α的最佳值。它还表明，我们的模型添加的唯一超参数(α)对α > 0.1不是很敏感
- 压缩系数α的消融研究:ResNet18 +我们对斯坦福犬的关注表明，当α > 0.1时，对该附加超参数的敏感性较低。本文实现中使用的默认α是0.2。
在瓶颈层之后，我们应用一个规范化层，特别是实例规范化，然后是GELU非线性激活。这些操作增强了特征的表征能力，有助于注意机制的有效性。实例和层归一化的选择得到下表实验结果的支持。
- 正规化层在我们注意门中的消融研究。我们在ResNet-18中评估了BatchNorm (BN)、Simple Feature Norm (FN)、intancenorm (IN)和LayerNorm (LN) +我们对斯坦福狗的DAS关注。我们的方法(最后一行)达到了最好的准确度。
Eq. 1给出了压缩过程，其中X为输入特征，W1为深度可分离卷积。
- $X_c = GELU(InstanceNorm(XW_1))$
- 在上表中，我们展示了在可变形卷积操作之前使用InstanceNorm作为规范化技术的重要性。直观地说，instance normalization 过程允许从图像中去除特定于实例的对比度信息，从而提高了训练过程中可变形卷积注意的鲁棒性。

Deformable Attention Gate

上一步(Eq. 1)的压缩特征数据表示特征上下文，然后通过可变形卷积传递，该卷积使用动态网格(偏移量∆p)代替规则网格，我们知道这有助于关注相关图像区域。Eq. 2给出了可变形卷积核的操作，其中K为核的大小，其权值与cnn中的正则核一样，在pref的固定参考点上施加。∆p是一个可训练的参数，它帮助内核找到最相关的特征，即使它们不在参考的内核之外。Wp也是另一个介于0和1之间的可训练参数。∆p和wp的V值取决于核函数所作用的特征。
- $=\sum^K_{k=1}w_k · w_p · X(p_{ref,k} + ∆p_k)$
- 在可变形卷积之后，我们应用层归一化，然后是Sigmoid激活函数σ (Eq. 3)。该卷积操作将通道数从α × c更改为原始输入c。
- $A = σ(LayerNorm(deform(X_c)))$
- Eq. 3的输出表示注意门。该门控制来自特征映射的信息流，门张量中的每个元素的值在0到1之间。这些值决定了特征映射的哪些部分被强调或过滤掉。最后，为了将DAS注意机制整合到CNN模型中，我们将原始输入张量与前一步获得的注意张量进行逐点乘法。
- $X o u t = X ⊙ A$
- 在Eq. 4中乘法的结果是下一层CNN模型的输入，无缝地集成了注意力机制，不需要改变主干架构。
以前的可变形注意机制主要是为 transformer 设计的，它采用全连接网络(FC)来计算偏移量，这对于cnn来说可能不是最优的。相比之下，DAS注意力使用3 × 3内核，更适合cnn。虽然[Deformable detr: Deformable transformers for end-to-end object detection]将可变形注意专门应用于查询特征，但DAS注意从整体上考虑图像特征。我们的注意力机制作为一个独立的模块运行，不需要改变主架构，增强了它的即插即用能力，而不是基于transformer的可变形注意力方法。

Experiments

对于图像分类，我们使用CIFAR100、Stanford Dogs和ImageNet1k数据集，对于目标检测，我们使用MS COCO。我们采用了ResNet和MobileNetV2架构。对于ImageNet实验，我们采用[Rotate to attend: Convolutional triplet attention module]中的设置:ResNet训练，批大小为256，初始LR为0.1，权值衰减为1e-4, 100 epoch。LR在第30、60和90个时期按0.1的倍数缩放。MobileNetV2:批量大小96，初始LR为0.045，权重衰减为4e-5, LR按0.98epoch缩放。
对于CIFAR100和Stanford Dogs数据集，我们比较了Triplet Attention和Vanilla Resnet。我们对ResNet-18进行了超参数搜索，并对所有基线使用相同的设置:300个epoch，批大小128，初始LR 0.1，权重衰减5e-4, LR衰减在第70、130、200、260的比例因子为0.2。斯坦福狗:批量大小32,LR 0.1，权重衰减1e-4, cosine退火LR调度器，图像预处理的随机翻转和裁剪。
对于目标检测，我们在MS COCO上使用了带有MMdetection工具箱的Faster R-CNN，批大小为16，初始LR为0.02，权重衰减为0.0001,ImageNet-1k预训练主干。我们通过对主干的初始训练，对主干和模型的其余部分进行几个epoch的训练来减轻噪声。从这个初始训练中获得的权重作为我们后续训练过程的初始化点。我们一直使用SGD优化器。

Image Classification

下表显示，Triplet Attention的加入略微提高了ResNet-18 CIFAR100的准确率(0.3%)，但在Stanford Dogs数据集上降低了1.36%的准确率。然而，DAS在CIFAR100和Stanford Dogs上分别将ResNet-18的准确率提高了0.79%和4.91%。与ResNet-18类似，在ResNet-50中加入Triplet attention对Stanford Dogs的骨干模型产生了负面影响，而DAS对CIFAR100和Stanford Dogs的骨干模型分别增强了2.8%和4.47%，显示了DAS在大小模型中的性能一致性。
- 在CIFAR100和Stanford Dogs数据集上的性能(%)，使用我们的方法DAS，达到了最高的准确性。
有趣的是，我们观察到我们提出的DAS-18方法不仅优于基本的ResNet-18模型，而且在CIFAR100和Stanford Dogs数据集(包括ResNet-50)上的更深层次架构，同时使用2.26G更少的FLOPs。这使得DAS-18成为移动应用程序的一个引人注目的选择。
ImageNet分类结果如下表所示。当将DAS注意门应用于ResNet-18时，其分类精度得到了显著提高。DAS的前1准确率为72.03%，前5准确率为90.70%。这优于其他现有方法，如SENet、BAM、CBAM、Triplet Attention和EMCA，显示了DAS在增强模型性能方面的功效。
- 基于ImageNet1k数据集的图像分类模型评价，比较top-1、top-5准确率和计算效率。DAS优于ResNet-18, ResNet-50, ResNet-101, MobileNetV2和其他各种基于注意力的模型，实现了最佳精度，参数和FLOPs仅略有增加。
深度为50的DAS，前1准确率为78.04%，前5准确率为94.00%。与第二好的性能(GSoP-Net)相比，它在使用32%的FLOPs和1.39M的参数时达到了最佳性能。ResNet-50 + DAS注意力在前1精度方面也优于ResNet101，在约60%的FLOPs和参数数量下，准确率提高0.69%。与SENet和CBAM相比，参数较少的其他注意模块相比，ResNet-101 + DAS注意达到了最佳的top-1准确率(78.62%)。在轻量级的MobileNetV2上，DAS保持了其有效性。它的前1精度为72.79%，前5精度为90.87%，优于SENet、CBAM和Triplet Attention，同时具有0.35G的低FLOP计数，计算效率高。

Object Detection

下表显示了我们在具有挑战性的MS COCO数据集上使用Faster R-CNN模型的目标检测实验结果。用于评估的指标包括平均精度(AP)、超过联合(IoU)阈值的不同交叉点的AP (AP50、AP75)，以及针对小型(APS)、中型(APM)和大型(APL)对象的类特定AP。
- 使用Faster R-CNN进行目标检测的MS COCO验证模型性能比较。DAS超越了其他注意力模型和ResNet-101。
骨干网结构的选择对目标检测性能有显著影响。在我们的评估中，ResNet-50、ResNet-101、SENet-50、CBAM-50和Triplet Attention-50作为强有力的基线。我们的DAS-50模型在AP、AP50、AP75、APM和APL评分方面超过了所有其他骨干网，与ResNet-101、SENet-50和CBAM-50相比，参数数量更少。

Design Evolution and Ablation Studies

在完成DAS的设计之前，我们探讨了两个像素注意力概念。图(a)和(b)中描述了这些。
- (a和b):对第4.3节思想的消融研究:(a)将特征张量与变形网格连接，然后对全局依赖性进行卷积。(b)与(a)类似，采用压缩通道以减少flop和参数。©我们的方法:通道压缩和可变形卷积来关注相关信息。(d)至(h):第4.3节中解释的©各组分的消融。表下展示了©优越的精度和计算效率。
- 上图中DAS组件的消融研究，并在第4.3节中进行了解释:(a, b)设计演化分析，(d-h)所提出方法的组件分析©。对Stanford Dogs数据集的评估揭示了每个组件对模型性能和效率的积极影响。
(a):我们将输入与GridSample本身连接起来，然后是一个卷积层，该层集成了输入和来自远处像素的信息。虽然这种方法显示出了潜力，但它在斯坦福狗的数据集中实现了65.00%的准确率。GridSample是一个可微分的PyTorch特征，它基于给定的网格张量在空间上插值相邻像素。
(b):我们通过使用压缩输入和GridSample输出来扩展初始概念，以计算用于抑制特征中无关信息的权重。与第一个想法相比，这种改进产生了适度的改进，在减少计算开销的同时实现了65.21%的准确率。
为了评估我们的设计决策©，我们进行了各种消融研究:
- (d)去掉初始部分，单纯依靠可变形卷积导致精度降低(65.338%)，强调了第一层卷积层的重要性。
- (e)在保留初始部分的同时去除可变形卷积增加了计算量，降低了精度(65.291%)，表明需要多层进行精确的注意力建模。
- (f)用深度可分卷积代替可变形卷积提高了准确率(66.107%)，但我们的方法仍然优于可变形卷积，突出了可变形卷积在关注相关信息方面的优势。
- (g)排除注意模块和只使用可变形卷积大大降低了准确性，强调注意行为的重要性。
- (h)同样，排除注意模块和使用附加层的准确性较低，强调了使用这些层作为注意模块的偏好。
我们的注意力方法©优于所有配置，达到了最好的准确率(66.410%)。这强调了上下文感知注意力机制在将注意力集中在内核边界之外的相关特征和增强模型性能方面的有效性。上文有表展示了不同归一化层对注意模块的影响。总之，我们的实验证明了我们的方法与其他思想和配置相比在准确性和计算效率方面的优势，将其建立为像素级注意力建模的有价值的补充。
我们检验了参数α从0.01到1变化的影响。增大α会增加FLOPs和参数。我们在上文图中的发现表明，alpha值大于0.1会产生良好的结果。通常，在FLOPs和精度之间存在权衡。因此，我们在大多数调查中选择α = 0.2。我们研究了注意层数量的影响。在所有跳过连接之后添加注意层会略微提高性能，但会显著增加flop和参数，尤其是在较大的模型中。根据经验，我们的观察是，四个注意力门层在计算成本和准确性之间取得了很好的平衡。我们还对注意门位置进行了研究，最终选择了一种简单、高效、准确的注意模型，无论对小型数据集还是大型数据集都适用。

Salient Feature Detection Effectiveness

在任何任务中应用注意机制的目的是增加对相关特征的注意，同时减少或不注意无关特征。我们认为，在前面的章节中提出的性能改进主要是由于我们的门在聚焦和增加对图像显著特征的关注方面的有效性。在本节中，我们可视化我们的注意力机制满足上述目标的程度。为此，我们使用gradCAM，该函数生成热图，显示输入图像的哪些部分对训练后的网络做出的分类决策是重要的。热图中使用的配色方案是红色到蓝色，蓝色代表较低的重要性。下图显示了带有和不带有注意门的ResNet-50的一些样本在block 3和block 4之后的热图。这些案例清楚地表明，我们的注意力门更善于将注意力集中在图像的相关特征上。
- 分析区块3(左)和区块4(右)中ResNet和DAS中的GradCam激活情况，展示了我们方法的卓越显著性。DAS实现了更高的sfd度量(5)，强调了其关注显著图像特征的能力。
我们在ResNet的每个块的末尾应用了我们的注意力门，这样网络在早期阶段就开始关注相关的特征。观察上图中从区块3到区块4的热图变化，我们可以看到，当使用DAS注意力时，注意力确实向相关特征转移。最后，我们定义了一个简单的度量来衡量训练后的网络在关注相关特征方面的有效性。我们基于gradCAM输出的权重。由于我们观察到gradCAM权重被压缩在0到1的范围内，因此我们在下面的例子中使用了对gradCAM权重的反对数缩放。设R表示包含任务相关特征的区域，理想情况下由人类识别，但也可以使用视觉接地工具进行近似。B表示图像内包含R的边界框，并且B之外的权重较低(低于阈值)，即网络认为不重要的特征在B之外。Wr表示R中特征的平均权重。Wn为B−R中特征的平均权重。显著特征检测得分为，
- $sfd = W_r/(W_r + W_n)$
Wr/Wn提供了对图像中相关特征的关注强度的度量。其值越高，说明人们对相关特征的关注程度越高。另一方面，Wn/Wr的高值意味着注意力被给予了不相关的功能。Sf从0到1变化。接近1的分数意味着专注于相关功能，而接近0的分数则意味着注意力完全错位。中间值表明注意力分散在相关和不相关的特征上。我们使用以下步骤检测R和b。我们首先使用ground-dino +SAM来识别图像中待分类的物体。为了避免手工检查，我们接受此操作中可能出现的错误。这就给出了相关特征的区域R。在R之外，我们根据gradCAM选择包含显著像素的区域。上图中的最后一列是为ResNet-50和DAS计算的sfd值。我们还计算了来自ImageNet的100张图像的随机样本的sfd值。ResNet和DAS的sf分别为0.59和0.72，说明了我们的方法在实现目标特征关注方面的优势。

Conclusion, Limitations and Extensions

本文提出了一种新的cnn自注意机制——DAS注意门。DAS不使用transformer。与cnn中早期的注意力方法相比，DAS提供了密集的注意力，并从整体上看特征上下文。DAS非常简单——它结合了深度可分离卷积(用于有效地表示全局上下文)和可变形卷积(用于增加对相关图像区域的关注)。实现结果确实表明，DAS虽然简单，但可以将注意力集中在图像中与任务相关的特征上。在我们看来，它的简单就是它的力量，因为(i)它可以在为任何视觉任务设计的CNN的任何两层之间引入，(ii)不需要对网络的其余部分进行任何更改，(iii)提供密集的关注，(iv)以整体的方式提供关注，而不是分离通道或空间关注，(v)只有一个额外的超参数，这很容易调整，(vi)只增加了少量的计算开销。(vii)是O(n)，而不是transformer式的自我注意的O(n2)， (viii)与所有其他早期提出的CNN注意方法相比，迄今为止产生了最好的结果。
一个限制是，当网络具有大深度特征时，计算开销会显著增加。因此α的值必须谨慎选择。过小的值会导致上下文信息的丢失，过大的值会增加计算量。虽然我们已经展示了DAS在图像分类和目标检测方面的性能，但在未来，我们希望将其用于语义分割和立体匹配等密集视觉任务，在这些任务中，DAS的密集注意力能力可以提供显着的优势。

【读点论文】DAS: A Deformable Attention to Capture Salient Information in CNNs，结合了层特征的上下文信息和可变形卷积的能力

DAS: A Deformable Attention to Capture Salient Information in CNNs

Abstract

Introduction

Related Work

Methodology

Bottleneck Layer

Deformable Attention Gate

Experiments

Image Classification

Object Detection

Design Evolution and Ablation Studies

Salient Feature Detection Effectiveness

Conclusion, Limitations and Extensions

猜你喜欢