文章目录

摘要
1 简介
2 相关工作
3 方法
- 3.1 总体架构
- 3.2 多尺度注意融合块
4 实验
5 结论

摘要

在这里插入图片描述
链接：https://arxiv.org/abs/2209.01620v1

Vision Transformer及其变体在各种计算机视觉任务中显示出了巨大的潜力。但是传统的Vision Transformer通常关注粗级别的全局依赖，这在令牌级别的全局关系和细粒度表示方面面临学习挑战。在本文中，我们将多尺度注意力融合到Transformer(MAFormer)中，探讨了双流框架下的局部聚集和全局特征提取。我们开发了一个简单但有效的模块，通过在令牌级别学习细粒度和粗粒度特性并动态融合它们，来探索可视化表示Transformer的全部潜力。我们的多尺度注意融合(MAF)块包括:i)一个本地窗口注意分支，它学习窗口内的短程交互，聚合细粒度的本地特征;ii)通过一种新的全局学习与下采样(GLD)操作进行全局特征提取，以有效地获取整个图像内的远程上下文信息;Iii)一个融合模块，通过关注自我探索两种功能的整合。我们的MAFormer在常见的视觉任务上达到了最先进的性能。特别是，MAFormer-L在ImageNet上的Top-1准确率达到85.9%，分别超过CSWin-B和liv - vitl 1.7%和0.6%。在MSCOCO上，MAFormer在目标检测方面比现有技术CSWin的map性能高出1.7%，在具有相似大小参数的实例分割方面高出1.4%，显示出成为通用骨干网的潜力。

1 简介

自ViT[11]技术突破以来，Transformer在计算视觉领域占据了主导地位，在图像识别、目标检测、语义分割等多种视觉任务中都取得了优异的成绩。尽管取得了这些进展，但符合ViT[11,21]的全局自注意机制对输入图像大小的计算复杂度为二次元，这对于高分辨率的场景来说是无法忍受的。为了降低复杂性，引入了几种变体，将全局自我关注替换为局部自我关注。Swin Transformer[24]具有层次结构，将输入特性划分到不重叠的窗口中，并按层移动窗口位置。在此基础上，设计了各种窗口划分机制，以更好地捕获局部特征。CSWin Transformer[10]将特征并行分割为水平和垂直条纹，旨在扩大窗口接受域。但是，它只关注窗口内的信息，而忽略了窗口之间的依赖关系。Shuffle Transformer[16]重新访问ShuffleNet[26]，并在本地窗口中嵌入空间洗牌，以加强它们的连接。虽然这些基于局部窗口的注意方法已经取得了出色的性能，甚至优于卷积神经网络(CNN)的对应方法(例如ResNets[13,35])，但它们在全局关系的学习方面存在挑战，而全局关系是更好的特征表示所不可或缺的。

另一个研究方向是将cnn与Transformer结合起来，这是局部模式与全局模式之间的权衡。CvT[52]将自注意块中的线性投影转换为卷积投影。CoatNet[46]通过简单的相对注意将深度卷积与自我注意合并，并将卷积与注意层进行有原则的堆叠。DS-Net[27]提出了一种双流框架，通过交叉注意融合了卷积和自我注意，在这种框架中，每一种规模形式都学会了与另一种规模保持一致。然而，如DS-Net[27]所示，卷积和注意具有内在冲突的性质，可能导致训练中的模糊性。例如，在高分辨率特征图中，全局自注意捕获的远程信息可能会干扰卷积的邻近细节，从而损害全局和局部表示。

在本文中，我们开发了一个多尺度注意融合Transformer(MAFormer)，在双流transformers框架下探索局部聚合和全局特征提取。为了避免卷积和自注意不兼容的风险，我们利用局部窗口注意提取细粒度特征表示。我们还设计了一个全局学习下采样(GLD)模块来提取全局特征，该模块基于全尺寸输入捕获粗粒度特征。我们进一步通过位置嵌入将输入的标记级位置信息编码到全局表示中。此外，我们描述了基于不同融合策略的两种双流架构，特别是多尺度注意力融合(MAF)方案，可以充分挖掘这两个特性的潜力。它的有效性可以解释为MAF块可以增强每个局部-全局令牌对之间的交互，局部特征和全局特征在统一的框架中被联合训练，形成了更丰富和信息量更大的表示。这项工作的贡献总结如下：

引入MAFormer网络在令牌级别提取和融合细粒度和粗粒度特征，通过注意自探索两种特征的集成，提高输入图像的表示能力。
首先引入局部窗口注意分支来学习局部窗口内的短程交互。我们进一步在双分支上引入了全局学习下采样(GLD)模块，有效地捕获了整个图像内的远程上下文信息。
我们基于不同的融合策略开发了两种双流架构，特别是多尺度注意力融合(MAF)方案，可以充分挖掘这两个特性的潜力。
在没有铃铛和哨子的情况下，提出的MAFormer在识别性能方面大大优于先前的视觉transformers。我们还在类似参数的对象检测和实例分割方面，取得了比以前最好的CSWin最先进的结果

2 相关工作

Vision transformers。基于自注意的体系结构，特别是transformer[39]，已经成为自然语言处理(NLP)的主要模型。受其在NLP中的成功的激励，ViT[11]创新地将纯转换器架构应用于图像，方法是将图像分割为多个补丁，并将它们与标记(单词)等同起来。ViT对分类任务[9]表现出竞争效应。许多人致力于将ViT应用于各种视觉任务，包括目标检测[2,55,49,40,31]、语义分割[5,33,44]、姿态估计[22,48,51]、再识别[14]和底层图像处理[4]。这些结果验证了transformers作为通用视觉骨干网络的出色能力。然而，自注意机制对低级特征的编码效率较低，阻碍了它们高效表示学习的潜力。
基于局部窗口注意的transformers。Vision transformers在建模远程依赖关系方面表现出很高的能力，这对于处理下游任务中的高分辨率输入尤其有帮助。但该方法采用原始的全自注意，计算复杂度为图像大小的二次元。为了降低成本，最近的一些视觉transformers[24,38]采用了局部窗口自注意机制[30]及其移位/光晕版本，增加了不同窗口之间的交互。为了扩大接受域，轴向自我注意[15]和交叉注意[17]提出沿着水平或/和垂直轴在条纹内计算注意，而不是将局部窗口固定为正方形。受轴向自注意和十字形自注意的启发，[10]方法提出了十字形窗口自注意。CSWin在水平和垂直条纹中并行进行自我注意计算，每条条纹都是将输入特征分割成等宽的条纹得到的。
transformers中的卷积。根据最近的分析[28,8]，卷积网络和transformers有着不同的优点。而卷积运算保证了更好的泛化和快速收敛，由于其归纳偏差，注意公式网络具有更高的模型容量。因此，将卷积层和注意层结合起来，可以将这些优点结合起来，同时获得更好的泛化能力和容量。一些现有的transformers探索混合体系结构，以合并两种操作，以获得更好的视觉表现。Comformer[28]提出了特征耦合单元，以交互式的方式将卷积局部特征与基于transformers的全局表示融合在一起。CvT[42]设计了卷积令牌嵌入和卷积transformers块，以捕获更精确的局部空间上下文。随后，CoatNet[8]将深度卷积合并为具有简单相对注意的注意层。除了包含显式卷积外，一些著作[24,10,50,41]尝试将卷积的一些理想性质融入Transformer主干。
在这里插入图片描述

3 方法

3.1 总体架构

提出了多尺度注意融合机制，在标记级提取细粒度和粗粒度特征并动态融合，形成了通用视觉转换骨干网络，定义为MAFormer，提高了在各种视觉任务中的性能。图一(a)为MAFormer的整体架构。它采用 $\mathcal{X} \in R^{H \times W \times 3}$ 作为图像的输入，其中W和H表示输入图像的宽度和高度，并采用分层设计。通过降低特征映射的分辨率，该网络可以捕获不同阶段的多尺度特征。我们将输入图像划分为多个补丁并进行补丁合并，接收带有C特征通道的 $\frac{H}{4} \times \frac{W}{4}$ 可视标记。从那里，令牌通过两个阶段的MAF块和两个阶段的原始视觉转换块。在每个阶段中，MAFormer采用了一个约定的补丁合并层，对特征映射的空间大小进行2 倍的下采样，同时增加特征通道的维数。

根据最近对特征表示[29]的研究，像ViT这样的视觉transformers在较低的层中参与局部和全局，但主要关注较高层的全局信息。根据该模式，我们在MAFormer的前两个阶段引入多尺度特征表示，后两个阶段利用原有的视觉转换块，降低了特征的分辨率，使充分关注的计算成本变得可承受。

3.2 多尺度注意融合块

在本节中，我们详细阐述了我们的多尺度注意融合(MAF)块的细节。如图1(b)所示，MAF块包括一个Local Aggregation分支和一个Global Learning with Down Sampling (GLD)分支，分别生成令牌级细粒度和粗粒度特征。两种流都被输入到一个融合模块中，以提高特征表示能力。

局部聚合。以前的混合网络[8，[20]]利用cnn提取本地特征，这些特征进一步集成到Transformer分支中。然而，这样的方法冒着卷积和自我注意不匹配的风险。在MAF中，我们避免了这种不兼容，并探索了使用基于局部窗口的多头注意机制作为细粒度表示。考虑输入 $\in \mathbf{R}^{H \times W \times C}，局部聚合X_{L}^{L}$ 定义为:
$\begin{aligned} X_{L}^{l} &=\operatorname{Local}-\text { Window-Attention }\left(\mathrm{LN}\left(X^{l-1}\right)\right)+X^{l-1}, \\ X_{L}^{l} &=\operatorname{MLP}\left(X_{L}^{l}\right)+X_{L}^{l} \end{aligned} \tag{1}$
其中 $X^{l}$ 表示第l个transformers块的输出。

全局特征提取。尽管局部窗口自注意方法已经取得了出色的性能，但它们只能捕获窗口相关的信息，无法探索它们之间的依赖关系。此外，由于对粗粒度上下文信息的利用不足，现有的方法在全局依赖关系提取方面仍然面临挑战。因此，有效地捕获全局依赖关系是模型表示的本构。

为了解决这些问题，我们引入了一个带有下采样的全局学习(GLD)模块，从大型输入中提取全局信息。为此，我们首先利用与特征输入完全连接的单个神经元层。在不删除任何维度的情况下，它输出一个动态学习的下采样上下文抽象。如图1©所示，首先将输入 $\mathbf{R}^{H \times W \times c}$ 扁平为 $X_{G} \in \mathbf{R}^{C \times L}$ ，其中L等于H× w，然后用全连接层全局提取 $X_{G} \in \mathbf{R}^{C \times L}$ ，缩小为缩放比N。在实验中，我们对N进行了几个值的调优，0.5是最优值，在MAFormer中设置为默认值。此外，我们通过位置嵌入将输入的标记级位置信息编码到全局表示中。如图1©所示，Pos操作使用分层双线性插值作为度量，FC表示为完全连接。

$X_{G}^{l}=\operatorname{Pos}\left(X_{G}^{l-1}\right)+F C\left(X_{G}^{l-1}\right), \tag{2}$

其中 $X_{G}^{l}$ 表示第l个transformers块的全局分支输出。
在这里插入图片描述

多尺度注意融合。我们开发了两种类型的双流多尺度表示，如图2所示。首先，我们在本地表示的顶部提取全局依赖项作为一种增强，旨在提供跨本地窗口的信息流。如图2(b)所示，GLD模块获取局部窗口注意的输出，并将全局表示融合回局部表示。然而，这种方法只能捕获局部属性之间的全局相关性，而不能从输入中获取。因此，我们提出了多尺度注意融合(MAF)测度，直接和分别提取输入的局部和全局尺度。如图2©所示，两种信息流通过注意力被输入到融合块中。通过这种方式，我们的MAF块可以捕获每个局部-全局令牌对之间的相关性，并提示局部特征自适应地探索它们与全局表示的关系，使它们自己更具代表性和信息量。
在这里插入图片描述

给定提取的局部特征 $X_{L} \in \mathbf{R}^{C \times L_{\text {local }}}$ 和全局特征 $X_{G} \in \mathbf{R}^{C \times L_{\text {global }}}$ ，定义多尺度注意融合为:

$\begin{array}{c} Q_{L}=X_{L} W_{Q}^{\text {local }}, \\ K_{G}=X_{G} W_{K}^{\text {global }}, \\ V_{G}=X_{G} W_{V}^{\text {global }}, \end{array} \tag{3}$
其中 $W_{Q}^{\text {local }}、W_{K}^{\text {global }}、W_{V}^{\text {global }}$ 是学习超参数矩阵。然后计算每一对 $X_L$ 和 $X_G$ 之间的多尺度注意融合(MAF):

$\operatorname{MAF}\left(Q_{L}, K_{G}, V_{G}\right)=\operatorname{softmax}\left(\frac{Q_{L} K_{G}^{T}}{\sqrt{d}}\right) V_{G} \tag{4}$

4 实验

在本节中，我们首先提供MAF阻滞的消融研究。然后，给出了MAFormer在图像分类、实例分割目标检测和语义分割三种情况下的实验结果。具体来说，我们使用ImageNet-1K[9]进行分类，使用MSCOCO 2017[23]和Mask R-CNN[12]和Cascade R-CNN[1]进行对象检测和实例分割，使用ADE20K[54]进行语义分割，其中我们使用语义FPN[19]和UPerNet[43]作为基本框架。所有实验均在V100 gpu上进行。

4.1消融研究与分析

MAFormer网络中的多尺度注意融合(MAF)模块主要由三个模块组成:局部聚合机制、全局下采样学习(GLD)模块和动态融合模块。在接下来的实验中，我们通过替换和消融网络的不同部分来探索MAFormer的最佳性能结构。我们以MAFormer-S为基线，在图像分类数据集ImageNet-1K上进行所有实验。

局部聚合。Local Aggregation模块中注意方法的选择非常灵活，可以用基于窗口的自注意的不同方法来替代[17,24,15]。在MAF块中，我们比较了窗分区[24]的原始工作和它的最新变种十字形窗自注意[10]。如表2所示，实验表明，使用十字形窗口自注意的MAFormer-S在设置为默认方法的ImageNet 1K上的top-1精度优于移位窗口自注意+0.2%。

全局特征提取。全局信息对特征表示至关重要。我们在表2中显示，与没有ImageNet-1K全局信息的方法相比，具有GLD的MAFormer-S获得了+1%的top-1精度。我们还将GLD与其他提取全局信息并同时对输入进行下采样的方法进行了比较。如图所示，GLD比基本配置卷积带来了+0.3%的精度，表明使用GLD可以以可学习和动态的方式提取全局令牌的详细信息，并对局部位置信息进行编码。
在这里插入图片描述

融合结构分析。表3比较了不同连接模块的实现。如图所示，我们提出的多尺度融合注意比以前的局部/全局双流体系结构[27]更有效。同时，MAF在我们的实验中得到了验证，与局部增强融合措施相比，MAF具有+0.2%的优势。不同于固定的融合，跨尺度的信息传递由特征本身自动决定，使结合更加有效。

4.2 ImageNet-1K图像分类

设置。在本节中，我们在ImageNet-1K分类[9]上进行MAFormer实验，并将提出的体系结构与之前的先进技术进行比较。MAFormer默认遵循[18]，使用Token Labeling[18]进行训练。对MAFormer-S/B/L，辍学率正则化率[32]分别设为0:1/0:3/0:4，如表1所示。MAFormer-S和MAFormer-B的学习率为1:6e-3，而MAFormer-L的学习率为1:2e-3。所有实验均在V100 gpu上进行。

结果。如表1所示，只有23M参数的MAFormer-S在ImageNet-1k上可以达到83:7%的top-1精度。增加嵌入维度和网络深度可以进一步提高性能。表4详细显示了MAFormer优于之前最先进的视觉transformers的性能。具体来说，MAFormer-L以22.6G FLOPs达到85.9%的Top-1精度，分别超过CSWin-B[10]和liv - vitl[18] 1.7%和0.6%。MAFormer变体在计算量相当大的情况下，也大大优于现有技术的混合架构[8,27]和基于局部窗口注意的transformers[16,3,24]。

4.3基于MSCOCO的对象检测与实例分割

对图像分类资源进行预训练并使其适应下游任务已成为大多数视觉工作的标准方法。然而，下游任务的数据量远远低于分类基准，例如ImageNet。根据最近的研究[29]，当训练少量数据时，基于注意的网络下层在聚合局部相关性方面表现很差，因为缺乏归纳偏差。因此，ImageNet上最先进的转换器骨干没有为下游子任务提供显著的改进。另一方面，MAFormer在较低的层中利用基于局部窗口的注意，并战略性地用它来编码全局信息。这样，在训练数据不足的情况下，更容易获得局部模式，使其成为一个通用的、高效的可视化骨干网络。

设置。为了证明MAFormer在下游任务上的优点，我们对COCO对象检测任务[23]上的模型进行了评估。我们首先使用典型的框架Mask R-CNN[12]，在其中我们配置1x计划与12期训练计划。在细节上，图像较短的一侧被调整为800，而较长的一侧不超过1333。我们使用相同的AdamW[25]优化器，初始学习率为1e-4，在第8和11 epoch衰减0.1(1倍时间表)，权值衰减0.05。我们设置MAFormer-S骨干随机下降路径正则化为0.2,MAFormer-B和MAFormer-L骨干随机下降路径正则化为0.3，如表1所示。

在这里插入图片描述

为了扩展我们的研究，我们在另一个典型框架Cascade R-CNN[1]中评估MAFormer。对于Cascade R-CNN，我们采用带有36期训练计划的3倍计划和多尺度训练策略[2,34]，将较短的一侧在480到800之间随机调整大小。我们使用相同的AdamW[25]优化器，初始学习率为1e-4，在第27和33个纪元衰减0.1，权值衰减0.05。我们分别为MAFormer-S、MAFormer-B和MAFormer-L主干设置随机下降路径正则化为0.2、0.3和0.4。

我们将MAFormer与各种作品进行比较:典型的CNN骨干ResNet [13]， ResNeXt[45]，和竞争的Transformer骨干PVT [41]， Twins [6]， Swin[24]和CSWin[10]。
在这里插入图片描述

结果。表5报告了掩码R-CNN框架在1x训练计划下的框mAP (APb)和掩码mAP (APs)。它表明，MAFormer变体明显优于所有CNN和Transformer的对应版本。我们的MAFormer-S、MAFormer-B和MAFormer-L在目标检测方面分别实现了47.0%、49.6%和50.7%的box mAP，超过了之前最好的CSWin Transformer +0.3%、+1.7%和+2.0%。此外，我们的模型在实例分割方面表现出了一致的改善，+0.5%，+1.4%，+1.5%的掩模mAP比之前最好的骨干更高。值得注意的是，MAFormer-B在参数少得多的情况下优于CSWin-S和Swin-S。

在这里插入图片描述

表6包含了基于3倍训练计划的Cascade R-CNN框架的框形mAP (APb)和掩码mAP (APm)结果。它表明MAFormer变体在很大程度上优于所有CNN和Transformer的变体。具体而言，MAFormer-S、MAFormer-B和MAFormerL的目标检测box mAP分别达到52.6%、54.4%和54.7%，比之前最好的CSWin Transformer高出+0.1%、+0.7%和+0.8%。此外，我们的变体在实例分割方面也有一致的改进，与之前最好的主干相比，分别提高了+0.3%、+0.4%和+0.9%的掩模mAP。结果表明，在更强的框架下，MAFormer在不同配置下的利润率仍然超过了同类产品。

4.4 在ADE20K上使用语义FPN和UPerNet进行语义分割实验

设置。ADE20K[54]是一个广泛使用的语义分割数据集，涵盖了150个语义类别。它总共有25K张图像，其中20K用于训练，2K用于验证，另外3K用于测试。我们进一步研究了MAFormer在ADE20K数据集上的语义分割能力。这里我们使用语义FPN[19]和UPerNet[43]作为基础

框架。所有实验均在8 V100 gpu上进行。为了比较公平，我们训练Semantic FPN [19] 80k迭代，批大小为16，训练UPerNet [43] 160k迭代，批大小为16，图像分辨率为512×512。

结果。在表7中，我们提供了mIoU和多尺度测试mIoU (MS mIoU)的实验结果。结果表明，在语义FPN框架下，MAFormer-S、MAFormer-B的mIoU分别达到47.9、49.8，分别比Swin - transformer[24]高6.4、2.6。此外，MAFormer-S、MAFormer-B在UPerNet框架下实现49.8、51.1 ，mIoU比Swin - transformer[24]高3.9、3.0。

5 结论

在本文中，我们介绍了一个通用的vision transformer主干网络MAFormer，它在令牌中集成了局部和全局特征。MAFormer可以改善局部窗口之间的信息交互，通过线性操作同时部署局部和全局特征，保证特征分布的一致性。由于在图像分类和密集的下游任务方面的突出表现，MAFormer在视觉任务中显示出了广阔的潜力。未来，MAFormer可作为自监督训练前任务的通用骨干。

MAFormer: 基于多尺度注意融合的变压器网络视觉识别