论文

标题：Efficient Multi-order Gated Aggregation Network

摘要

自从Vision Transformers（ViT）取得成功以来，对Transformers架构的探索也引发了现代ConvNets的复兴。在这项工作中，通过交互复杂性的角度来探索DNN的表示能力。经验表明，交互复杂性是视觉识别的一个容易被忽视但又必不可少的指标。因此，本文作者提出了一个新的高效ConvNet系列，名为MogaNet，以在基于ConvNet的纯模型中进行信息上下文挖掘，并在复杂度和性能方面进行了更好的权衡。

在MogaNet中，通过在空间和通道交互空间中利用两个专门设计的聚合模块，促进了跨多个复杂性的交互并将其情境化。

对ImageNet分类、COCO目标检测和ADE20K语义分割任务进行了广泛的研究。实验结果表明，MogaNet在主流场景和所有模型规模中建立了比其他流行方法更先进的新SOTA。通常，轻量级的MogaNet-T通过在ImageNet-1K上进行精确的训练设置，以1.44G的FLOPs实现80.0%的top-1精度，超过ParC-Net-S 1.4%的精度，但节省了59%（2.04G）的FLOPs。

1、简介

自深度神经网络（DNN）兴起以来，卷积神经网络（ConvNets）一直是计算机视觉的首选方法。受灵长类视觉系统的启发，卷积层可以对具有区域密集连接和平移等方差约束的观测图像的邻域相关性进行编码。通过交错分层，ConvNets获得了被动增加的感受野，并善于识别潜在的语义模式。尽管性能很高，但ConvNets提取的表示已被证明对区域纹理有很强的偏差，导致视觉目标的全局上下文信息的显著丢失。为了解决这一限制，以前的工作提出了改进的宏架构和上下文聚合模块。

相比之下，通过放松局部感应偏差，新出现的Vision Transformers（ViT）及其变种在广泛的视觉基准上迅速超越了ConvNets。几乎一致的共识是，ViT的能力主要来源于自注意力机制，无论拓扑距离如何，它都有助于长距离互动。然而，从实际角度来看，自注意力机制中的二次复杂性限制了ViT的计算效率及其在细粒度下游任务中的应用潜力。

此外，卷积感应偏置的缺失破坏了图像的固有2D结构，从而不可避免地导致图像特定邻域关系的损害。因此，随后的几项努力都有助于重新引入金字塔状分层布局和ViT的平移不变性。

与之前的研究不同，最近的研究从经验上揭示了ViT的表达优势在很大程度上取决于它们的宏级架构，而不是通常推测的token mixer。更重要的是，通过先进的训练设置和结构现代化，ConvNets可以在不增加计算预算的情况下轻松提供与经过良好调整的ViT相当甚至更优异的性能。然而，现有方法仍然存在一个表示瓶颈：自注意力机制或大内核的实现阻碍了区分性上下文信息和全局交互的建模，导致DNN和人类视觉系统之间的认知差距。与特征整合理论一样，人脑不仅提取局部特征，而且同时聚合这些特征以进行全局感知，这比DNN更紧凑和高效。

为了应对这一挑战，作者从特征交互复杂性的角度研究了DNN的表示能力。在图3b中，大多数现代DNN倾向于编码极低或高复杂性的相互作用，而不是信息最丰富的中间相互作用。为此，作者涉及了一个具有相应基本操作的宏ConvNet框架，并进一步开发了一个名为多阶门控聚合网络（MogaNet）的新型ConvNets家族，用于加速具有多重交互复杂性的上下文信息。

在MogaNet中，根据人类视觉引入了一个多阶特征聚合模块。作者的设计将局部感知和上下文聚合封装到一个统一的空间聚合块中，在该块中，复合多阶关联通过并行的选通机制被有效地聚合和上下文。从通道方面来看，由于现有方法易于实现高通道信息冗余，因此定制了一个简单而有效的通道聚合块，该块对输入特征执行自适应通道重分配，并以较低的计算成本显著优于主流对应方（例如SE模块）。

大量实验表明，在ImageNet-1K和多种下游基准上，MogaNet在不同模型尺度下的性能和效率令人印象深刻。经验证明，交互复杂性可以作为高质量视觉识别的重要指标，如感受野。因此，通过1.44G FLOP和5.2M参数，MogaNet-T在ImageNet-1K上使用默认和优化的训练策略，实现了79.6%和80.0%的top-1准确率，在相同设置下，以2.04G的FLOP超过了先前最先进的ParC-Net-S 1.0%。此外，MogaNet-S以4.97G FLOP和25.3M参数达到83.4%的top-1精度，与流行的小型模型相比，产生了可观的计算开销，如图1所示。

2、准备工作

由于ViTs在许多视觉任务中大大超过了规范的 ConvNet，一些工作试图解释是什么使ViTs工作。这里从整体框架和基本操作两个方面提出了一个全面的宏观架构.

2.1、总体结构

最近的研究表明，其固有的框架使ViTs优于ConvNet。因此，首先介绍了一个针对ConvNet的分层设计，它考虑了vit的优点，如图2所示。它主要包括3个基本组成部分：

embedding stem
spatial mixing block
channel mixing block

embedding stem是经典ConvNets和ViTs的关键组成部分，它对输入图像进行降采样，以减少图像固有的冗余和计算过载。给定H×W分辨率中的X作为输入图像或前一阶段的输出，在每个阶段开始时将stem视为“尺寸控制器”：

其中，Z被降采样到H/2×W/2分辨率。然后，特征在每个阶段流到一堆残差块。网络模块可以被解耦为两个独立的组件：SMixer和CMixer，用于空间上和通道上的信息传播，

其中，Norm是一个归一化层，例如，批处理归一化（BN）。请注意，SMixer可以是各种空间操作（例如，自注意力，卷积），而CMixer通常是通过 inverted bottleneck 中的通道级MLP和r的扩展比来实现的。

2.2、重新审视基本操作

如何有效地学习上下文和鲁棒特征是视觉表征学习的主要主题。将与表达能力相关的两种重要操作分类：区域性感知和上下文聚合。

这里，假设输入特征X并且输出Z具有相同的形状 $R^{C\times H\times W }$ 。

1、区域性感知

原始图像具有局部结构, 并且在空间空间中具有高度几余。这一性质要求使用局部和结构归纳偏差来有效提取上下文表示。作者总结了这些操作和网络模块, 它们静态地提取作为区域性感知的上下文特征, 并将其定义为 Z=S(X,W), 其中 S(⋅,⋅) 可以是任意的二进制运算符（例如, 点积、卷积、逐元素积),W 表示可学习的权重。

区域性感知的实例是局部连接的, 并在不同位置上共享权重, 例如各种卷积、空间MLP, 甚至是非参数操作, 如池化和空间移位。卷积运算是最常用和最彻底的研究, 它平衡了效率与精度之间的权衡。卷积可以写成 Z=S(X,K), 其中 S(⋅,⋅) 是卷积, kernel $K \in R^{M \times C \times k \times k}$ 由M个滤波器组成。

2、上下文聚合

除了局部特征之外，高级语义上下文建模对于视觉识别也是至关重要的。经典ConvNets通常使用这些模块的深层堆栈来捕获受其感受野限制的远距离交互。然而，这些设计可能在计算上效率是低下的，并可能会产生冗余特征。为了解决这一难题，本文提出了上下文聚合模块，以自适应地探索和强调潜在的上下文信息，并减少输入特征中的冗余。形式上将上下文聚合概括为一系列网络组件，这些组件自适应地捕获两个嵌入特征之间的交互：

本文简要介绍了两种常用的上下文聚合：自注意力机制和门控注意力机制，如表1所示。

值得注意的是，X上每个位置的重要性是通过Fϕ(⋅)中所有其他位置与点积的全局交互来计算的。此操作采用二次复杂度，并导致较大的计算开销。为了克服这一限制，提出了许多线性复杂度中的注意力变体来替代点积自注意力，例如，表1第2行中的线性注意力，但它们通常会引入归纳偏差，并可能退化为微不足道的注意力。

与自注意力不同，选通单元在线性复杂度中使用元素乘积S(⋅,⋅)，例如，表1最后两行中的Gated linear unit（GLU）和 Squeeze-and-Excitation（SE）模块。然而，它们仅使用全局平均池化（GAP）聚合每个位置或整个上下文的信息，这缺乏空间相互作用。

3、多阶交互视角中的表示瓶颈

对DNN表示能力的分析为解释和识别现有DNN提供了新的视角。与之前主要关注DNN的鲁棒性和泛化能力的研究相比，作者将范围扩展到特征交互复杂性的研究。

直观地, 如图3a所示, 强大的ViT在极端遮挡比 (例如, 仅10 20%可见patch块), 但在中等遮挡的情况下产生有限的信息增益, 这表明主流深度模型和人类视觉之间存在认知差距。它可以用 m 阶相互作用 $I^{(m)}(i,j)$ 和 m 阶相互作用力强度 $J^{(m)}$ 来解释。

考虑到总共有 n 个patch的图像, $I^{(m)}(i,j)$ 在由 m 个patch组成的所有上下文中测量 patch对 i,j 之间的平均交互复杂性, 其中 0≤m≤n−2 和顺序 m 反映了上下文的复杂性。

通过相互作用强度的平均值归一化, 相对相互作用强度 $J^{(m)}$ 与 m∈(0,1) 测量DNN中编码的相互作用的复杂性。

4、本文方法

4.1、概览MogaNet

图A1提供了4阶段MogaNet架构的说明。对于阶段i, 输入图像或特征首先被馈送到嵌入Stem 中以调节特征分辨率并嵌入到 Ci 维度中。假设输入图像为 H×W 分辨率, 4 个阶段的特征分别为 H/4×W/4、H/8×W/8、H/16×W/16 和 H/32×W/32 分辨率。

然后, 嵌入的特征流到 Ni Moga块中, Moga块由空间和通道聚合块组成, 用于进一步的上下文提取和聚合。GAP和线性层将在分类任务的最终输出之后添加。对于密集预测任务, 4个阶段的输出可以通过颈部模块使用。

4.2、多阶门控聚合

特征整合理论表明，人类视觉通过提取基本的上下文特征并将个体特征与注意力相关联来感知目标。然而，正如在第3节中经验性讨论的那样，仅存在区域性感知或语境聚合不足以同时学习不同的语境特征和多秩序互动。

图3b显示了传统DNN倾向于关注低阶或高阶相互作用。他们错过了最丰富的中阶交互。因此，主要的挑战是如何有效地捕捉上下文中的多阶交互。

为此, 作者提出了一个空间聚合 (SA) 块 SMixer(⋅), 以在统一设计中聚合多阶上下文, 如图4所示, 该块由 2 个级联组件组成:

其中, FD(⋅) 是一个特征分解模块 (FD)， Moga(⋅) 是一个多阶门控聚合模块, 由门控 Fϕ(⋅) 和上下文分支 Gψ(⋅) 组成。

1、多阶上下文特征

作为一个纯卷积结构, 作者提取具有静态和自适应区域感知的多阶特征。除了模阶交互作用外, 还有两个不重要的交互作用, 每个patch本身的 0 阶交互作用和覆盖所有patch的一阶交互 FD(⋅) 来动态地排除不重要的交互作用, 其表述为:

请注意，与ConvNeXt中使用的DW7×7相比，建议的FD(·)和多阶DWConv层只需要少量额外的计算开销和参数，例如，+多阶和+FD(·)比DW7×8增加了0.04M参数和0.01G FLOPS，如表2所示。

2、门控聚合

为了聚合来自上下文分支的输出上下文, 在门控分支中使用了 SiLU, 即 x⋅Sigmoid(x) 。如附录C.1所证实的，作者发现SiLU既具有 Sigmoid的门控效应, 又具有稳定的训练特性。以 FD(⋅) 的输出作为输入, 重写等式(4)对于 Moga(X) :

使用所提议的SA块，MogaNet捕获了更多的中间阶交互，如图3b所示。SA块产生与ConvNeXt相似的高质量多阶表示，这远远超出了现有方法的覆盖范围，而不需要应用成本消耗的聚合。

4.3、按通道聚合重新分配多阶特征

如在第二节中所讨论的, 主流架构仅通过两个线性投影来执行通道混合CMixer (⋅), 例如, 具有通道扩展比 r 的 2 层通道 MLP 或 3×3DWConv 的MLP。

如图5b所示, MLP 需要大量的参数 ( ( 默认为4或 8) 来实现预期的性能, 但计算效率较低。

这个问题可能是由唋的跨通道引起的, 大多数方法通过改善特征多样性来解决这个问题, 例如, 在 MLP 中插入一个 SE 模块。与之前需要另一个 MLP 瓶颈的设计不同, 作者设计了一个轻量级的通道聚合模块 CA(⋅) 来重新加权高维隐藏空间, 并进一步将其扩展到通道聚合 (CA ）块。如图 5a 所示, CA 块的输出被写为：