AC-FPN：比FPN提升3个点 | Attention-guided Context Feature Pyramid Network for Object Detection

感觉就是借鉴了语义分割中DANet中的思想，出发点与结构都很像。注意力机制堆出来的效果，有兴趣的小伙伴可以去试试。
论文地址：https://arxiv.org/pdf/2005.11475.pdf
Github：https://github.com/Caojunxu/AC-FPN

在这里插入图片描述

Abstract：

对于目标检测，如何解决高分辨率输入上的特征图分辨率与感受野大小之间的矛盾要求仍然是一个悬而未决的问题。在本文中，为了解决此问题，我们构建了一种新颖的体系结构，称为注意力导向的上下文特征金字塔网络（AC-FPN），该体系结构通过集成注意力导向的多路径特征来利用来自各个大型感受野范围的判别信息。该模型包含两个模块。第一个是上下文提取模块（CEM），它从多个感受野中探索大量上下文信息。由于冗余的上下文关系可能会误导定位和识别，因此我们还设计了第二个模块，称为注意力引导模块（AM），该模块可以通过使用注意力机制来自适应捕获对象的显著性依赖性。 AM由两个子模块组成，即上下文注意模块（CxAM）和内容注意模块（CnAM），它们分别专注于捕获区分性语义和定位精确位置。最重要的是，我们的AC-FPN可以轻松插入现有的基于FPN的模型中。在目标检测和实例分割方面的大量实验表明，带有我们提出的CEM和AM的现有模型大大超过了没有它们的同类模型，并且我们的模型成功获得了最新的结果。

Introduction：

当前基于FPN的方法存在两个主要问题：

1）高分辨率输入上的特征图分辨率与感受野之间的矛盾要求（差点以为在读语义分割的文章，这是分割领域的难点问题）

2）多尺寸感受野之间缺乏有效的沟通

在这里插入图片描述
为了有效解决这两个问题，我们提出了一个称为上下文提取模块（CEM）的模块。在不显着增加计算开销的情况下，CEM可以通过使用具有不同膨胀率的多径膨胀卷积层来捕获来自不同大型感受野的丰富上下文信息（图1（c））。此外，为了详细地合并多感受野信息，我们在CEM中引入了具有不同感受野的层之间的密集连接。

尽管CEM的功能包含丰富的上下文信息并在很大程度上有助于检测不同尺度的目标，但我们发现它有些杂乱，因此可能会使定位和识别任务感到困惑。因此，如图1（d）所示，为了减少对冗余上下文的误导并进一步增强特征的判别能力，我们设计了另一个名为“注意力引导模块”（AM）的模块，该模块引入了一种自我注意机制来捕获有效的上下文相关性。具体来说，它由两部分组成：1）上下文注意模块（CxAM），旨在捕获特征图的任意两个位置之间的语义关系；以及2）内容注意模块（CnAM），致力于发现空间依赖性。

总结来说：CEM负责提取不同感受野范围的上下文信息。然后，针对不同感受野上下文信息，使用AM模块来捕获有用的上下文信息，相当于给不同感受野上下文信息进行权重融合。

PROPOSED METHOD：

在这里插入图片描述
AC-FPN包含CEM模块与AM模块，其中AM由CxAM和CnAM两部分组成。

A. Context Extraction Module （CEM）
在这里插入图片描述
由两个分支组成：

扫描二维码关注公众号，回复： 11384745 查看本文章

1.对输入特征进行空洞率参数为3，6，12，18，24的密集连接方式卷积提取不同感受野范围的上下文。此外，为增强建模几何变换的能力，我们在每条路径中引入了可变形卷积层。它确保我们的CEM可以从给定数据中学习变换不变特征。

2.对输入特征首先进行Global Average Pooling得到全局描述特征，然后进行上采样来保持初始输入的粗粒度信息。

最后对两个分支的特征进行拼接，并用1x1卷积进行融合得到CEM输出特征。下表为CEM的具体网络参数：
在这里插入图片描述

B. Attention-guided Module

由Context Attention Modules与 Content Attention Module两部分组成：

其中，CxAM专注于给定特征图（即CEM中的特征）的子区域之间的语义。旨在捕获特征图的任意两个位置之间的语义关系。但是，由于可变形卷积的影响，每个目标的位置已被严重破坏。为了缓解这个问题，我们引入了CnAM，但是由于来自较浅层（即F5）的关注而牺牲了一些语义，它更加注意确保空间信息。旨在获取精确的定位位置。最后，将CxAM和CnAM改进的功能与输入功能合并，以获得更全面的表示。

1) Context Attention Modules:
在这里插入图片描述
CxAM结构与Non-Local模块基本一致，唯一的区别就是对相似性特征图R进行了Average Pooling，把C维度降为了1。这个模块的作用就是捕获特征子区域之间的语义关系。

2) Content Attention Module:

在这里插入图片描述
CnAM结构与CxAM唯一的区别就是，CxAM的输入是同一个特征，CnAM则使用了F5特征（特征金字塔中的最高层）与F作为输入。使用F5特征的好处是可以校准CEM提取过程中的位置偏移问题，可以获取精确的定位位置。

Experiments：

1.Comparisons with State-of-the-arts：3个点左右提升
在这里插入图片描述
2.Context Extraction Module：

3.Attention-guided Module：