M2Det:A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network 论文理解

参考博客:https://blog.csdn.net/sinat_37532065/article/details/87385302

1. 提出该网络的原因

金字塔网络的提出是为了解决在目标检测任务中一个图片中存在多尺度目标的问题。已经广泛应用在两步(如rcnn系列等)和一步(如yolo,ssd等)的目标检测网络中。

目前一些多尺度特征提取网络的缺点:由于它们仅根据最初为物体分类任务设计的骨架的固有多尺度金字塔结构而仅简单地构造特征金字塔,因此它们具有一些局限性。也就是说多尺度是根据骨干网络得到的不同尺寸特征图来进行提取特征的,本文则自己创造一些多尺度的特征图进行连接。本文将该方法称之为MLFPN( Multi-Level Feature Pyramid Network)。

首先,融合来自骨干网络的多尺度特征作为我们的基特征;

其次,将上一步得到的基特征经过一个U型模块和特征融合模块。

最后,我们将两个U型卷积反卷积中的每一个层进行融合,进而检测。如此一来每一个特征图就得到很多的其它层的特征信息。

2. 网络模型

本文提出的MLFPN由三部分组成,FFM特征融合模块;TUM细化U型模块;SFAM尺度特征聚合模块;

接下来对网络中的三个模块进行详细的介绍。

2.1 FFM模块

FFMv1模块将骨干网络vgg中的两层进行融合,得到多尺度的语义信息。如图a。

FFMv2s模块主要通过多次和TUMs模块交替联合提取到多级多尺度特征。如图b。注意:FFMv2s融合的是上一个TUM模块中最大尺寸的那个特征图。

Xbase 表示基特征, xl i 表示第l个TUM模块中第i个尺寸的特征,L 表示TUMs的数量, Tl 表示第l个TUM的处理过程,F表示 FFMv1 过程。 

(在进行融合之前都需要压缩通道维数,再进行拼接。)

2.2 TUM模块

该模块使用了比FPN和Retinanet更薄的U型网络。每个TUM模块是U型的一个分布,进行卷积和反卷积,得到多个不同尺寸的特征图。该模型中用到了五次下采样和五次上采样,最终得到10个不同尺寸的图,将这10个图中尺寸大小一样的进行点对点相加。求和之后总的得到了6个尺寸不一的特征图,对其进行1x1卷积,以增强学习能力,保持特征的平滑性。

那么,每个 TUM模块便拥有当前级别的多尺度特征。堆叠后的TUMs模块则具有多个级别的多尺寸特征。

 2.3 SFAM模块

SFAM的第一阶段是沿着信道维度将等效比例的特征连接在一起,这样得到的每个尺寸的特征都包含了多个级别(TUM块)的信息。(意思是将U型模块中相同大小的特征图通过通道数连接起来)

但简单的连接操作不够自适应。

因此,第二阶段借鉴SENet的思想,引入通道注意机制,使输出的特征可以更好注意到特征比较强的通道。

3. 网络配置

8个TUM模块,每个模块包括5个卷积层和5个反卷积层。故输出的特征图是具有6个尺寸的。

每个TUM特征只给分配256个通道。

检测阶段,对6个尺寸的特征图后都加入2个卷积层用来分别实现位置回归和分类。

在金字塔特征图中,每个像素设置6个anchors。

最后使用soft-nms过滤掉一些无用的框。

4. 实验

猜你喜欢

转载自blog.csdn.net/ruoruojiaojiao/article/details/89227358