M2Det:A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network 论文理解

参考博客：https://blog.csdn.net/sinat_37532065/article/details/87385302

1. 提出该网络的原因

金字塔网络的提出是为了解决在目标检测任务中一个图片中存在多尺度目标的问题。已经广泛应用在两步（如rcnn系列等）和一步（如yolo，ssd等）的目标检测网络中。

目前一些多尺度特征提取网络的缺点：由于它们仅根据最初为物体分类任务设计的骨架的固有多尺度金字塔结构而仅简单地构造特征金字塔，因此它们具有一些局限性。也就是说多尺度是根据骨干网络得到的不同尺寸特征图来进行提取特征的，本文则自己创造一些多尺度的特征图进行连接。本文将该方法称之为MLFPN（ Multi-Level Feature Pyramid Network）。

首先，融合来自骨干网络的多尺度特征作为我们的基特征；

其次，将上一步得到的基特征经过一个U型模块和特征融合模块。

最后，我们将两个U型卷积反卷积中的每一个层进行融合，进而检测。如此一来每一个特征图就得到很多的其它层的特征信息。

2. 网络模型

本文提出的MLFPN由三部分组成，FFM特征融合模块；TUM细化U型模块；SFAM尺度特征聚合模块；

接下来对网络中的三个模块进行详细的介绍。

2.1 FFM模块

FFMv1模块将骨干网络vgg中的两层进行融合，得到多尺度的语义信息。如图a。

FFMv2s模块主要通过多次和TUMs模块交替联合提取到多级多尺度特征。如图b。注意：FFMv2s融合的是上一个TUM模块中最大尺寸的那个特征图。

Xbase 表示基特征， xl i 表示第l个TUM模块中第i个尺寸的特征，L 表示TUMs的数量, Tl 表示第l个TUM的处理过程，F表示 FFMv1 过程。

（在进行融合之前都需要压缩通道维数，再进行拼接。）

2.2 TUM模块

该模块使用了比FPN和Retinanet更薄的U型网络。每个TUM模块是U型的一个分布，进行卷积和反卷积，得到多个不同尺寸的特征图。该模型中用到了五次下采样和五次上采样，最终得到10个不同尺寸的图，将这10个图中尺寸大小一样的进行点对点相加。求和之后总的得到了6个尺寸不一的特征图，对其进行1x1卷积，以增强学习能力，保持特征的平滑性。

那么，每个 TUM模块便拥有当前级别的多尺度特征。堆叠后的TUMs模块则具有多个级别的多尺寸特征。