Scale-Transferrable Object Detection-----论文理解

参考博客:https://blog.csdn.net/qq_20481015/article/details/81535214

1. 提出该网络的动机

尺度问题是目标检测的核心。目前大多数网络都是通过多尺度检测来解决图像中存在多尺度物体的情况,基本上都是融合不同卷积层的特征图,这些方法都需要添加额外的层数来解决小目标检测问题,这样无疑增加了计算量以及模型的复杂性。因此,本文提出一种尺度变换模块,该模块可以嵌入在任何一个基础网络中,并且计算成本还低。

2. STDN模型

为解决物体检测中的多尺度问题,特别是提高对于小物体的检测效果,一些经典的算法不断出现。Figure1.(a)只通过最后一层来进行预测,如Faster R-CNN;(b)通过横向和纵向连接,将高层语义信息和低层细节信息连接,以得到更丰富的语义信息,即FPN;(c)将下采样中的每一层都进行预测,如SSD;(d)加入STM( Scale-Transfer Module)模块,既得到高级语义多尺度特征图,还不影响检测速度,即本文的STDN网络。

STM模块:

STM包括池化层和尺寸变换层。池化层得到小尺寸的特征图,尺寸变换层得到大尺寸的特征图。尺寸变换层最初是用来做图像超分辨率的,文中我们用这一层来扩展特征图的分辨率。

STM的优点:

一,通过与densenet结合,我们的输出特征图既有浅层的目标细节特征,又有高层的语义特征。如此会提高目标检测的精度。

二,STM由池化和尺寸变换两部分组成,没有额外的参数和计算量

使用STM模块我们构建了STDN网络。

首先使用densenet作为我们的基础网络,并在 ILSVRC CLSLOC上进行预训练。对densenet改进的地方是:

       原始的:3x3 max pooling(stride=2) + 7x7 conv(stride=2)

       改进的:3x3 conv(stride=2) + 2x2 mean pooling(stride=1)

如此简单的代换便能影响检测精度。一种解释可能是原始DenseNet-169中的输入层由于连续两次下采样而丢失了大量信息。

接下来是STM模块。在densenet中最后一个block中,所有的输出都具有相同的尺寸,除了通道数量。比如输入是300×300,那么经过DenseNet-169的输出是9×9,最简单的方法是直接预测低层中高分辨率的特征图,如SSD,但这样做低层特征图并没有对象的语义信息,导致检测精度较低。因此,使用STM模块可以得到丰富语义信息的不同分辨率的特征图

STM模块的操作以及公式。

SR代表高层特征图,LR代表低层特征图。原始图片维度为[H, W, Cxr2],将通道数分为C组,每组为r2,对每组中[H, W, r2]进行元素的周期性重排,得到[rH, rW]。(论文中,该STM部分的输入为9x9x1440,r = 2,则输出为18x18x360。[1, 1, 4]为4个元素,对这四个元素进行重新排列,得到[2, 2]的矩阵。)

该模块没有多余的参数和计算量。

下图是STDN框架的详细构造。

猜你喜欢

转载自blog.csdn.net/ruoruojiaojiao/article/details/89104241