Paper:Scale-Transferrable Object Detection
这是2018年的CVPR目标检测paper,主要是多尺度问题。
目标检测的多尺度问题,一直非常重要。最常用的是PFN,但是PFN会增加内存和计算量,这篇文章提出来一个STDN网络,适合于实时目标检测。
Introduction
常见的几种方式:
(a)使用单一尺度的feature map做检测,没有利用多层信息,现在主流还是多尺度融合。
(b)FPN的思想,将多尺度的feature map进行融合,并且针对不同尺度的分别做predict,充分利用了网络信息,对小目标的效果提升明显,但是会增加计算量和内存占用。
(c)SSD的思想,每一层都各自检测一遍,然后将检测结果融合
(d)STDN的结构,相当于将FPN和SSD做了融合。
Model
STDN的结构如图。使用的base network是DenseNet-169,上面的图展示的是DenseNet-169的最后一个密集块的几个层,密集块中的几个层的输出维度一样大小。
STM模块由Pooling层和尺度转换(scale-transfer)层组成使用scale-transfer层,来获得高分辨率的特征图来检测小目标,使用池化层来获得接受域大的特征图来检测大目标。这些层可以直接嵌入到基本网络中,而不需要太多的计算开销。STM模块保证了探测器的实时性。
底下六个正方形,最后两个就是在增大map尺寸,同时压缩channel。
网络信息日志:
Scale-transfer layer
展示的就是增大map,压缩channel的示意。
也就是把信息搁到整张图上去,原本1x1的区域变成了rxr,相当于feature的一个rearrangement
Experiment
VOC 2007 test:
COCO:
VOC上的速度与精度
实验结果上来看,兼顾速度与精度。速度优势比较大。