DetNet: A backbone network for object

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u012193416/article/details/88615949

DetNet: A backbone network for object

和ScratchDet有所区别,scratchdet更关注于训练,用少量的数据其实也能很好的达到目标探测特征提取的效果,本文在更改用于分类的网络模型,使其提取特征更符合目标探测的特点。

Firstly, I spent about one week training detnet59 on the ImageNet dataset.模型本身肯定要预训练的。

Abstract:(i) Recent object detectors like FPN and RetinaNet usually involve extra stages against the task of image classification to handle the objects with various scales. (ii) Object detection not only needs to recognize the category of the object instances but also spatially locate the position. Large downsampling factor brings large valid receptive field, which is good for image classification but compromises the object location ability.专门为object detection设计的backbone,比传统的分类算法多几个stage,在深层网络维持高分辨率。

1.Introduction

2. Related work

2.1 Backbone network

2.2 Object detection bussiness part

3   DetNet: A backbone network for object detection

3.1 Motivation

The number of network stages is different,更多的stage是无法再Imagenet上预训练的

Weak visibilty of large objects

Invisibilty of small objects

3.2 DetNet Design

对检测算法的特征提取网络做优化,大部分是预训练网络,在Imagenet上

  1. 分类和检测(尺度信息)有区别,关注点不同
  2. 检测任务不仅要做目标的分类,还要做目标的定位

改进点:(增加高层的分辨率,增大特征图

  1. 增加网络高层输出特征的分辨率,换句话说就是高层不对特征图做尺寸缩减
  2. 引入Dilated卷积层增加网络高层的感受野,这是因为第一个改进点引起的感受野减少
  3. 减少网络高层的宽度,减少应增大分辨率带来的计算量

detection/segmentation等往往需要做pixel-level的定位,所以需要有尽可能大的feature map的spatial resolution。但是传统分类网络往往越卷越小,最后一个global average pool或者fc把所有spatial信息融合在一起,所以对空间信息的保存是非常不友好的。(已经有太多的观点支撑GAP这种对空间信息的损害是显而易见的)

A中FPN在分类网络的基础上增加了不同层的融合操作,最终的预测层包括了stride=64层,也就是输出特征维度是输入图像的1/64,特征图太小,大目标回归的尺寸和坐标都不准。FPN通过特征融合的方式将高层特征和浅层特征进行融合可以提高浅层简写小尺寸目标的效果,但是由于高层这种大stride,小尺寸目标的语义信息丢失比较多,因此即便融合也不一定有利(u-shape结构中,我们假设浅层信息和深层信息拼接既可以保留深层的语义信息以及浅层的空间信息,但是这个假设并不一定成立)

B分类网络在最终尺寸是1/32,分类模型中常见224*224,输出是7*7大小。

C中DetNet的backbone并没有对输入图像做过多的降采样,最终的stride保持为16,相当于增加了最终输出特征图的尺寸(或者叫分辨率,spatial resolution).DetNet沿用了FPN的特征融合方式。

网络高层特征不做像分类网络那样多的降采样会带来两个问题:

  1. 增加计算量(特征图比之前的大)
  2. 高层的感受野减少(后面特征图的尺寸变大了,信息不够密集,语义信息不够丰富了)。感受野越小,特征信息丢失越小。

(感受野是卷积神经网络的每一层输出的特征图上的像素点在原图像上映射的区域大小)

 

  1. 降低网络高层的宽度,resnet中越往高层的stage,特征通道数目越大,在DetNet中高层几个stage的特征通道都是256.
  2. 引入dilated convolution来增加感受野

 

实验结果

高层特征的分辨率大小对于大尺寸目标回归影像较大,高层特征分辨越高,目标的位置信息保留的越多。大尺寸目标的检测效果很容易受到高层特征的分辨率大小的影响。

(IOU越高的指标对比,越能说明目标的回归效果,IOU越低的指标对比,越能说明目标的分类效果)

 

Dilated convolution在DetNet中有效,将预训练的ResNet网络中部分卷积层用dilated conv代替,效果也有提升,比DetNet还是差点,主要和增加网络高层特征分辨率有关。

 

FPN,RetinaNet在分类模型后面多加几个stage作为自己的backbone,这么做是为了能够处理多种scale物体的检测问题(深层网络有利于获取大物体的信息且语义信息更加丰富,而用于分类的模型可能还不够深,这个太常见了STDN也是这个思路,原来是为了用pre-activation的,所以后面自己多加了几层,如果是train from scratch,可能就是在densenet的stage中进行添加了)

 

大物体在较深层进行检测,位置便捷信息由于多次downsample,已经比较模糊了

 

猜你喜欢

转载自blog.csdn.net/u012193416/article/details/88615949