DetNet: A Backbone network for Object Detection论文笔记

DetNet是又旷视和清华共同研发的网络结构。

论文中提到DetNet贡献主要为以下三个方面:

1、第一个分析传统的ImageNet预训练模型的内在缺陷的对象探测器微调。

2、提出了一种新的网络结构——DetNet==>专门为目标检测任务设计的通过保持空间分辨率和扩大接受域。

3、在基于第复杂度DetNet59网络结构的MSCOCO目标检测和实例分割跟踪方面取得了成果。

由于ImageNet分类的任务不同于目标检测,目标检测不仅需要识别目标的类别,还需要对边界框进行空间定位。所以设计了专门为目标检测而生的DetNet。

FPN的功能是融合了底层到高层的feature maps,从而充分利用了提取到的各个阶段的特征。

论文中讨论了FPN的一些缺陷:

1、网络阶段数量不同。

2、大型物体的弱可见性。大跨步对目标定位有害,对象边界过于模糊,无法得到精确的回归,下采样的次数越多会导致步长越大。

3、小型物体的不可见性。大跨步会导致一些小型物体的遗漏。

由上图的结构可知,论文设计的DetNet结构比普通的分类网络要多一层。并且在后面并没有继续增加特征图的子采样大小,保持着“16X”。它的优点如下所示:

1、阶段数直接设计用于目标检测。

2、与传统分类网络相比,特征图的空间分辨率更高,接受域更大。

在设计DetNet过程中,同样也有一挑战:

1、保持深度神经网络的空间分辨率需要耗费大量的时间和内存。

2、降低下采样因子等于降低有效的接受域。

DetNet的单元结构如上图所示,可以看到与传统的ResNet块相比,增加了一个叫做dilate 2的结构,它的作用是:

1、因为ResNet第四阶段后空间大小是固定的,为了引入一个新的阶段(P6),让图像变大。

2、有效地扩大接受域。

3、扩大的卷积仍然很耗时,DetNet的阶段5和6与阶段4相同通道(256个通道),传统的网络结构会在后期实现双通道。

将DetNet与FPN结合,参考了ResNet50+FPN的做法,直接保留了前四个阶段,修改第五阶段,并新增第六阶段,如下图所示:

实验结果如下表所示:

从上表中可以看到,DetNet在各方面都是碾压ResNet-50的。其中参数含义如下:

Top1 err:意味着有多少的以ImageNet分类的标准Top-1错误(错误越低,分类的准确率越高)。

FLOPs:意味着计算的复杂性。

AP:平均精度,代表多少对象被正确预测。

mAP:在COCO数据集上的平均精度。

AP50:50个验证集的平均精度。

其他以此类推。

AP:平均精度,代表多少对象被正确预测。

AR:平均召回,代表可以找到多少对象。

 由上面两个表可以看到DetNet的优势为:

1、相比ResNet-50,DetNet在寻找丢失的小目标方面更加强大。

2、DetNet在大对象定位方面也更加优秀。

除了上面的实验以外,作者还将第六阶段的1x1的卷积层去掉之后,再次观察结果。

可以得出结论,那个卷积并没有对实验结果造成太大的影响。

作者还把DetNet与Mask-RCNN联合在一起等,结果如下表所示。

猜你喜欢

转载自blog.csdn.net/zxyjune/article/details/85292350