DetNet: A Backbone network for Object Detection论文笔记

DetNet是又旷视和清华共同研发的网络结构。

论文中提到DetNet贡献主要为以下三个方面：

1、第一个分析传统的ImageNet预训练模型的内在缺陷的对象探测器微调。

2、提出了一种新的网络结构——DetNet==>专门为目标检测任务设计的通过保持空间分辨率和扩大接受域。

3、在基于第复杂度DetNet59网络结构的MSCOCO目标检测和实例分割跟踪方面取得了成果。

由于ImageNet分类的任务不同于目标检测，目标检测不仅需要识别目标的类别，还需要对边界框进行空间定位。所以设计了专门为目标检测而生的DetNet。

FPN的功能是融合了底层到高层的feature maps，从而充分利用了提取到的各个阶段的特征。

论文中讨论了FPN的一些缺陷：

1、网络阶段数量不同。

2、大型物体的弱可见性。大跨步对目标定位有害，对象边界过于模糊，无法得到精确的回归，下采样的次数越多会导致步长越大。

3、小型物体的不可见性。大跨步会导致一些小型物体的遗漏。

由上图的结构可知，论文设计的DetNet结构比普通的分类网络要多一层。并且在后面并没有继续增加特征图的子采样大小，保持着“16X”。它的优点如下所示：

1、阶段数直接设计用于目标检测。

2、与传统分类网络相比，特征图的空间分辨率更高，接受域更大。

在设计DetNet过程中，同样也有一挑战：

1、保持深度神经网络的空间分辨率需要耗费大量的时间和内存。

2、降低下采样因子等于降低有效的接受域。

DetNet的单元结构如上图所示，可以看到与传统的ResNet块相比，增加了一个叫做dilate 2的结构，它的作用是：

1、因为ResNet第四阶段后空间大小是固定的，为了引入一个新的阶段（P6），让图像变大。

2、有效地扩大接受域。

3、扩大的卷积仍然很耗时，DetNet的阶段5和6与阶段4相同通道（256个通道），传统的网络结构会在后期实现双通道。

将DetNet与FPN结合，参考了ResNet50+FPN的做法，直接保留了前四个阶段，修改第五阶段，并新增第六阶段，如下图所示：

实验结果如下表所示：

从上表中可以看到，DetNet在各方面都是碾压ResNet-50的。其中参数含义如下：

Top1 err：意味着有多少的以ImageNet分类的标准Top-1错误(错误越低，分类的准确率越高)。

FLOPs：意味着计算的复杂性。

AP：平均精度，代表多少对象被正确预测。

mAP：在COCO数据集上的平均精度。

AP50：50个验证集的平均精度。

其他以此类推。

AP：平均精度，代表多少对象被正确预测。

AR：平均召回，代表可以找到多少对象。

由上面两个表可以看到DetNet的优势为：

1、相比ResNet-50，DetNet在寻找丢失的小目标方面更加强大。

2、DetNet在大对象定位方面也更加优秀。

除了上面的实验以外，作者还将第六阶段的1x1的卷积层去掉之后，再次观察结果。

可以得出结论，那个卷积并没有对实验结果造成太大的影响。

作者还把DetNet与Mask-RCNN联合在一起等，结果如下表所示。