DetNet是又旷视和清华共同研发的网络结构。
论文中提到DetNet贡献主要为以下三个方面:
1、第一个分析传统的ImageNet预训练模型的内在缺陷的对象探测器微调。
2、提出了一种新的网络结构——DetNet==>专门为目标检测任务设计的通过保持空间分辨率和扩大接受域。
3、在基于第复杂度DetNet59网络结构的MSCOCO目标检测和实例分割跟踪方面取得了成果。
由于ImageNet分类的任务不同于目标检测,目标检测不仅需要识别目标的类别,还需要对边界框进行空间定位。所以设计了专门为目标检测而生的DetNet。
FPN的功能是融合了底层到高层的feature maps,从而充分利用了提取到的各个阶段的特征。
论文中讨论了FPN的一些缺陷:
1、网络阶段数量不同。
2、大型物体的弱可见性。大跨步对目标定位有害,对象边界过于模糊,无法得到精确的回归,下采样的次数越多会导致步长越大。
3、小型物体的不可见性。大跨步会导致一些小型物体的遗漏。
由上图的结构可知,论文设计的DetNet结构比普通的分类网络要多一层。并且在后面并没有继续增加特征图的子采样大小,保持着“16X”。它的优点如下所示:
1、阶段数直接设计用于目标检测。
2、与传统分类网络相比,特征图的空间分辨率更高,接受域更大。
在设计DetNet过程中,同样也有一挑战:
1、保持深度神经网络的空间分辨率需要耗费大量的时间和内存。
2、降低下采样因子等于降低有效的接受域。
DetNet的单元结构如上图所示,可以看到与传统的ResNet块相比,增加了一个叫做dilate 2的结构,它的作用是:
1、因为ResNet第四阶段后空间大小是固定的,为了引入一个新的阶段(P6),让图像变大。
2、有效地扩大接受域。
3、扩大的卷积仍然很耗时,DetNet的阶段5和6与阶段4相同通道(256个通道),传统的网络结构会在后期实现双通道。
将DetNet与FPN结合,参考了ResNet50+FPN的做法,直接保留了前四个阶段,修改第五阶段,并新增第六阶段,如下图所示:
实验结果如下表所示:
从上表中可以看到,DetNet在各方面都是碾压ResNet-50的。其中参数含义如下:
Top1 err:意味着有多少的以ImageNet分类的标准Top-1错误(错误越低,分类的准确率越高)。
FLOPs:意味着计算的复杂性。
AP:平均精度,代表多少对象被正确预测。
mAP:在COCO数据集上的平均精度。
AP50:50个验证集的平均精度。
其他以此类推。
AP:平均精度,代表多少对象被正确预测。
AR:平均召回,代表可以找到多少对象。
由上面两个表可以看到DetNet的优势为:
1、相比ResNet-50,DetNet在寻找丢失的小目标方面更加强大。
2、DetNet在大对象定位方面也更加优秀。
除了上面的实验以外,作者还将第六阶段的1x1的卷积层去掉之后,再次观察结果。
可以得出结论,那个卷积并没有对实验结果造成太大的影响。
作者还把DetNet与Mask-RCNN联合在一起等,结果如下表所示。