主要思想

传统的网络框架主要是为图像分类而设计的。至于什么网络框架更适合于物体检测，这还是一个探索中的领域。最近的大多基于卷积神经网络的目标检测算法，不管是one-stage的算法，像YOLO,SSD 和RetinaNet还是two-stage的Faster RCNN, R-FCN, FPN算法，都是在图像分类预训练模型的基础上进行调优的，但这对于物体检测来说并不是最优的。因为在图像分类和目标检测中，有很多特征是不同的。1）最新的目标检测算法像FPN和RetinaNet，通常需要多加一个stage去解决图像分类中多尺度目标的问题。2）目标检测不仅需要识别目标所属的类别，还需要定位出具体位置。大的降采样银子带来了大的感受野，这对物体分类很有好处，但是会折中空间分辨率，导致无法精确定位出大物体，识别小物体。

这里，针对上述问题，我们提出了DetNet。DetNet的关键就是为目标检测设计一个全新的backbone。

详细讲，DetNet 针对不同大小的物体而像 FPN 一样使用了更多的 stage。即便如此，它优于 ImageNet 预训练模型的地方在于成功保留了特征的空间分辨率，但同时也会增加神经网络的计算和内存成本。为保证 DetNet 的效率，本文引入了低复杂度的 dilated bottleneck。由此，DetNet 做到了较高分辨率和较大感受野的兼得。

网络架构

由于分类模型的设计原则并不适用于检测任务，从而在一些标准网络比如 VGG 16 和 ResNet 中特征图的空间分辨率逐渐降低。因此一些技术如 FPN（如图 1 A 所示）和 dilation 被应用在这些网络之中以保证空间分辨率。但是依然存在如下三个问题：
1.backbone 网络和检测网络的 stage 数量不同。
2.大物体可视性较差：过大的下采样导致大物体看不清边界地区。
3.小物体不可见：过大的下采样也可能会丢失小物体的信息

扫描二维码关注公众号，回复： 7204100 查看本文章

待续。。。

未完成——目标检测 | DetNet算法笔记

文章目录

主要思想

网络架构

实验对比

结论

猜你喜欢