[深度学习]Object detection物体检测之FPN(11)

论文全称:《Feature Pyramid Networks for Object Detection》

论文地址:http://openaccess.thecvf.com/content_cvpr_2017/papers/Lin_Feature_Pyramid_Networks_CVPR_2017_paper.pdf

背景

在计算机视觉中,识别不同尺度的物体是一个基本的挑战。

  • 下图中a是使用图像金字塔来构建特征金字塔。这些金字塔是规模不变的,因为一个物体的规模变化被金字塔中水平的改变所抵消。它的特征是在每个图像尺度上独立计算的。特点是非常慢,预测时间大大增加,这使得这种方法在实际应用中不切实际。而在内存方面也不允许这么做。
  • 下图中b,最近的检测系统已经选择使用单一尺度特征来更快的检测。除了能够表示更高级别的语义外,ConvNets还能够更健壮地处理尺度上的差异,从而便于从单个输入尺度上计算的特征进行识别。但是即使有了这种鲁棒性,金字塔仍然需要得到最精确的结果。在ImageNet和COCO检测挑战中,所有最近的顶级算法都使用特征图像金字塔上的多尺度测试。
  • 下图中c,这种网络内特征层次结构产生了不同空间分辨率的特征映射,但引入了由不同深度造成的巨大语义缺口。高分辨率的地图具有低层次的特征,这损害了它们的对象识别表征能力。SSD就是使用这种方式。
  • 下图中的d就是本论文的重点,本文的目标是自然地利用ConvNet的特征层次结构的金字塔形状,同时创建一个在所有级别上都具有强大语义的特征金字塔。为了实现这一目标,作者依赖于一种通过top-down和skip connections,将低分辨率、语义强特征与语义弱特征相结合的体系结构。论文的结果是一个特征金字塔在所有级别上都具有丰富的语义,并且可以从单个输入图像规模快速构建。换句话说,我们展示了如何创建网络内的特征金字塔,可以用来取代特征化的图像金字塔,而不牺牲代表性的力量、速度或内存

在最近的研究中很流行,还有一类型的方法采用top-down和skip connections的类似体系结构。他们的目标是制作一个高水平的特征图,显示一个精细的分辨率,并据此做出预测。相反,本论文的方法利用架构作为一个特性金字塔,在每个层次上独立地进行预测

Feature Pyramid Networks

top-down通过从更高的金字塔级别向up sampling上采样,虽然在空间信息上粗糙,但语义信息上更强,从而产生更高分辨率的特征。然后,通过侧向连接,通过自下而上的途径增强这些特征。每个横向连接都从自底向上路径和自顶向下路径合并相同空间大小的feature map。自底向上的特征映射具有较低层次的语义,但是它的的激活能够更加精确地定位,因为它的下采样次数更少。

从下图可以看到,为了简单起见,使用最近邻的upsampling两倍自顶向下的粗糙feature map,然后与相应的自底向上的feature map 使用element-wise加法合并(经历1×1卷积层减少通道尺寸)。

关于lateral 和top-down在不同网络里的重要性可以透过下图实验结果看出,增加了lateral和top-down增加了AR/AP。

论文的后半部分分别详细描述了如何在RPN,Fast R-CNN Faster R-CNN上使用FPN,这里不再详述。

猜你喜欢

转载自blog.csdn.net/sinat_33487968/article/details/84328272
今日推荐