目标检测:Feature Pyramid Networks(FPN)

FPNFeature Pyramid Networks,特征图金字塔网络

论文:feature pyramid networks for object detection (CVPR2017)
论文链接:https://arxiv.org/abs/1612.03144

 

一、概述

原来多数的object detection算法都是只采用顶层特征做预测,但我们知道低层的特征语义信息比较少,但是目标位置准确;高层的特征语义信息比较丰富,但是目标位置比较粗略。另外虽然也有些算法采用多尺度特征融合的方式,但是一般是采用融合后的特征做预测,而本文不一样的地方在于预测是在不同特征层独立进行的。 

各种网络结构图:https://blog.csdn.net/duan19920101/article/details/104236632

二、FPN网络框架

FPN网络有效的解决了物体检测中多尺度问题;底层特征图中的信息较少,但是目标位置准确,高层特征图信息丰富,但是位置比较粗略,FPN在不同的特征层独立进行预测

主网络采用ResNet算法大致结构如下:

图中的横向连接先使用1*1的卷积压缩通道,使用2*2的上采样伸缩特征图,然后对应元素相加,注意:不是拼接通道,元素相加之后进行了3*3的卷积操作

而特征图金字塔分成三个部分,一个自底向上的路径(左边),一个自顶向下的路径(右边)和中间的连接部分。

自底向上其实就是网络的前向过程。在前向过程中,feature map的大小在经过某些层后会改变,而在经过其他一些层的时候不会改变,作者将不改变feature map大小的层归为一个stage,因此每次抽取的特征都是每个stage的最后一个层输出,这样就能构成特征金字塔。 
自顶向下的过程采用上采样(upsampling)进行,自顶向下的路径通过对在空间上更抽象但语义更强高层特征图进行上采样来增强高分辨率的特征。其中,将高层低分辨率的特征图做2倍上采样(为了简单起见,使用最近邻上采样)将上采样的结果和自底向上生成的相同大小的feature map进行融合(merge)每个横向连接自底向上路径和自顶向下路径的特征图具有相同的尺寸。然后通过按元素相加,将上采样映射与相应的自底而上映射合并。这个过程是迭代的,直到生成最终的分辨率图。在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积,目的是消除上采样的混叠效应(aliasing effect)。并假设生成的feature map结果是P2,P3,P4,P5,和原来自底向上的卷积结果C2,C3,C4,C5一一对应。

横向连接采用1×1的卷积核进行连接(减少特征图数量)

 

三、结论

FPN(Feature Pyramid Network)算法同时利用低层特征高分辨率和高层特征的高语义信息,通过融合这些不同层的特征达到预测的效果。并且预测是在每个融合后的特征层上单独进行的。 

低层特征:分辨率较高,包含较多的细节信息,更适合检测小目标;

高层特征:分辨率较低,包含更多的语义信息,更适合检测大目标。

发布了207 篇原创文章 · 获赞 890 · 访问量 129万+

猜你喜欢

转载自blog.csdn.net/duan19920101/article/details/104238109