FPN（ Feature Pyramid Network for Object Detection）论文详读

Abstract

通过图像金字塔建立的特征金字塔是检测网络中重要的组成部分，但近些年使用较少的原因是因为它计算和存储开销较大，本文提出一个通过利用深度卷积网络固有的层次金字塔结构，使用侧向连接结合一个自上而下的外部结构，从而生成一个可以处理所有比例的、具有丰富语义信息的特征图。

Introduce

在这里插入图片描述

一般利用特征主要有上述四种形式：a)基于图像金字塔的特征金字塔，但需要较长的处理时间且需要较多的内存进行存储；b)单一特征图，现在state-of-the-art方法大多数都是采用这个方法，但是该方法对检测小型物体比较吃力；c)是一种替代基于图像金字塔的特征金字塔的方法来使用金字塔型层次特征；d)是FPN的结构。

基于图像金字塔的特征金字塔的比例固定不变的，当对象的大小发生变化时，通过移动金字塔的层级来抵消变化。

图像金字塔不是计算多比例特征表示的唯一方法。卷积网络因为含有多个卷积层，会计算出一个多层次特征，通过对该特征进行下采样，可以获得一个具有固有的多比例、金字塔形状的特征。该特征有不同的空间分辨率，且因为层次不同导致各层之间的语义鸿沟较大。因为高分辨率的图有着低层次的特征，损害了特征的代表性，导致其在目标检测中表现不佳。

SSD方法是第一个尝试使用卷积网络的特征金字塔的方法，SSD复用了不同层在前向传播时计算出的多比例特征，没有使用低层次特征，而是建立了一个金字塔，并添加了几个新的layer。SSD甚至没有复用多层次特征中的高分辨率图，但高分辨率图对检测小型物体十分重要。

为了利用卷积网络的多层次特征的结构，且在所有比例的情况下建立具有较多语义信息的特征金字塔，把低分辨率、语义信息少的特征和高分辨率、语义信息多的特征通过侧向连接进行结合，形成一个所有layer均具有丰富语义信息的特征金字塔，且该金字塔可以通过single scale的输入快速的进行建立。

Feature Pyramid Network

在这里插入图片描述

FPN把single scale、随机大小的图像作为输入，在金字塔的各层输出相应比例大小的特征图。金字塔结构包括一个自底向上路径、一个自顶向下路径，一个侧向连接。

自底向上路径：是卷积骨干网络前反馈计算。通常很多layer产生同样大小的输出特征图，称这些layer位于同一网络层次。对于特征金字塔，对每个层次定义一个金字塔层，选择每个层次最后一个layer的输出组成特征图的集合。通过对特征图集合进行补充和丰富，创建金字塔。
自顶向下路径和侧向连接：通过对分辨率粗糙但语义信息丰富的特征图进行上采样来得到更高分辨率的特征。这些特征通过与自下而上的特征进行侧向连接进行增强——通过侧向连接合并来自自底向上和自顶向下路径中的相同空间大小的特征图。自底向上的特征图虽然语义信息较少，但因为被多次下采样，所以定位更准确。使用分辨率粗糙的特征图，把空间分辨率上采样2倍，这个上采样图和自底向上的图（已经过1×1的卷积层减少通道维数）进行合并。这个过程被反复进行迭代（为了开始进行迭代，在Conv5上附加一个1×1的卷积层来生成分辨率最粗糙的图），直至生成最好分辨率的特征图。最后在每个合并的图上应用一个3×3的卷积层来生成减少了上采样混合影响的最终结果。最后得到的特择徒图的集合被称为{P₂, P₃, P₄, P₅}分别对应自底向上路径生成的{C₂, C₃, C₄, C₅}。因为所有的金字塔层使用共享的分类器和回归器，所以本文固定特征图中特征的维数为256，所有的附加卷积层的输出都是256维。

Conclusion

简单来说，FPN就是借鉴之前的图像金字塔转为特征金字塔的方法，然后使用1×1的卷积层减少通道维数，通过侧向连接结合自底向上和自顶向下生成的特征图，形成一个语义信息丰富、分辨率较高且定位准确的特征图。即弥补了特征金字塔需要大量内存和时间的缺陷，又解决了低分辨率图像语义信息较少定位准确、高分辨率图像语义信息较多定位困难的问题。