CVPR2020-单阶段目标检测稳定提升4个点SEPC | Scale-Equalizing Pyramid Convolution for Object Detection

启发应该是来源于SIFT中高斯金字塔带来的尺度不变性。论文出来很久了,感觉的确创新点很强,效果也是爆炸!
论文地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_Scale-Equalizing_Pyramid_Convolution_for_Object_Detection_CVPR_2020_paper.pdf
Github地址:https://github.com/jshilong/SEPC

在这里插入图片描述

Abstract:

特征金字塔已成为一种提取不同尺度特征的有效方法。该方法的发展主要集中于在不同层级上聚集上下文信息,而很少涉及特征金字塔中的层次间相关性。早期的计算机视觉方法通过在空间和尺度维度上定位特征极值来提取尺度不变特征。受此启发,本研究提出了一种跨金字塔层次的卷积,是一种改进的3-D卷积。堆叠的金字塔卷积可直接提取3-D(尺度和空间)特征,并且胜过其他经过精心设计的特征融合模块。基于3-D卷积的观点,在金字塔卷积之后自然会插入从整个特征金字塔中收集统计信息的集成批归一化。此外,我们还表明,朴素的金字塔卷积以及RetinaNet头的设计实际上最适合从高斯金字塔中提取特征,而高斯金字塔的特性很难被特征金字塔所满足。为了减轻这种差异,我们构建了一个尺度均衡金字塔卷积(SEPC),仅在高级特征图上对齐共享金字塔卷积内核。 SEPC模块具有高效的计算能力,并且与大多数单级目标检测器的头部设计兼容,可为最先进的一级目标检测器带来显着的性能提升(在MS-COCO2017数据集上增加了> 4AP)。 轻型SEPC也具有3.5AP增益,推理时间仅增加7%左右。 金字塔卷积还可以作为两级目标检测器中的独立模块正常运行,并且能够通过2AP改善性能。

Introduction:

在这里插入图片描述
FPN是目标检测中用来处理多尺度目标的有效方法。但是最近基于FPN结构的各种改进,特征融合的设计是直观的,方法是将特征图的大小调整为相同的分辨率后直接对其进行汇总。没有探索特征金字塔的内在属性,以使所有特征图无一例外地做出相等贡献。
在这里插入图片描述
本文受到传统计算机视觉尺度不变方法的启发,提出通过在尺度维度上进行显式卷积来捕获尺度间相互作用,从而在特征金字塔中形成3D卷积,称为金字塔卷积(PConv)。与直接汇总所有特征图相比,尺度维度的卷积是自然选择。 例如,特征金字塔上相邻尺度的特征图应该建立最大的关联。 通过在特征提取网络(主干)(例如VGG ,ResNet 和ResNext )的每个下采样操作之后提取中间输出来构建特征金字塔。 图2展示了RetinaNet中从FPN之前和之后的主干提取的特征图之间的相关矩阵。 接近对角线的值大于远端的值。 这类似于使用空间卷积来处理自然图像的先验,即图像上的相邻像素比远距离对关联更强。 但是,此属性未在以前的特征融合设计中直接捕获。

PConv->SEPC:

此外,本文还探索了通过设计尺度均衡模块来缓解这两个差异的可能性。使用可变形卷积的思想,底部金字塔的内核大小是固定的,并且随着共享内核在尺度维度上的扩展而变形。现在,对PConv的这种修改使它能够在卷积更高层时通过对齐其内核来均衡不同的金字塔等级(比例),因此被称为尺度均衡金字塔卷积(SEPC)。可以证明,它可以从特征金字塔中提取尺度不变特征,并且由于可变形内核仅应用于高级特征,因此只会带来适度的计算成本增加。

本研究主要在以下几个方面做出贡献
(1)提出了一种轻**量级金字塔卷积(PConv)**来在特征金字塔内部进行3-D卷积,以满足尺度间的相关性。

(2)提出了尺度均衡金字塔卷积(SEPC),以通过仅在高级特征图上对齐共享的PConv内核来缓解特征金字塔和高斯金字塔之间的差异。

(3)该模块以可忽略的推理速度折衷提高了性能(在最先进的单阶段目标检测器上提高了3.5AP)。

Pyramid convolution(PConv):

A.Pipeline
在这里插入图片描述
金字塔卷积(PConv)实际上是在尺度和空间维度上的3-D卷积。如上图所示,在不同的金字塔等级之间存在大小不匹配。 随着金字塔级别的提高,空间大小将按比例缩小。为了解决不匹配问题,本文在不同层级特征使用不同步长的卷积来处理,PConv输出为:
在这里插入图片描述
其中步长为0.5的内核被步长为1的卷积和连续的双线性上采样层所替代。 公式可以表示为:
在这里插入图片描述
类似于常规卷积,零填充也用于PConv。 至于最低金字塔等级(l = 1),等式中的最后一项。 2是不必要的,而对于最高级别(l = L),则忽略第一项。
在这里插入图片描述
总结来说:PConv的输出就是当前层级特征与相邻两个层级特征应用3个特定步长的卷积(为了特征尺寸对齐)相加融合的做法,具体可以见上图。粉红色尺度的特征输出即为其本身和相邻尺度特征的2-D卷积融合结果。

B.PConv Head vs RetinaNet Head
在这里插入图片描述
RetinaNet Head是分类与定位分支独立使用5个卷积层预测。由于每个PConv仍然带来一些额外的计算。 所以PConv Head分类和定位分支共享4个PConv模块,形成组合的头结构,如图5b所示。 为了满足分类和本地化任务的差异,在共享的4个PConv模块之后还添加了一个额外的常规卷积。 可以计算出,该设计的FLOsP比原始RetinaNet头还要少。(组合头+额外头)

C.Integrated batch normalization (BN) (IBN)
在这里插入图片描述
本文还探索了BN在检测头中的使用。 共享的BN跟随PConv模块,并从特征金字塔内的所有特征图(而不是从单个图层)收集统计信息。 当将PConv视为3-D卷积时,这种设计自然而然地出现了。 由于统计数据是从金字塔内的所有特征图收集的,因此方差变小,尤其是对于特征图大小较小的高级特征。 这使我们即使在小批量4的情况下也可以在头部训练BN,并获得更好的性能。如上图,本文最终使用IBN方法。

Scale-equalizing pyramid convolution(SEPC):

在这里插入图片描述
在图6b中,可以看出,高级特征中的特征图模糊效果比图像金字塔中的模糊效果严重得多。 这是由于特征金字塔中两个特征图之间的主干中有许多卷积和非线性运算层。为了折中更强的模糊效果并提取尺度不变特征,本文借用可变形卷积的思想来直接预测卷积核的偏移量,因为共享核在比例尺维度上向上扩展。 如图6b所示,与底部特征图卷积的核被固定为正常的3×3卷积。 在处理特征金字塔中的高级特征图时,会根据特征图的当前层预测变形偏移。 这样,每个金字塔级别(比例)中的特征都通过变形偏移进行均衡,并准备好通过共享的PConv内核进行卷积。 因此,它被称为尺度均衡金字塔卷积(SEPC)。总结来说:SEPC = PConv+SEPC_Deformable Conv

SEPC的好处:

1)由于其具有可变形卷积核的扩张能力,因此考虑了两层特征金字塔之间较大的模糊效果;

2)缓解了特征金字塔与高斯金字塔之间的差异;

3)由于卷积的计算量从一层减少到其较高的特征金字塔等级减少了4,因此仅将可变形卷积添加到高级特征贴图会产生最少的计算量。

备注:本文提出了SPEC与SPEC-Lite两种,其中,SPEC是组合头使用了PConv+SEPC_Deformable Conv,额外头使用SEPC_Deformable Conv。SPEC-Lite是组合头使用PConv,额外头使用SEPC_Deformable Conv。

Experiments:

1.Ablation study:
在这里插入图片描述
在一阶段检测器上,SEPC可以提升4个点!
在这里插入图片描述
相较于其他特征融合方式,PConv因其尺度不变性,效果更优!

2.Comparison with state-of-the-art object detectors:
在这里插入图片描述
3.Two-Stage object detectors:
在这里插入图片描述
稳定提升2个点以上!

猜你喜欢

转载自blog.csdn.net/weixin_42096202/article/details/106933296