(三十二)论文阅读 | 目标检测之SEPC


简介

在这里插入图片描述

图1:论文原文

本文介绍的是 C V P R   2020 {\rm CVPR\ 2020} 的一篇关于目标检测的文章, S E P C {\rm SEPC} 。它的主要关注点依旧是目标检测中常用的金字塔结构。与以往使用特征融合的方式提取多尺度特征不同,论文提出一种改进的三维卷积,可以同时提取空间和尺度维度上的特征。实验结果为在一阶段检测器上, S E P C {\rm SEPC} 能够在 C O C O 2017 {\rm COCO2017} 数据集上带来超过 4 4 个点的提升,轻量级的 S E P C {\rm SEPC} 模块获得约 3.5 3.5 的提升而仅增加约 7 % 7\% 的推理时间。在两阶段检测器上, S E P C {\rm SEPC} 模块能够提高约 2 2 个点。论文原文 源码


0. Abstract

特征金字塔是当前主流的用于提取多尺度特征的方法,而基于特征金字塔的改进主要集中在增强多尺度的上下文信息,却很少触及特征金字塔层内的相关性。早期的计算机视觉方法通过在空间和尺度维度上定位特征极值来提取尺度不变特征。基于此,论文提出一种跨越金字塔各层的卷积方法金字塔卷积,即一种改进的三维卷积。堆叠的金字塔卷积直接提取空间和尺度特征,性能优于其他融合方式得到的结果。基于三维卷积的观点,论文又提出一种基于整个特征金字塔的批量归一化方法。此外,论文还证明了原始的金字塔卷积更适用于图像金字塔,而非特征金字塔。为了使金字塔卷积更好地应用于特征金字塔中,继而作者提出 S E P C {\rm SEPC} 了模块。

论文贡献:(一)提出轻量级金字塔卷积模块,对特征金字塔使用三维卷积来挖掘金字塔内部的关联性;(二)提出 S E P C {\rm SEPC} 模块来减小特征金字塔和图像金字塔间的差异(主要是针对论文提出的金字塔卷积的使用);(三) S E P C {\rm SEPC} 模块能够有效提高 S O T A {\rm SOTA} 算法的性能,同时仅带来较小的计算量。


1. Introduction

目标检测任务的一大挑战是图像中目标尺度的多样性,大量的研究聚集于此。传统的解决尺度多样性的方法有多尺度训练或多尺度推理等,这些方法都是基于金字塔的思想。而图像金字塔由于需要满足不同尺度的输入,往往会带来时间成本的增加,所以当前主流的方法是使用特征金字塔。然而,在特征金字塔的不同层之间存在语义鸿沟,传统的方法大都是融合不同尺度的特征以达到多尺度检测的目的,它们的通用做法是将不同尺度的特征层固定为相同分辨率,然后通过某种规则融合。但这类方法没有充分利用特征金字塔层内的内在属性。

尺度空间在传统计算机视觉领域已有所应用,基于此,论文在特征金字塔中提出一种尺度维度上的三维卷积,金字塔卷积。金字塔卷积是一种自适应的卷积操作,例如特征金字塔的相邻层具有最高的相关性,这一点在传统的方法中被忽略。
在这里插入图片描述

图2:相关矩阵

上述展示了特征金字塔各层的相关性。其中,上三角矩阵表示使用 F P N {\rm FPN} 前各层的相关性;下三角矩阵表示使用 F P N {\rm FPN} 后各层的相关性。由图可以得到,使用 F P N {\rm FPN} 后各特征层的相关性有所提高,这是融合了各层特征的结果。但是,先前的特征融合方法并没有充分利用特征金字塔的这一属性。除此之外,论文指出 R e t i n a N e t {\rm RetinaNet} 的检测头其实是一种特殊的金字塔卷积,并且更适合于在图像金字塔中提取特征。图像金字塔是连续使用高斯核作用于图像,使得图像变得模糊和实现下采样后得到的结果。同时,高斯核的大小与下采样的倍数成正比以过滤大多数的噪声,以至于不会滤除大量有用信息。在图像金字塔中使用金字塔卷积可以有效地提取多尺度特征。

但是,通过深度卷积神经网络建立的特征金字塔与图像图像有很大的不同。首先,特征金字塔相邻层之间的卷积层形成了一个大的高斯核;其次,由于存在非线性激活函数,理论上不同阶段的高斯核的值因像素而异。因此,论文设计出一个平衡模块来缓解这种差异。基于 D C N {\rm DCN} 的思想,金字塔底部的核大小是固定的,随着不断的下采样操作核的尺度和形状开始变化。该过程使得金字塔卷积能通过调整核来平衡不同的金字塔层。金字塔卷积可以有效地提取多尺度特征,并且仅带来少量的计算。在各类的目标检测模型上配备 S E P C {\rm SEPC} 模块,能够给模型带来不同程度的提升。


2. Related Work

2.1 Object Detection

该部分主要介绍经典的目标检测算法以及经典的 F P N {\rm FPN} 结构。

2.2 Feature Fusion

在深层神经网络中,低级特征通常被认为缺乏语义信息,但保留了丰富的几何细节,这一点与高级特征相反。因此,特征融合在结合语义信息和几何信息中扮演了重要角色。下面是几种典型的特征融合的工作:
在这里插入图片描述

图3:Feature Fusion

2.3 Cross-Scale Correlation

先前已有许多工作关注不同尺度特征的关联性。从传统方法 S I F T {\rm SIFT} 到深度神经网络中的扩张卷积等,但在这些工作需要对输入图像做不同变换而进行重复计算,或者在分辨率的特征图上操作,均没有考虑计算量的增加。在论文中,跨金字塔层的卷积没有破坏原特征金字塔的特征组成,不会大量地增加计算量。


3. Pyramid Convolution

金字塔卷积实际上是一个兼顾空间和尺度维度的三维的卷积。如果我们将图 3 ( a ) {\rm 3(a)} 中的每一点看作是特征,那么金字塔卷积可以看作是 N N 个不同的二维卷积核。然而,在金字塔中,每一层的尺度是不同的。随着金字塔级数的增加,特征层尺度在变小。为了解决尺度不匹配的问题,金字塔卷积为 K K 个不同的卷积核设置不同的步长。例如,对于 N = 3 N=3 的金字塔卷积,第一个核的步长是 2 2 、最后一个核的步长是 0.5 0.5 。则金字塔卷积的输出可以表示为: y l = w 1 s 0.5 x l + 1 + w 0 x l + w 1 s 2 x l 1 (1) y^l=w_1*_{s0.5}x^{l+1}+w_0*x^l+w_{-1}*_{s2}x^{l-1}\tag{1}

其中, l l 表示金字塔的某层、 w w 是三个独立的二维卷积核、 x x 是输入特征图、 s 2 *_{s2} 表示步长为 2 2 的卷积,步长为 0.5 0.5 的卷积通过一个步长为 1 1 的普通卷积加上双线性上采样层实现: y l = U p s a m p l e ( w 1 x l + 1 ) + w 0 x l + w 1 s 2 x l 1 (2) y^l={\rm Upsample}(w_1*x^{l+1})+w_0*x^l+w_{-1}*_{s2}x^{l-1}\tag{2}

与传统的卷积类似,金字塔卷积也有零填充。对于金字塔的底层( l = 1 l=1 ),式 ( 2 ) (2) 的最后一项无效;对于金字塔的顶层,式 ( 2 ) (2) 的第一项无效。尽管在金字塔的每一层会进行三个卷积操作,但金字塔卷积的计算量仅为普通卷积的 1.5 1.5 倍。

3.1 Pipeline

在这里插入图片描述

图4:RetinaNet头

除了能够提取与尺度相关的特征,金字塔卷积还与 R e t i n a N e t {\rm RetinaNet} 及其变体的检测头兼容。实际上, R e t i n a N e t {\rm RetinaNet} 的检测头是单尺度的金字塔卷积核。因此,四个连续的卷积能够使用含三个尺度的金字塔卷积替换。在深度神经网络中,堆叠的金字塔卷积与堆叠的卷积模块相对应,从而能够仅带来较少的计算量。但是,每个金字塔卷积仍带来了额外的计算。作为一种替代方案,四个金字塔卷积共用分类和回归分支,形成一个组合的头结构。为了满足分类和回归的不同任务,在金字塔卷积后接普通的卷积得到最后的预测结果。通过计算得到,这种设计结构的浮点数运算次数比原 R e t i n a N e t {\rm RetinaNet} 少。
在这里插入图片描述

图5:带金字塔卷积的RetinaNet头

3.2 Integrated Batch Normalization(BN) in the Head

针对卷积方式的改变,论文也对批量归一化( B N {\rm BN} )做了相应的改进。基于金字塔卷积的特点,一个参数共享的 B N {\rm BN} 模块从金字塔的所有特征图获得统计特征,而非仅针对单个特征层。由于特征是通过金字塔的所有特征层收集的,特征的方差相对较小。


4. Scale-Equalizing Pyramid Convolution

在最初设计金字塔卷积时,作者将每个二维卷积核的的大小固定。作者认为这在图像金字塔中是合理的,因为图像金字塔通过模糊图像和降采样实现。

Remark1 金字塔卷积能够从图像金字塔中提取尺度不变特征

在这里插入图片描述

图6:图像金字塔中的金字塔卷积

上图展示了 N = 1 N=1 的金字塔卷积,可以看到不同尺度的特征可以通过同一卷积核提取。此外,高斯模糊是产生图像金字塔的必要条件,因为这可以抑制图像中的大多数噪声。可是另一方面,过度的模糊会丢失图像中的细节。所采用的最佳高斯核的尺度应考虑相邻两层间的下采样倍数。

在这里插入图片描述

图7:特征金字塔中的SEPC

在金字塔卷积设计之初,它被直接用于处理特征金字塔,但是上述提到的最优高斯核并不能有效满足特征金字塔。如上图,特征金字塔深层特征图的模糊效果比高斯金字塔强烈得多。这是由相邻特征图间的卷积,池化和非线性映射等造成的。

为了在强模糊效果和提取尺度不变特征之间折中,随着尺度的增加,金字塔卷积核也在增大。但是,由于网络中的非线性操作,不同像素间的空洞率也不尽相同,这使得难以使用一个固定的卷积核。基于可变形卷积直接预测卷积核的偏移的思想,如上图,金字塔卷积的最底层使用常规的 3 × 3 3×3 卷积。随着特征层的加深,模型基于当前特征层预测一个卷积偏移。以此,特征金字塔每层的特征通过可变形的偏移平衡,然后使用共享的金字塔卷积。

S E P C {\rm SEPC} 的特点可归纳如下: ( 1 ) (1) 考虑了两个特征层间更大的模糊效应,因为它具有可变形卷积的膨胀能力; ( 2 ) (2) 减小了高斯金字塔和特征金字塔间的差异; ( 3 ) (3) 由于计算成本从一层减少到它上面的层,在高语义特征层引入可变形卷积仅带来较少的计算量。


5. Experiments

在这里插入图片描述

图8:不同BN的实验结果对比

在这里插入图片描述

图9:目标检测算法实验结果对比(1)

在这里插入图片描述

图10:目标检测算法实验结果对比(2)


6. Conclusion

论文针对特征金字塔,以及综合对比传统计算机视觉领域常用的图像金字塔,提出了金字塔卷积。原普通卷积是在特征层的每一层单独进行,为了利用特征层间的相互关联性,金字塔卷积以一种跨特征层的方式进行。同时,为了适应金字塔卷积的不同层和基于可变形卷积的思想,提出尺度平衡金字塔卷积。该模块在提高模型性能的同时,仅带来较少的计算量。


参考

  1. Wang X, Zhang S, Yu Z, et al. Scale-Equalizing Pyramid Convolution for Object Detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 13359-13368.


猜你喜欢

转载自blog.csdn.net/Skies_/article/details/107605628
今日推荐