Deformable ConvNets v2: More Deformable, Better Results 第二代可变形卷积论文精读与解析

论文来源

@inproceedings{2019Deformable,
title={Deformable ConvNets V2: More Deformable, Better Results},
author={ Zhu, X. and Hu, H. and Lin, S. and Dai, J. },
booktitle={2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2019},
}

论文聚焦的问题

原始的可变形卷积中提出了可以自适应几何形变的卷积核与ROI Pooling,但我们并没有对形变程度加以约束,而是通过一个额外的偏移学习层去学习。因此,从结果上来看,传统的可变形卷积方法的鲁棒性不够,很容易受到无关的像素内容(噪声)的干扰,聚焦于感兴趣区域的能力不够强。
这一问题实际上在可变形卷积一文中已经有所体现。在原始论文中,作者可视化了变形后的感受野,虽然变形后的覆盖范围更广、更加贴合于真实对象,但这一扩散实际上是有些过度的,一些感兴趣区域以外的无关像素也被纳入了卷积范围(作者使用的是VOC数据集)。事实上,当数据集切换为COCO时,这一现象更为明显。

  • 有效感受野:并非感受野内的所有像素的贡献都相同。这些贡献的差异由有效感受野表示,其值计算为节点响应相对于每个图像像素的强度扰动的梯度。我们利用有效感受野来检查单个像素对网络节点的相对影响。
  • 有效采样区域:原始论文只揭示了采样位置与bin区域的位置,但没有揭示采样位置的相对贡献。
  • 误差有界显著区域:如果我们移除不影响网络节点的图像区域,网络节点的响应不会改变。我们可以将节点的支持区域确定为最小的图像区域,在较小的误差范围内给出与完整图像相同的响应。我们将其称为误差有界显著区域,该区域可通过逐步掩蔽图像的部分并计算得到节点响应来找到。
  • 单独检查采样位置可能会导致关于可变形网络的误导性结论,必须既要考虑位置、也要考虑权重。第一代可变形卷积中,空间支持的范围可能是不精确的,前景节点的有效感受野和误差限制显著区域包括与检测无关的背景区域。

综上,虽然可变形卷积已经被证明具有优于传统卷积的精确度,但未加限制的可变形能力限制了这一方法的潜力,空间支撑可能会超出感兴趣的区域。因此,在充分保留可变性卷积网络可变形能力的基础上,如何增强其聚焦能力,是一个待解决的问题。本篇论文致力于解决的,正是这一问题。

相关工作

这一部分其实就是从多个角度列举了一些论文,然后说一说自己的工作是怎样从中受启发、怎样改进的。
● 变形建模:尺度不变特征变换(SIFT)、定向快速旋转模型(ORB)和基于可变形零件的模型(DPM)这类作品受到手工特征表现力较差的限制,以及它们所处理的几何变换(例如仿射变换)的限制。空间变换网络(STN)是第一个研究深度CNN平移不变特征的工作。它学习将全局仿射变换应用于扭曲特征贴图,但这种变换不能充分模拟许多视觉任务中遇到的更复杂的几何变化。与执行全局参数变换和特征扭曲不同,可变形ConvNet通过所提出的可变形卷积和可变形RoIpooling模块中可学习的偏移量,以局部和密集的方式对特征地图进行采样。可变形ConvNets是第一个在复杂视觉任务(例如,目标检测和语义分割)中基于挑战性基准有效建模几何变换的工作。
● 关系网络和注意模块:最初是在自然语言处理和物理系统建模中提出的。注意/关系模块通过聚合一组元素(例如,句子中的所有单词)的特征来影响单个元素(例如,句子中的一个单词),其中聚合权重通常根据元素之间的特征相似性定义。它们在捕获这些任务中的远程依赖关系和上下文信息方面非常强大。最近,[24]和[37]的并行工作成功地将关系网络和注意模块扩展到了图像领域,分别用于建模远程对象和像素-像素关系。在[19]中,提出了一种可学习的区域特征提取器,从像素-对象关系的角度统一了之前的区域特征提取模块。 这种方法的一个常见问题是,聚合权重和聚合操作需要以成对的方式对元素进行计算,这会导致与元素数量(例如,图像中的所有像素)成二次方的大量计算。我们开发的方法可以被视为一种特殊的注意机制,其中只有一组稀疏的元素具有非零聚合权重(例如,所有图像像素中的3×3像素)。参与元素由可学习偏移量指定,聚合权重由调制机制控制。计算开销仅与元素数量成线性关系,与整个网络的计算开销相比可以忽略不计(见表1)。
● 空间支持操作:对于原子卷积,卷积层的空间支持度已通过在卷积核中填充零来扩大。填充参数是手工挑选并预先确定的。在主动卷积中,卷积核偏移量是通过反向传播学习的,这与可变形网络是同步的。但偏移量是训练后固定的静态模型参数,在不同的空间位置共享。在用于目标检测的多路径网络中,每个输入RoI都采用了多个RoI池层,以更好地利用多尺度和上下文信息。多个RoI池层以输入RoI为中心,具有不同的空间尺度。这些方法的一个常见问题是,空间支持由静态参数控制,不适应图像内容。
● 有效感受野和显著区域。为了更好地解释深层网络的功能,在理解哪些图像区域对网络预测贡献最大方面取得了重大进展。最近关于有效感受野和显著区域的研究表明,理论感受野中只有一小部分像素对最终网络预测有显著影响。有效支撑区域由网络权重和采样位置的联合效应控制。在这里,我们利用已开发的技术来更好地理解可变形网络的网络行为。由此产生的观察结果指导并激励我们改进原始模型。
● 网络模拟和蒸馏是最近引入的模型加速和压缩技术。给定一个大的教师模型,通过模仿教师模型输出或训练图像上的特征响应来训练一个紧凑的学生模型。希望通过从大模型中提取知识,可以更好地训练紧凑模型。在这里,我们使用特征模拟损失来帮助网络学习反映R-CNN特征的对象焦点和分类能力的特征。提高了精度,可视化的空间支撑也证实了这种方法。

论文的主要贡献与新方法

总的来说,这篇论文的主要贡献在于提出了一种新版本的可变形卷积模块,进一步提高了可变形卷积的上限,是对先前工作的进一步完善与发展。这样一种新的模块被它的提出者命名为DCNv2。
针对于上述问题,本篇文章提出的方法是这样做的:

调制

为了进一步增强可变形网络操纵空间支撑区域的能力,对可变形网络进行调制以增强建模能力。引入一种拓展变形范围的调制机制(特征振幅),限制变形范围,增强建模能力。有了它,变形ConvNets模块不仅可以调整感知输入特征的偏移量,还可以调节来自不同空间位置的输入特征振幅。调制机制为网络模块提供另一维度的自由来调整其空间支撑区域。调制过程可以表示为:

在这里插入图片描述

p是真实的像素坐标,pk是卷积核位置,Δpk是学习到的偏移。值得注意的是Δmk,介于0~1,代表调制标量,也是通过一个单独的卷积+sigmpid学习得到,并以乘积的形式体现。用于偏移和调制学习的新增conv层的学习速率设置为现有层的0.1倍。

RCNN特征模仿

动机:每个RoI分类节点的误差有界显著性区域可以延伸到RoI之外。因此,RoI之外的图像内容可能会影响提取的特征,从而降低目标检测的最终结果。

Faster-RCNN:冗余上下文是检测错误的合理来源
一个解决方案:结合Faster-R-CNN和R-CNN的分类分数。由于R-CNN分类分数集中在输入RoI的裁剪图像内容上,因此合并它们将有助于缓解冗余上下文问题并提高检测精度。
新的问题:由于快速的RCNN和R-CNN分支都需要用于训练和推理,因此组合系统的速度较慢。

V2的问题:即使使用调制的可变形模块,也无法通过标准更快的R-CNN训练程序很好地学习此类表示。我们怀疑这是因为传统的Faster-RCNN训练损失不能有效地驱动这种表示的学习。需要额外的指导来指导培训。

受知识提取的启发,提出一种特征模拟方案指导网络训练,令网络更有效地去学习真正感兴趣的(对最终的分类结果真正起决定性作用的)区域特征。由于R-CNN能够对裁剪图像内容进行分类,可以学习那些不受非感兴趣区域影响的特征,因此合理地利用这一特性将有助于缓解冗余上下文问题,并提高检测精度。

具体方案是,在可变形Faster-R-CNN的每个RoI特征上加入了特征模拟损失,以迫使它们与从裁剪图像中提取的R-CNN特征相似。这一用于模拟R-CNN特性的分支在实验中取得了非常好的效果。该辅助训练目标旨在促使可变形的Faster-R-CNN更快地学习像R-CNN这样更“集中”的特征表示。

在R-CNN分支中,主干网络对调整大小的图像块进行操作,并生成14×14空间分辨率的特征图。在特征图的顶部应用(调制)可变形RoI池层,其中输入RoI覆盖整个调整大小的图像块(左上角为(0,0),高度和宽度为224像素)。之后,应用2个1024-D的fc层,为输入图像面片生成R-CNN特征表示,用fRCNN(b)表示。一个(C+1)方式的Softmax分类器用于分类,其中C表示前景类别的数量,加上一个用于背景。特征模拟损失在R-CNN特征表示fRCNN(b)和快速R-CNN中的对应项fFRCNN(b)之间强制执行,fFRCNN(b)也是1024-D,由快速R-CNN头部中的两个fc层产生。特征模拟损失定义在fRCNN(b)和fFRCNN(b)之间的余弦相似性上。

在这里插入图片描述

在SGD训练中,给定一幅输入图像,将RPN生成的32个正区域建议随机抽样到每个区域Ω。在R-CNN分类头上强制执行交叉熵分类损失,也计算了Ω中的ROI. 网络训练由特征模拟损失和R-CNN分类损失以及Faster-R-CNN中的原始损失项驱动。两个新引入的损失项的损失权重是原来更快的R-CNN损失项的0.1倍。R-CNN和Faster-R-CNN分支中的相应模块之间的网络参数是共享的,包括主干网络(调制)可变形ROI池和2个fc头(两个分支中的分类头是非共享的)。在推理中,只有更快的R-CNN网络应用于测试图像,而没有辅助的R-CNN分支。因此,推理中的R-CNN特征模拟不会引入额外的计算。

在这里插入图片描述

其实就是加入了特征的相似度损失,保证Faster-RCNN与RCNN学习到的特征是相似的!

全面集成

另外,本文提出的网络中全面集成了可变形卷积模块(堆叠更多的可变形卷积),虽然这里只是进一步应用而没有技术上的改进,但这一思路可以认为是对先前工作的进一步发展。值得注意的是,正是因为在DCNv2中解决了可变形卷积的聚焦问题,在网络中拓展使用可变形卷积层才成为可能。COCO上误导性的偏移可视化可能阻碍了对更具挑战性基准的进一步探索。
虽然看起来论文对可变形卷积的改进很多,但这些更改不影响可变形卷积模块是轻量级的这一结论。第二代可变形卷积模块依然具有轻量级、端对端的特性,依旧可以作为传统卷积模块的简单而不失高效的替代物。

猜你喜欢

转载自blog.csdn.net/qq_41112170/article/details/126772228