【论文阅读】SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects

SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects

SCRDet:为小的、杂乱的和旋转的物体提供更鲁棒的检测

论文地址:https://arxiv.org/abs/1811.07126

开源代码:https://github.com/DetectionTeamUCAS/R2CNN-Plus-Plus_Tensorflow

参考博客:​​​​​ICCV2019 |论文阅读——SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects_Liaojiajia-Blog-CSDN博客

以下内容在参考博客的基础上二次学习笔记,会有一些补充学习,如有侵权,立马删除,以下仅作为自己复习,建议去看原博客。 

目录

一、介绍

二、SCRDet算法流程 

1. SF-Net(Finer Sampling and Feature Fusion Network)

分析

特征融合模块

抽样改进

2. MDA-Net( Multi-Dimensional Attention Network)

像素注意力网络

通道注意力机制(SEnet的结构) 

3. Rotation Branch

三、损失函数

3.1 Loss Function

3.2 Regrssion Loss

3.3 Attention Loss

3.4 Classification Loss

四、实验部分

4.1 DOTA Dataset 的标注格式

4.2 Visualization of the MDA-Net

4.3 Ablation Study

4.4 Peer Methods Comparison

4.5 Experiments on Natural Images

五、结论


一、介绍

  • 对于小型目标、杂乱密集和任意旋转方向的目标检测依然存在着巨大的挑战。
  • 本文介绍的方法不仅适合用在航拍数据集上,也可以使用在自然图像数据集中,即SCRDet。
  1. 设计了一种采样融合网络,它将多层特征融合到有效的anchor采样中,以提高对于小型目标的检测灵敏度。
  2. 通过抑制噪声和突出物体的特征,使用有监督的像素注意力网络和通道注意力网络,用于小而杂乱的目标检测。
  3. 为了更准确地进行旋转估计,将IoU常数因子添加到smooth L1 loss中,用来解决旋转边界框的边界问题。 

二、SCRDet算法流程 

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SSbfrL1F-1573892931153)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1573888493349.png)]

  • SCRDet 模型由SF-net,MDA-net和rotation branch 组成。
  • 这是一种Two stage网络,由SF-net 和MDA-net提取特征图,在rotation branch 进行位置回归与分类。
  • 如图1所示。在第一阶段,通过添加SF-Net和MDA-Net,期望特征图包含更多的特征信息和更少的噪声。对于角度参数的位置灵敏度,此阶段仍然回归水平框。第二阶段通过改进的五参数回归和对每个方案进行旋转非最大抑制(R-NMS)操作,可以得到任意旋转下的最终检测结果。

算法过程:

  1. 输入一张图片,首先使用resnet提取特征图;
  2. 用C3和C4两层在SF-net中进行特征融合和精确的特征采样,提取更多的语义信息和位置信息,经过两个通道的元素相加,得到特征图。
  3. 该特征图F3经过像素注意网络通道注意网络后,与输入F3进行卷积运算,得到输出新的特征图A3。
  4. A3作为Rotation Branch的输入,进行RPN提取候选框,候选框映射到特征图中后进行ROI Align ,然后进行目标分类与位置回归,得到最后预测的结果。

1. SF-Net(Finer Sampling and Feature Fusion Network)

分析

检测小物体有两个主要障碍:物体特征信息不足锚框采样不足

原因:

  1. 由于使用了池化层,使得小对象在深层丢失了大部分特征信息。
  2. 高阶特征图的采样步幅越大,越容易直接跳过较小的目标,导致采样不足。

解决:

  1. 特征融合。一般认为,低级特征图可以保存小对象的位置信息,而高级特征图可以包含更高层次的语义线索。特征金字塔网络(FPN)[23]、顶下调制(TDM)[35]和与对象先验网络(RON)反向连接[21]是常见的特征融合方法,涉及不同形式的高、低层次特征映射的组合。
  2. 更好的抽样。训练样本不足和不平衡会影响检测性能。通过引入期望最大重叠(EMO)分数,在[45]中计算锚与对象之间的期望最大交集(IoU)。他们发现锚点(SA)的步幅越小,EMO得分越高,统计上导致所有对象的平均最大IOU的提高。
    图2分别为给定步幅16和步幅8的小目标采样结果。可以看出,越小的SA样本,越高质量的样本能够很好地捕捉小物体,这对检测器的训练和推理都有帮助。

 基于以上分析,我们设计了更精细的采样特征融合网络(SF-Net),如图3所示。

特征融合模块

图3:SF-Net。F3具有较小的SA,同时充分考虑了特征融合和对不同尺度的适应性。

  1. SF-Net的第一个通道对C4进行采样,使其SA =S,其中是S预期的锚步幅。
  2. 第二个通道也取样C3到相同的尺寸。
  3. 通过一个inception结构来扩展C3的接受域并增加语义信息。inception结构包含各种比率卷积核,以捕捉对象形状的多样性。
  4. 最后,通过对两个通道进行元素相加,得到新的特征图F3。

注意:为了减少网络参数,SF-Net仅使用Resnet[16]中的C3和C4进行融合,平衡语义信息和位置信息,而忽略了其他不太相关的特征。

 总述:输入一张800×800×3的图像,根据缩放因子提取出C2、C3、C4不同尺寸的特征图,将C3和C4在SF-NET中进行特征融合,得到新的特征图F3。SA是特征图相对于原始图像的缩放因子(允许自适应采样),分别是C2维度是200×200×256,C3维度是100×100×512,C4维度是50×50×1024。

抽样改进

 图2:不同锚点strideSA的锚点采样。
橙黄边框代表锚点,绿色边框代表ground-truth,
红色边框代表ground-truth中IOU最大的锚点。

图2分别为给定步幅16和步幅8的小目标采样结果。可以看出,越小的SA样本,越高质量的样本能够很好地捕捉小物体,这对检测器的训练和推理都有帮助。

(原博客的分析:将分析和实验结果放在一起分析很好,值得学习。)

 表1:不同步幅SA下DOTA上18K次迭代图像的精度和平均训练开销

根据上面的实验结果可以得出下面两个结论:

  1. C3和C4特征融合,丰富特征信息:
  2. 增加特征图大小(减小SA)来提高anchor数。(我们发现最优值依赖于特定的数据集,特别是小对象的大小分布。为了兼顾精度和速度,本文将SA的值普遍设为6)

2. MDA-Net( Multi-Dimensional Attention Network)

  • 由于航拍图像等真实数据的复杂性,RPN提出的方案可能会引入大量的噪声信息,如图4b所示。过多的噪声会淹没目标信息,目标之间的边界会变得模糊(见图4a),导致漏检和虚警增加。
  • 有必要增强物体线索,弱化非物体信息。
  • 许多注意结构[18,17,37,38]被提出来解决遮挡、噪声和模糊问题。然而,大多数方法都是无监督的,难以引导网络达到特定的学习目的。
  • 提出的方法:为了更有效地捕捉复杂背景下小对象的对象性,我们设计了一种监督多维注意力网络(MDA-Net),如图5所示。

图5 所设计的MDA-Net由通道注意力网络和像素注意力网络组成。

MDA-NET分别由两部分注意力机制组成:

像素注意力网络

第一部分:网络最上面是像素注意力网络:

  1. F3经过一个具有不同比值卷积核的inception模块使用不同的卷积核进行不同尺度的特征提取,然后经过卷积操作得到双通道的显著性映射(图4d)前景和背景);
    (由于显著图是连续的,非对象信息不会被完全消除,这有利于保留一定的上下文信息,提高鲁棒性。)
  2. 预测:对目标区域进行二值化处理,得到含有目标区域的二值化图(图4e)显著性高的区域赋1值,其他不重要的区域赋0值,将图像变成由0\1组成像素点图像)。
  3. 标签:为了引导网络学习这一过程,我们采用了一种监督学习方法。根据ground truth很容易地得到一个二值图作为标签(如图4e所示),然后利用二值图与显著性图(第2点显著性图的二值图)的交叉熵损失作为注意损失。
  4. 对显著图进行Softmax操作,选择其中一个通道与F3相乘。最后得到新的信息特征图A3,如图4c所示。将二值图进行softmax后把显著性映射值限制在[0,1]之间。也就是说,它可以降低噪声,相对增强目标信息。


首先,我们可以此外,我们还使用SENet[18](也就是第二部分)作为辅助的渠道注意网络, reduction ratio的值为16。

通道注意力机制(SEnet的结构) 

第二部分:网络下面是通道注意力机制(SEnet的结构),使用GAP输出C个特征通道的数值分布,然后将特征的维度降低到输入的1/r,经过relu激活后再通过一个FC将维度变为原来的维度。然后通过sigmoid获得[0,1]之间归一化的权重。

最后将三个部分相乘,得到新的特征图。

3. Rotation Branch

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-05I4kvec-1573892931163)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1573889442810.png)]

其中,

  1. x,y :真实框的中心坐标

  2. w,h:真实框的宽和高

  3. θ:真实框的旋转角度

  4. xa :anchor box

  5. x’ :预测框

与典型的候选框计算不同,多了一个角度的公式,用于计算候选框的旋转角度。

上图展示了一个理想的形式,蓝色框逆时针旋转到红色框,但是由于角度的周期性,这种损失会非常大。因此模型必须以其他的形式进行回归(当缩放w和h时,蓝色盒子顺时针旋转),这样提高了回归的难度.

下面介绍损失函数的时候会提到怎么解决这个问题。在传统的smooth L1 loss中 加入IoU常数因子。在边界的情况下,损失函数|-log(IoU)|接近0,消除了损失突然增加的情况。

三、损失函数

3.1 Loss Function

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aNcGcoNJ-1573892931165)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1573889660113.png)]

3.2 Regrssion Loss

由于存在参数angle角度的缘故,增加IoU常数因子,可以解决复杂的回归问题,如图b所示。
在传统的smooth L1 loss中 加入IoU常数因子,在边界的情况下,损失函数|-log(IoU)|接近0,消除了损失突然增加的情况。新的损失函数是由两部分组成的,一部分是梯度的方向,另一部分是梯度的大小。此外,利用IOU优化定位精度与IOU为主的度量一致,比坐标回归更直观、有效。

3.3 Attention Loss

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-26TY7K0G-1573892931169)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1573889846650.png)]

3.4 Classification Loss

四、实验部分

4.1 DOTA Dataset 的标注格式

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F7Y4xEo0-1573892931172)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1573889982313.png)]

imagesource 表示图像来源,gsd 表示地面的采样距离,前八个数值为矩形框的四个坐标(x1,y1,x2,y2,x3,y3,x4,y4),后面表示分别是数据集的类比和检测难易程度的标注。 

4.2 Visualization of the MDA-Net

在这里插入图片描述

(左)图5所设计的MDA-Net由信道关注网络和像素关注网络组成。

(右)图4:多维注意网络的可视化
(a)模糊边界。(b)输入注意网络特征图。(c)注意网络输出特征图。(d)显著地图。(e)二进制映射。真实(f)。

4.3 Ablation Study

在这里插入图片描述

 SF-Net有效地建模了特征融合和SA设置的灵活性,达到了68.89%的最佳性能,特别是通过对小目标的改进,达到了最好的性能,比如说:车、船、储罐。MDA-Net 进一步提高了大纵横比的检测精度。

4.4 Peer Methods Comparison

在这里插入图片描述

Table 3显示了这些方法的性能,ROI-Transformer、ICN和SCRDet在小目标检测中的优异性能归功于特征融合。SCRDet 由于融合过程中感受野的扩展和噪声的衰减,所以对于大型物体来说,它比ICN和ROI-transformer更好。我们的方法在现有出版物中排名第一。 结果:MAP达到72.61%。

SCRDet方法在超过一半的类别上达到了最佳的检测精度。 

4.5 Experiments on Natural Images

在这里插入图片描述

 结论:
由图可知,在COCO、VOC2007数据集上使用MDA-net和FPN∗分别提高了0.7%和2.22%。MDA-net在密集对象和小目标中都具有良好的性能检测。
在ICDAR2015数据集中,SCRDet相对于R2CNN-4方法也提高了2.85%。

五、结论

  1. 提出了一个端到端的多分类检测模型,不仅能够用于航拍图像,还可以用于COCO、VOC等常规数据集的检测。
  2. 提出了SF-Net,把两个不同层的feature map进行融合,并增加了一种具有较小SA的采样融合网络。
  3. 提出Pixel AttentionChannel Attention机制,在网络中生成权重以突出目标特征,弱化背景特征。
  4. 在ROI之后进行任意角的坐标检测,以保存定位信息,解决了密集图像漏检的问题。

猜你喜欢

转载自blog.csdn.net/dujuancao11/article/details/122520739