VarifocalNet-单阶段目标检测SOTA | VarifocalNet: An IoU-aware Dense Object Detector

新提出的单阶段检测网络(工作后看论文的时间越来越少)
论文地址:https://arxiv.org/pdf/2008.13367.pdf
Github地址:https://github.com/hyz-xmaster/VarifocalNet
在这里插入图片描述

Abstract:

对大量的候选检测进行准确排序对于优异表现的目标检测器来说非常重要。然而之前的研究工作使用分类得分或者与IOU-based定位得分联合起来作为排序的依据,它们都不能可靠地表示排序,这会损害检测性能。本文中,我们提出去学习IOU感知的分类得分(IACS),可以同时表示物体的存在置信度和定位精度,以在密集的物体检测器中产生更准确的检测排序。特别是,我们设计了一个新的损失函数,称为Varifocal损失,用于训练密集的物体检测器来预测IACS,并设计了一种新的高效星形边界框特征表示,用于估算IACS和改进粗略边界框。 结合这两个新组件和边界框优化分支,我们在FCOS架构上构建了一个新的密集目标检测器,我们简称VarifocalNet或VFNet。 在MS COCO基准上进行的大量实验表明,我们的VFNet始终超过具有不同主干的强大的基准2.0 AP,并且我们的Res2Net-101-DCN最佳模型在COCO测试开发上达到了51.3的单模型单尺度AP,实现了 各种物体检测器中的最好表现。

Introduction:

目标检测中NMS需要依据候选检测目标的排序来进行筛选框,因此这个排序的可靠性就非常重要。之前的工作主要采用IOU分支(IOU-Net)与Centerness得分(FCOS)来作为大量候选检测的排序依据。

然而,本文认为这些方法可以有效缓解分类得分和物体定位精度之间的不对齐问题。 但是,它们是次优解的,因为将两个不完善的预测相乘可能会导致排名依据变差,作者经过试验表明,通过这种方法实现的性能上限非常有限。 此外,增加一个额外的网络分支来预测定位分数并不是一个很好的解决方案,并且会带来额外的计算负担。

基于上述分析,作者提出:不采用预测一个额外的定位精确度得分(IOU-aware Centerness),而是将其merge进分类得分中。即预测一个可以同时代表目标存在和定位精度的定位感知或者IOU感知的分类得分。

在这里插入图片描述
因此,本文做出了以下贡献
1.提出了一个可以同时表示目标存在和定位精度感知(或者IOU感知) 的分类得分IACS,试验证明了这是一个更优的候选框排序依据。

2.提出了新的Varifocal loss函数,来训练密集物体检测器使IACS回归。

3.设计了一种新的高效星形边界框特征表示法,用于预测IACS得分并改进边界框。

4.提出了一种基于FCOS架构的新型密集目标检测器,并提出了名为VarifocalNet或VFNet的检测网络,以利用IACS的优势。

Motivation:

为了探索出候选框质量的排序依据和性能上限,本文以FCOS+ATSS为baseline,利用NMS之前的目标对应的gt真实值替换预测的分类得分,位置偏移和Centerness得分,并进行AP性能评估。 对于分类概率向量,有两种实现方法,在其gt标签位置的元素替换为一个1的数值,或者替换为预测框与gt框的IOU值。 除了gt真值之外,本文还考虑用gt IoU代替Centerness得分。

备注:这里的意思是假设不同的排序依据是绝对可靠的(使用gt),来探索究竟哪种依据带来的提升最大。
在这里插入图片描述
看一下具体实验结果:
1.baseline + centerness AP得分39.2
2.baseline + centerness替换为gt_centerness,39.2->41.1
3.baseline + centerness替换为gt_iou,39.2->43.5
这表明使用预测的IoU得分与分类得分的乘积对检测进行排序肯定无法带来显着的性能提升。centerness得分同样道理
4.baseline+gt_bbox,39.2->56.1,这里直接把所有的groudtruth bbox放进候选检测?不是很懂
5.baseline+gt_cls,即将gt位置的分类标签设置为1,这时候是否使用centerness将有明显区别,43.1 vs 58.1
6.baseline+gt_cls_iou,将于gt的iou替换为5中的gt_cls,作为分类得分。直接74.7AP,加上centerness反而会降低到67.4AP

以上实验对比,具有更高IOU的候选检测是高质量的检测结果,这些结果表明IOU感知的排序策略(IACS)是最有效的选择方案

VarifocalNet:

在这里插入图片描述
如上图所示,VarifocalNet以FCOS+ATSS(移除掉Centerness分支)为Base Net,新增了3个组成部分:Varifocal Loss, 星形边界框特征表示和边界框优化

解读一下head输出的3个分支

1.上面分支由中间回归出box的(l’,t’,r’,b’)进行星形box特征表征,然后经过卷积预测出box的4个距离缩放因子(deta-l, deta-t, deta-r, deta-b)

2.中间分支由特征图回归出box的(l’,t’,r’,b’),表示点(x,y)到左,上,右和下侧边界框的距离。然后由1中的缩放因子进行点乘进行Box优化

3.下面分支基于星形box特征表征,预测出IACS得分,并计算varifocal loss

A.Varifocal Loss

Focal loss定义:
在这里插入图片描述
其中a是前景背景的损失权重,p的y次是不同样本的权重,难分样本的损失权重会增大。当训练一个密集的物体检测器使连续的IACS回归时,本文从focal loss中借鉴了样本加权思想来解决类不平衡问题。 但是,与focal loss同等对待正负样本的损失不同,本文选择不对称地对待它们。varifocal loss定义如下:
在这里插入图片描述
其中p是预测的IACS得分,q是目标IoU分数。 对于训练中的正样本,将q设置为生成的bbox和gt box之间的IoU(gt IoU),而对于训练中的负样本,所有类别的训练目标q均为0。

备注:Varifocal Loss会预测Iou-aware Cls_score(IACS)与分类两个得分,通过p的y次来有效降低负样本损失的权重,正样本选择不降低权重。此外,通过q(Iou感知得分)来对Iou高的正样本损失加大权重,相当于将训练重点放在高质量的样本上面。
在这里插入图片描述
B.StarShaped Box Feature Representation

与以往的(x,y,w,h)的box特征表达区域不同,本文首先预测出由(l’,t’,r’,b’)编码的4D向量,这表示从位置(x,y)到左,上,右和下侧边界框的距离 。然后启发式地选择以下九个采样点:(x,y),(x-l’,y),(x,y-t’),(x + r’,y),(x,y + b’),(x-l’,y-t’),(x + l’,y-t’),(x-l’,y + b’)和(x + r’,y + b ')。 然后将这九个位置映射到特征图上,并通过可变形卷积对投影点处的特征进行卷积以表示边界框。 由于这些点是手动选择的,因此没有额外的预测负担,因此这种新的表示形式具有很高的计算效率。

这种有效的星形边界框特征表示法,用于预测IACS。 它使用9个固定采样点的特征(图1中的黄色圆圈)来表示具有可变形卷积的边界框。 这种新的表示形式可以捕获包围盒的几何信息及其附近的上下文信息,这对于编码预测的bbox与gt box之间的不对齐问题是至关重要的.

C.Bounding Box Refinement

对于最初回归的边界框(l’,t’,r’,b’),首先提取星形表示形式对其进行编码。 然后,我们学习四个距离缩放因子(deta-l, deta-t, deta-r, deta-b)来缩放距离矢量。

损失函数如图:
在这里插入图片描述

Experiments:

1.Ablation Study:
在这里插入图片描述
2.单阶段检测网络SOTA:
在这里插入图片描述
3.vfl:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42096202/article/details/108567189