[ATSS]Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample

image-20210216203859655

1. Motivation

​ anchor-based method(RetinaNet)和 anchor-free method(FCOS)的主要差异体现在以下4点:

  • The number of anchors tiled per location.

  • The definition of positive and negative samples.

  • The regression starting status.

    而目前FCOS的实验结果会比RetinaNet好,因此在这三个差异中,哪一点是造成这2个detectors的性能gap的主要因素值得研究。

In this paper, we first point out that the essential difference between anchor-based and anchor-free detection is actually how to define positive and negative training samples, which leads to the performance gap be- tween them.

​ 在本文中,作者调查了anchor-based和anchor-free2种目标检测方法在精度上的的差异。通过排除2种方法在实现上不一致的地方,可以得出结论,2种方法在性能上的gap来源于正负样本的定义。

​ 如何更好的制定正负样本值得进一步的研究,基于此动机,本文提出了自适应训练样本选择器(ATSS),基于物体的特征来自动的选择正负样本。

Then, we propose an Adaptive Training Sample Selection (ATSS) to automatically select positive and negative samples according to statistical characteristics of object.

2. Contribution

本文的主要贡献可以可以总结为以下4点:

  • 实验表明,anchor-based和anchor-free detectors的差异性主要是源于正负样本的制定上。
  • 提出了ATSS方法,根据物体的statistical characteristics,来自动选择正负样本。
  • 展示了在图片的每个location上制定多个anchors是一个无用的操作。
  • 在没有添加额外的开支的情况下,在MS COCO数据集上的实验达到了SOTA。

3. Difference Analysis of Anchor-based and Anchor-free Detection

​ 在本章节中,作者关注于正负样本的制定以及回归的起始状态这2个差异,在RetinaNet上对于每一个location只制定一个anchor。

3.1 Experiment Setting

  • 数据集采用MS COCO

  • Inference Detail

    总结一下:首先,resize图片大小和和训练过程中保持一致,接着forward操作,输出带有预测类别的bbox。接着,使用0.05的scores来首选排除大量的背景的候选框(注意,通过FCOS中代码发现,这里的scores并不是每一个location上对于80个class预测中最大的socres,即不是每一个locations只比较max scores,而是每个locations所有的scores进行过滤,如果大于0.05就保留),并且在每一个FPN层中挑选得分最高的1000的候选框,最后在使用NMS,对于每一个class采用阈值为0.6进行最后的过滤,在每张图片上挑选最好的100个候选框。

3.2 Inconsistency Removal

​ 如表1所示,如果在RetinaNet上只制定一个anchor,那么效果是非常差的,AP只有32.5,通过加入多个imporvements,可以将精度提升至37.0,但还是和FCOS有0.8的差距。

image-20210216225149614

3.3 Essential Difference

​ 在应用了所有的improvements,RetinaNet和FCOS只有2处不同,第一处不同是分类子任务,第二点是回归子任务。

  • Classification
image-20210216230234670
图1 RetinaNet和FCOS对于正负样本的定义

​ RetinaNet是根据IOU来进行判断正负样本,当anchor和gt的IOU大于阈值 θ p \theta_p θp时,将anchor当做为正样本;当anchor和gt的IOY小于阈值 θ n \theta_n θn,将此anchor当做为负样本。而FCOS则是使用了spatial(如果anchor point位于gt的center region)和scale(FPN上对于根据scale range将候选框制定在某一层上)的双重约束。

​ FCOS first uses the spatial constraint to find candidate positives in the spatial dimension, then uses the scale constraint to select final positives in the scale dimension.

​ In contrast, RetinaNet utilizes IoU to directly select the final positives in the spatial and scale di- mension simultaneously. These

​ 如表2所示,对于RetinaNet,如果将IOU策略替换为Spatial and Scale Constraint策略,这就使得其AP从37.0%提升37.8%。而对于FCOS,如果使用IOU的策略,会使得其AP从37.8%降到36.9%。

image-20210216230209317
  • Regression

    如图2所示,FCOS回归anchor point的4个距离(L,T,R,B),而RetinaNet则是回归anchor box的四个偏移量offsets。

image-20210216230130865

4. Adaptive Training Sample Selection

image-20210219153121349

猜你喜欢

转载自blog.csdn.net/weixin_43823854/article/details/114094339