【Sparse R-CNN】《Sparse R-CNN:End-to-End Object Detection with Learnable Proposals》

在这里插入图片描述

arXiv-2020

作者的博客:Sparse R-CNN



1 Background and Motivation

在这里插入图片描述

现有目标检测方法的缺点

  • 大量 redundant and near-duplicate result,需要 NMS post-processing
  • many-to-one label assignment problem in training makes the network sensitive to heuristic assign(预测的结果用哪个标签来监督最好)
  • 最终的结果受 aspect ratios and anchor boxes, density of reference points,proposal generation algorithm 的影响较大

候选区域太 dense 了,Is it possible to design a sparse detector?

《End-to-End Object Detection with Transformers》(DETR)把目标检测重新定义为直接稀疏集合预测问题,它的输入仅仅100个学习的目标队列,最后的输出没有任何人工设计的后处理过程。

sparse 了很多

但是 DETR 仍然要求每个目标队列和全局图像上下文环境进行交互(self-attention),sparse 的不够彻底

作者受 DETR 的启发,提出 Sparse R-CNN,旨在开创一个 sparse 的目标检测 pipeline

2 Related Work

  • Dense method
    one-stage
  • Dense-to-sparse method
    two-stage
  • Sparse method
    G-CNN

3 Advantages / Contributions

在这里插入图片描述

建立了超级 Sparse 的目标检测框架,

无需 anchor box,reference point,RPN,NMS 等,在 COCO 上实现了 44.5 AP和 22 FPS

4 Method

在这里插入图片描述
不同于 anchor 和 density of reference points,作者采用固定 N 个 learnable proposal(N = 100个,边界框坐标用 4 dimension 表示,center 和 h w)作为候选区域,经 RoI pooling,配合设计提出的 Dynamic Head 模块迭代地进行特征增强,最后分类回归

1)learnable proposal box

取代 two-stage 的 anchor 和 one-stage 的 density of reference points

作者采用固定 N 个 learnable proposal(N = 100个,边界框坐标用 4 dimension 表示,center 和 h w)

虽然4-dbbox用简短和明确的表达来描述对象,但是它仅仅提供了一个目标粗糙的定位,许多细节的信息都已经丢失了,比如目标姿态和形状。本文提出一个 proposal feature,它是一个高维度的隐式向量,期望她被编码成丰富的实例特征。proposal features的数量和boxes是一样的。

2)learnable proposal feature

特征进一步增强
在这里插入图片描述

包含在图3 的动态头结构中

细节就是,proposal feature 相当于 1 ∗ 1 1*1 11 conv(也可以是其它 kernel size,但 1 ∗ 1 1*1 11 计算代价最小) 作用在 RoI pooling 后的特征图上,进行特征增强

learnable proposal feature 它是一个高维度的隐式向量,设计出来是希望它被编码成丰富的实例特征

3)Dynamic instance interactive head

Fig 4 的过程会迭代很多次,类似于 cascade rcnn,不过迭代更加灵活,细节可以参考实验部分和作者的解答

在这里插入图片描述

作者最好的结果迭代了 6 次

4)Set prediction loss

和 DERT 一样,采用的 bipartite matching loss

在这里插入图片描述

目的是解决 many-to-one label assignment problem

在这里插入图片描述
来自 End-to-End Object Detection with Transformers论文阅读笔记

理论基础是二分图匹配问题,经典的解决算法是匈牙利算法

5 Experiments

在这里插入图片描述

效果图

在这里插入图片描述

6 Conclusion(own) / Future work

猜你喜欢

转载自blog.csdn.net/bryant_meng/article/details/111648083