【Sparse R-CNN】《Sparse R-CNN：End-to-End Object Detection with Learnable Proposals》

其他 2021-10-08 21:46:22 阅读次数: 0

在这里插入图片描述

arXiv-2020

作者的博客：Sparse R-CNN

文章目录

1 Background and Motivation
2 Related Work
3 Advantages / Contributions
4 Method
5 Experiments
6 Conclusion（own） / Future work

1 Background and Motivation

在这里插入图片描述

现有目标检测方法的缺点

大量 redundant and near-duplicate result，需要 NMS post-processing
many-to-one label assignment problem in training makes the network sensitive to heuristic assign（预测的结果用哪个标签来监督最好）
最终的结果受 aspect ratios and anchor boxes， density of reference points，proposal generation algorithm 的影响较大

候选区域太 dense 了，Is it possible to design a sparse detector？

《End-to-End Object Detection with Transformers》（DETR）把目标检测重新定义为直接稀疏集合预测问题，它的输入仅仅100个学习的目标队列，最后的输出没有任何人工设计的后处理过程。

sparse 了很多

但是 DETR 仍然要求每个目标队列和全局图像上下文环境进行交互（self-attention），sparse 的不够彻底

作者受 DETR 的启发，提出 Sparse R-CNN，旨在开创一个 sparse 的目标检测 pipeline

2 Related Work

Dense method
one-stage
Dense-to-sparse method
two-stage
Sparse method
G-CNN

3 Advantages / Contributions

在这里插入图片描述

建立了超级 Sparse 的目标检测框架，

无需 anchor box，reference point，RPN，NMS 等，在 COCO 上实现了 44.5 AP和 22 FPS

4 Method

在这里插入图片描述
不同于 anchor 和 density of reference points，作者采用固定 N 个 learnable proposal（N = 100个，边界框坐标用 4 dimension 表示，center 和 h w）作为候选区域，经 RoI pooling，配合设计提出的 Dynamic Head 模块迭代地进行特征增强，最后分类回归

1）learnable proposal box

取代 two-stage 的 anchor 和 one-stage 的 density of reference points

作者采用固定 N 个 learnable proposal（N = 100个，边界框坐标用 4 dimension 表示，center 和 h w）

虽然4-dbbox用简短和明确的表达来描述对象，但是它仅仅提供了一个目标粗糙的定位，许多细节的信息都已经丢失了，比如目标姿态和形状。本文提出一个 proposal feature，它是一个高维度的隐式向量，期望她被编码成丰富的实例特征。proposal features的数量和boxes是一样的。

2）learnable proposal feature

特征进一步增强
在这里插入图片描述

包含在图3 的动态头结构中

细节就是，proposal feature 相当于 $1 * 1$ conv（也可以是其它 kernel size，但 $1 * 1$ 计算代价最小）作用在 RoI pooling 后的特征图上，进行特征增强

learnable proposal feature 它是一个高维度的隐式向量，设计出来是希望它被编码成丰富的实例特征

3）Dynamic instance interactive head

Fig 4 的过程会迭代很多次，类似于 cascade rcnn，不过迭代更加灵活，细节可以参考实验部分和作者的解答

在这里插入图片描述

作者最好的结果迭代了 6 次

4）Set prediction loss

和 DERT 一样，采用的 bipartite matching loss，

在这里插入图片描述

目的是解决 many-to-one label assignment problem

在这里插入图片描述
来自 End-to-End Object Detection with Transformers论文阅读笔记

理论基础是二分图匹配问题，经典的解决算法是匈牙利算法！

5 Experiments

在这里插入图片描述

效果图

在这里插入图片描述

6 Conclusion（own） / Future work

image query 感觉和 Sparse RCNN 中的 proposal feat 很像
来自 End-to-End Object Detection with Transformers论文阅读笔记
proposal feat 可以当成 1x1 kernel

猜你喜欢

转载自blog.csdn.net/bryant_meng/article/details/111648083

[Sparse R-CNN]Sparse R-CNN: End-to-End Object Detection with Learnable Proposals笔记

【Sparse R-CNN】《Sparse R-CNN：End-to-End Object Detection with Learnable Proposals》

目标检测 - Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

[Sparse R-cnn]前置知识

Sparse R-CNN 论文精读

Sparse R-CNN细节剖析

从工程上彻底掌握Sparse R-CNN结构

Oriented R-CNN for Object Detection(定向R-CNN的目标检测)

Tensorflow Object Detection之Mask R-CNN

深度学习目标检测(object detection)系列R-CNN

【Object Detection】【RCNN】R-CNN代码复现笔记

【Object Detection】【RCNN】R-CNN论文阅读笔记

Object Detection网络框架学习:R-CNN

Cascade R-CNN: Delving into High Quality Object Detection

目标检测(Object Detection)3--Faster R-CNN

目标检测(Object Detection)2--Fast R-CNN

复现Oriented R-CNN for Object Detection(orientedRcnn)

Fater R-CNN 《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》论文笔记

《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》论文阅读之Faster R-CNN

Faster R-CNN论文详读（Faster R-CNN Towards Real-Time Object Detection with Region Proposal Networks）

Object Detection 之两阶段检测方法：R-CNN, SPPnet, Fast R-CNN, Faster R-CNN, FPN, RFCN (03)

Object detection: speed and accuracy comparison (Faster R-CNN, R-FCN, SSD and YOLO)

Progressive Sparse Local Attention for Video object detection

CVPR 2022 | 涨点显著！AMD提出：动态Sparse R-CNN

Face Paper：Cascade R-CNN: Delving into High Quality Object Detection解读

深度学习目标检测(object detection)系列（四） Faster R-CNN

深度学习目标检测(object detection)系列（三） Fast R-CNN

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Face Paper：Cascade R-CNN: Delving into High Quality Object Detection

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)