Cascade R-CNN论文笔记

1 简介

本文依据《Cascade R-CNN: Delving into High Quality Object Detection》翻译总结。Cascade R-CNN探究高质量物体检测。

物体检测有两种方法，一种是单步的，像YOLO、SSD是单步物体识别模型。还有一种是两步的，如R-CNN系列。

对于R-CNN物体检测方法，分为两步，第一步是proposal检测者（detector），产生假设（hypothesis）/box，第二步是region-wise检测者（detector）/分类器。

其中，IoU（intersection over union）阈值用来区分正的或负的box。采用0.5阈值的话，通常会产生噪声检测。但是如果增加阈值，又倾向于降低检测的能力，有两个原因吧，一是因为指数级别消失的正样本导致训练中的过拟合，二是预测时IoU（region-wise检测者对于该IoU是最优的）与输入假设间的不匹配。

如下图a，阈值u=0.5时会检测出来多余的box。但这些多余的box也许也富含丰富的信息。

一个单独的region-wise检测者仅在一个单独的质量水平上是最优的。高质量的region-wise检测者仅仅对高质量的假设hypothesis是最优的，当它们在其他质量水平上的假设hypothesis进行工作时，其可能是次优的。如下图c、d，0.5阈值的region-wise检测者（detector）对低IoU输入有较好的检测能力；0.7阈值的region-wise检测者（detector）对高IoU输入有较好的检测能力
在这里插入图片描述

Cascade R-CNN就是为了克服上面问题提出的，它包括一系列递增IoU阈值的检测者（detector）。

2 物体检测

本文主要是扩展两步检测模型Fast R-CNN。如下图，H0是proposal 子网络，产生检测假设hypothesis，即object proposal。H1是第二步，对第一步的假设hypothesis进行处理，是对region感兴趣的子网络。最后的C、B分别是分类分数(classification score)、bounding box。

在这里插入图片描述