论文阅读: R-CNN

Introduction

R-CNN提出于2013年11月。

R-CNN不是第一个提出“将检测任务转换为分类任务”，但却是第一个真正实现了该思想的算法：
这里写图片描述

其本质上主要解决了两大问题：

如何location；
如何在缺少检测专用数据集的情况下实现检测任务。

R-CNN对此提出了解决方案：

对于第一个问题，R-CNN中指出，Detection中最大的难关在于location。之前已经有人将location定义为regression问题了，但是效果并不好。如果要是采用在滑窗中进行location regression，技术难度又大。那咋办呢？别急，R-CNN就给出了解决方法：改成 对region proposal进行location regression 即可。并设计了如下的location regression计算公式：
对于第二个问题，在train阶段，R-CNN先于ILSVRC2012数据集上预训练好，并直接在VOC2007或ILSVRC2013数据集上进行fine-tune；在test阶段，使用Selective Search进行RP生成，随后在resize成统一大小的RP上进行测试。该设计把train阶段和test阶段完美地统一了起来，很好地缓解了由于检测专用数据集缺少数据量的问题。

R-CNN思路如下：
1. R-CNN首先采用Selective Search来生成RP (每张生成约2k个) ；
2. 并很自然地想到了将所有RP resize成统一大小 (227×227)：
这里写图片描述
3. 将resize后的RP分别喂入分类网络 (论文中用的是简化版的AlexNet，即去掉了AlexNet倒二的fc层) ；
4. 后面接着 $k+1$ (前景+背景)个二分类的SVM，等着对卷积网络输出的特征tensor进行分类；
5. 对分类结果采用NMS进行一波“去重运动”；
6. 把所分tag归属为非背景的所有RP送入 $k$ (前景)个location regressor，这时候只需要单独对RP区域进行location regression即可。