深度学习系列之 Fast R-CNN 个人总结

一、R-CNN的缺点

1. 训练流程比较分散：第一个阶段R-CNN从图像中提取大量的proposal，将每个proposal warp后通过CNN提取特征。第二个阶段用SVM分类器进行分类。第三个阶段才用回归器进行回归。

Fast R-CNN则是一套端对端的流程，single stage且multi-task并行。

2.训练速度慢且所需空间大：对于分类器和回归器，通过CNN提取的特征需要存储在硬盘上。对于一个大型网络，如VGG16，需要大量的硬盘空间。并且分类器和回归器需要这些特征作为训练样本，在硬盘上大量数据的读写会造成训练速度变慢。

Fast R-CNN所有的特征都暂存在显存中，直接投入分类器和回归器，就不需要额外的存储。

3.检测速度慢：由于特征向量是从每个proposal中提取的，而这些proposal之间大量重叠，特征值之间完全可以共享，造成了运算的浪费。

Fast R-CNN将整张图片直接投入CNN，在第5层 conv feature map上提取RoI。使之前的CNN运算得以共享。

二、Fast R-CNN

这里写图片描述
训练流程如下：

1.首先利用selective search生成region proposal，一张图大约2k个。

2.将整张图片输入CNN，进行特征提取

3.将image上的region proposal映射到最后一层conv feature map上(具体怎样的映射关系paper中没给出)，即conv feature map上的RoI

4.通过RoI pooling layer使RoI生成固定的feature map，经过两个FC层，转化为4096维的特征向量

5.利用softmax loss和 Smooth L1 loss对分类概率和bbox regression进行参数的更新。(详细见后面：四、fine-tuning)

检测流程如下：

接训练过程的第4步。

5.将特征向量送入softmax，对(C+1)类进行可能性评估

6.用smooth L1 loss对box进行回归

7.用box回归值校正原来的proposal，生成预测窗口坐标

三、RoI pooling layer

这是fast R-CNN一个特色鲜明的地方。
我们知道，RoI是大小、尺度不一的，如何经过处理，得到尺寸固定的feature map呢？
这里写图片描述
如图，黑框为conv feature map，红框为RoI。

RoI pooling layer将每个RoI均匀分成M x N块，对每块进行max pooling。如图上的3x3，max pooling后两个RoI的大小就统一了。

然后就可以利用FC层得到4096维的特征向量。

用一个预训练好的网络对fast R-CNN进行初始化需要做以下修改：
1.用RoI pooling layer取代最后一层max pooling layer
2.用softmax和regressor取代softmax或SVM
3.input数据有变化：变为一组图片和每张图片对应的region proposal