Fast RCNN论文总结

1. Region Proposal (候选区域)方法比传统的滑动窗口方法获取的质量要更高。

比较常用的Region Proposal方法有：SelectiveSearch(SS，选择性搜索)、Edge Boxes（EB）。

2. Fast RCNN 目标检测流程

第一步，将这个完整的图片经过若干卷积层与max pooling层，得到一个feature map。

第二步，用selective search算法从这完整的图片中提取出object proposals，即RoI。

第三步，根据映射关系，可以得到每个object proposal对应的feature map。

第四步，将第三步得到的feature map经过RoI pooling layer得到固定大小的feature map（变小了）。

第五步，经过2层全连接层（fc），得到固定大小的RoI特征向量。

第六步，特征向量经由各自的FC层，得到两个输出向量：第一个是分类，使用softmax，第二个是每一类的bounding box回归。

3. Fast RCNN 框架

4. Fast RCNN的优点

（1）比RCNN、SPPnet有更高的准确率（mAP）

（2）训练是单阶段的，使用多任务损失（multi-task loss）

（3）在训练阶段可以更新所有的网络层（SPPnet只能更新FC层，限制的mAP）

（4）对于特征缓存，不需要磁盘存储

5. RoI pooling layer

作用：（1）将image中的rol定位到feature map中对应patch

（2）将这个feature map patch下采样为大小固定的feature再传入全连接层

6. multi-task loss

有两个损失：分类loss（Lcls），是一个N+1路的softmax输出，其中的N是类别个数，1是背景；

回归loss（Lloc），是一个4xN路输出的regressor，也就是说对于每个类别都会训练一个单独的regressor。

论文中=1，用于调整2个损失之间的平衡；

当图片是背景时：k*=0 → [k* ≥ 1]=0

当图片不是背景时：k*≥ 0 → [k* ≥ 1]=1

这里regressor的loss不是L2的，而是一个平滑的L1（预防梯度爆炸），如下公式：

7. 设计评估

（1）multi-task training 效果更好

（2）图像单一尺寸与多个尺寸效果相似

（3）更多的数据能够显著提升效果（论文中数据增强方法：50%概率进行水平翻转）

（4）不能盲目增加propsals数量，有可能导致mAP下降

（5）没有必要对所有的conv层进行finetune