CV目标检测面试必备RCNN系列1

为什么还要学习Faster-RCNN？

最近准备CV实习，重新回顾RCNN系列，大部分朋友都认为Faster-RCNN时代已经成为历史，为什么要看Faster-RCNN，这不是浪费时间吗，我最初也是这么认为，但是实验室师兄在面试CV岗经常会遇到Faster-RCNN中的RPN网络结构，怎么训练，损失如何计算等等问题，虽然随着技术发展，Faster-RCNN在大部分公共数据集上的成绩并没有如今大火的YOLO，transformer分数高，但是包含了许多起初的知识点，能够让我们更好的去学习，熟话说，了解一门技术还是得熟悉它的历史。同时虽然Faster-RCNN得速度比不过YOLO等，但是它更稳定，所以在大部分工业依旧在使用。

前言

Faster-RCNN是由fast-RCNN、RCNN一步一步进化而来，他们都是two-stage算法（简单来说，就是需要提前生成候选框，然后再最后修正。并不像YOLO那样，直接对起初得9个anchor box预测得到最终结果），那必须得看看RCNN是个啥每个都改进了什么。

R-CNN

看图，简单来说，R-CNN分为四个步骤

1、使用Seletive Search生成1k~2k个可能包含物体的候选区域，Seletive Search啥意思呢，就是输入一张图片，通过每个颜色区域相似度、纹理特征圈成一个区域。所以就非常慢耗时。（个人认为可能面试会问）

2、得到这些个候选区域后，再映射到图片上，相当于1k~2k个小图片，由于每个框是不定大小的，导致图片尺寸是不同的，所以先进行缩放到统一大小227x227，再输入到CNN（AlexNet，作为提取特征功能）中，最后通过全连接输出作为特征。

3、将得到的1k~2k个特征输入到SVM当中进行二分类，比如一共20类，输出维度（2000x20）

4、使用一个全连接对这1k~2k的box进行修正位置

那么这么多的box都要吗？答案肯定否，怎么去处理，这里又是一个面试必考，NMS非极大值抑制，后面把代码拿出来单独再细讲。

RCNN总结

1、缺点：以上就是RCNN的整体流程，通过这些也可以看出，速度缓慢，框得使用SS算法人工选，然后每张都使用Alexnet进行特征提取导致卷积重复大浪费资源，SVM训练慢，这些都是它的缺点，然而Fast-RCNN就出来了

2、优点：使用SS算法提高了准确度，在当时效果还是非常不错的。

Fast-RCNN

马不停蹄进入Fast了，名字可以看出，变快了

先看到Fast RCNN的网络结构，可以看出对比起RCNN差距还是很大的，其中最大不同就是有个RoI（Region of Interest）池化层，其次RCNN中SVM改成了全连接层。

整体流程就是依旧延用RCNN当中的Seletive Search筛选出2k个候选框，然后将图片输入到卷积网络当中得到特征图，在将候选框映射到特征图上，而RCNN是将候选框映射到原图后得到2k个小图片进行卷积这样就大大浪费计算资源。之后通过这2k个特征矩阵进行全连接得到最终的结果。

ROI是什么（Faster-RCNN中也有，算是一个考点）

就是将每个候选框对应到特征图上得到的2k个特征区域，将每个特征区域均匀分成M×N块（大代码中为7x7），对每个块进行max pooling。从而将特征图上大小不一的候选区域转变为大小统一的特征向量，送入下一层。为什么要统一，因为输入不统一，网络结构不能自适应处理。具体操作：

1、根据输入图像大小以及特征图大小的比值，对2k个候选框缩放，然后映射到feature map上，得到RoI。

2、对每个RoI进行池化操作，由于每个候选框大小是有差异的，所以RoI是不同的，需要进行大小相同处理。如划分为MxN块，然后对每一块进行MaxPooling，就是取最大值，看如下动态图，这里是划分为（2x2）

最后看到论文给出的整体流程图就比较简单了。将RCNN中的SVM替换成全连接层。损失的计算也是不同的。

其中使用Smooth损失是为了x=0时导数存在，梯度平滑。其中分类损失使用SoftMax。预测的真实box为偏移量，通过如下的计算方式求得每个box的真实xywh。

总结：

Fast-RCNN还是有很大的改进，并且速度提升了很多，但是由于SS算法人工采取候选框，依旧非常慢，Faster-Rcnn对其进一步改进

由于Faster-RCNN改进点比较多，放在一起显得有些许臃肿，放在下篇文章。

参考博客：

(10条消息) 【深度学习】Two-Stage目标检测算法_MangoloD的博客-CSDN博客_两阶段目标检测算法