CV目标检测面试必备RCNN系列1

目录

为什么还要学习Faster-RCNN?

前言

R-CNN

RCNN总结 

Fast-RCNN

ROI是什么(Faster-RCNN中也有,算是一个考点)


为什么还要学习Faster-RCNN?

最近准备CV实习,重新回顾RCNN系列,大部分朋友都认为Faster-RCNN时代已经成为历史,为什么要看Faster-RCNN,这不是浪费时间吗,我最初也是这么认为,但是实验室师兄在面试CV岗经常会遇到Faster-RCNN中的RPN网络结构,怎么训练,损失如何计算等等问题,虽然随着技术发展,Faster-RCNN在大部分公共数据集上的成绩并没有如今大火的YOLO,transformer分数高,但是包含了许多起初的知识点,能够让我们更好的去学习,熟话说,了解一门技术还是得熟悉它的历史。同时虽然Faster-RCNN得速度比不过YOLO等,但是它更稳定,所以在大部分工业依旧在使用。


前言

Faster-RCNN是由fast-RCNN、RCNN一步一步进化而来,他们都是two-stage算法(简单来说,就是需要提前生成候选框,然后再最后修正。并不像YOLO那样,直接对起初得9个anchor box预测得到最终结果),那必须得看看RCNN是个啥每个都改进了什么。

R-CNN

看图,简单来说,R-CNN分为四个步骤

1、使用Seletive Search生成1k~2k个可能包含物体的候选区域,Seletive Search啥意思呢,就是输入一张图片,通过每个颜色区域相似度、纹理特征圈成一个区域。所以就非常慢耗时。(个人认为可能面试会问)

2、得到这些个候选区域后,再映射到图片上,相当于1k~2k个小图片,由于每个框是不定大小的,导致图片尺寸是不同的,所以先进行缩放到统一大小227x227,再输入到CNN(AlexNet,作为提取特征功能)中,最后通过全连接输出作为特征。

3、将得到的1k~2k个特征输入到SVM当中进行二分类,比如一共20类,输出维度(2000x20)

4、使用一个全连接对这1k~2k的box进行修正位置

那么这么多的box都要吗?答案肯定否,怎么去处理,这里又是一个面试必考,NMS非极大值抑制,后面把代码拿出来单独再细讲。

RCNN总结 

1、缺点:以上就是RCNN的整体流程,通过这些也可以看出,速度缓慢,框得使用SS算法人工选,然后每张都使用Alexnet进行特征提取导致卷积重复大浪费资源,SVM训练慢,这些都是它的缺点,然而Fast-RCNN就出来了

2、优点:使用SS算法提高了准确度,在当时效果还是非常不错的。


Fast-RCNN

马不停蹄进入Fast了,名字可以看出,变快了

先看到Fast RCNN的网络结构,可以看出对比起RCNN差距还是很大的,其中最大不同就是有个RoI(Region of Interest)池化层,其次RCNN中SVM改成了全连接层。

整体流程就是依旧延用RCNN当中的Seletive Search筛选出2k个候选框,然后将图片输入到卷积网络当中得到特征图,在将候选框映射到特征图上,而RCNN是将候选框映射到原图后得到2k个小图片进行卷积这样就大大浪费计算资源。之后通过这2k个特征矩阵进行全连接得到最终的结果。

ROI是什么(Faster-RCNN中也有,算是一个考点)

就是将每个候选框对应到特征图上得到的2k个特征区域,将每个特征区域均匀分成M×N块(大代码中为7x7),对每个块进行max pooling。从而将特征图上大小不一的候选区域转变为大小统一的特征向量,送入下一层。为什么要统一,因为输入不统一,网络结构不能自适应处理。具体操作:

1、根据输入图像大小以及特征图大小的比值,对2k个候选框缩放,然后映射到feature map上,得到RoI。

2、对每个RoI进行池化操作,由于每个候选框大小是有差异的,所以RoI是不同的,需要进行大小相同处理。如划分为MxN块,然后对每一块进行MaxPooling,就是取最大值,看如下动态图,这里是划分为(2x2)

最后看到论文给出的整体流程图就比较简单了。将RCNN中的SVM替换成全连接层。损失的计算也是不同的。

其中使用Smooth损失是为了x=0时导数存在,梯度平滑。其中分类损失使用SoftMax。预测的真实box为偏移量,通过如下的计算方式求得每个box的真实xywh。

总结:

Fast-RCNN还是有很大的改进,并且速度提升了很多,但是由于SS算法人工采取候选框,依旧非常慢,Faster-Rcnn对其进一步改进


由于Faster-RCNN改进点比较多,放在一起显得有些许臃肿,放在下篇文章。

参考博客:

(10条消息) 【深度学习】Two-Stage目标检测算法_MangoloD的博客-CSDN博客_两阶段目标检测算法

猜你喜欢

转载自blog.csdn.net/weixin_44711102/article/details/129249727