04 Faster R-CNN

一、框架

FASTER -RCNN:

(1)输入图像；

(2)将整张图片输入CNN，进行特征提取；

(3)用RPN生成建议窗口(proposals)，每张图片生成300个建议窗口；

(4)把建议窗口映射到CNN的最后一层卷积feature map上；

(5)通过RoI pooling层使每个RoI生成固定尺寸的feature map；

(6)利用Softmax Loss(探测分类概率) 和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练.

相比FASTER-RCNN，主要两处不同:

(1)使用RPN(Region Proposal Network)代替原来的Selective Search方法产生建议窗口；

(2)产生建议窗口的CNN和目标检测的CNN共享

二、Region Proposal Network（RPN）

算法过程：

（1）用256个3*3卷积核，去卷积feature map（3*3*256），每一个位置可以得到256 channel的输出，注意feature map上的一个点代表原图的一个区域，而这里3*3的卷积核卷积出来的256维也代表了原图的一个区域（比如20*20）；

（2）那其实我们可以直接对这256维进行学习，但是这样每个点一个region proposal太少太粗糙了，我们现在不止要用256维学习3*3卷积对应原图的20*20的区域，而是要以此区域中心点为中心学习多个不同尺度不同长宽比例的区域，而不同尺度和不同长度的区域-proposal称之成为anchor；

（3）文章设定的k=9个anchor，每个anchor对应原图的一个区域，我们要学习这个区域的分类（2分类前景/背景）和框回归微调（4个x,y,w,h），如fast rcnn，这是两个Loss，每个anchor分类有2个输出，回归有4个输出，一共k个anchor，即一共2k和分类score和4k各回归坐标；（详见fast rcnn的训练过程）

文章使用的9个anchor分别是三个面积尺寸（128^2，256^2，512^2）*三种不同的长宽比例（1:1,1:2,2:1），如下图，anchor的大小跟需要检测的物体大小有关；

待续。。。

一、框架

猜你喜欢