Faster-RCNN的一些记录。

Faster-RCNN详解

Ross B. Girshick的论文《Faster R-CNN: Towards Real-Time ObjectDetection with Region Proposal Networks》

主要解决两个问题：

1、提出区域建议网络RPN，快速生成候选区域；

2、通过交替训练，使RPN和Fast-RCNN网络共享参数。

另外Faster RCN已经将特征抽取(feature extraction)，proposal提取（RPN），bounding box regression，classification都整合在了一个网络中，使得综合性能有较大提高，在检测速度方面尤为明显

1、RPN网络

RPN网络的作用是输入一张图像，输出一批矩形候选区域，类似于Selective Search的作用，网络结构是卷积神经网络，输出时包含softmax二类分类器（是否是候选框）和bbox回归得出候选边界框的位置的四个参数（box的中心坐标xy和box长h宽w），

2、anchor机制

anchor是rpn网络的核心，RPN网络需要确定每个滑窗中心对应感受野内存在目标与否，但是由于目标大小和长宽比例不一，需要多个尺度的窗。所以Anchor正是给出一个基准窗大小，可以按照倍数和长宽比例可以得到不同大小的窗，论文中基准窗大小为16，给了（8、16、32）三种倍数和（0.5、1、2）三种比例，这样能够得到一共9种尺度的anchor。

例如：在对60*40的特征图map进行滑窗时，以中心像素为基点构造9种anchor映射到原来的1000*600图像中，映射比例为16倍。那么总共可以得到60*40*9大约2万个anchor。

3、训练

对于分类器，采anchor是否有目标，用了这样的规则判断：1）假如某anchor与任一目标区域的IoU最大，则该anchor判定为有目标；2）假如某anchor与任一目标区域的IoU>0.7，则判定为有目标；3）假如某anchor与任一目标区域的IoU<0.3，则判定为背景。

所谓IoU，就是预测box和真实box的覆盖率，其值等于两个box的交集除以两个box的并集。其它的anchor不参与训练。

对于回归器：判定为有目标的anchor，并将其标注的坐标作为ground truth

代价函数为：

代价函数分为两部分，前边对应anchor中是否有目标的分类误差，后边对应bbox回归误差。

4、联合训练

1）单独训练RPN网络，网络参数由预训练模型载入；

2）单独训练Fast-RCNN网络，将第一步RPN的输出候选区域作为检测网络的输入。具体而言，RPN输出一个候选框，通过候选框截取原图像，并将截取后的图像通过几次conv-pool，然后再通过roi-pooling和fc再输出两条支路，一条是目标分类softmax，另一条是bbox回归。截止到现在，两个网络并没有共享参数，只是分开训练了；

3）再次训练RPN，此时固定网络公共部分的参数，只更新RPN独有部分的参数；

4）那RPN的结果再次微调Fast-RCNN网络，固定网络公共部分的参数，只更新Fast-RCNN独有部分的参数。

5、其他理解

从上图来看：
1） Faster RCNN首先使用一组基础conv layer(conv+relu+pooling层)提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。

2) RPN（Region Proposal Networks）。RPN网络用于生成region proposals。该层通过softmax判断anchors属于foreground或者background，再利用bounding box regression修正anchors的位置，最终获得精确位置的region proposals（候选框）。

3）RoI Pooling。输入的feature maps和候选框（region proposals），综合这些信息后提取proposal feature maps，送入后面全连接层判定目标类别。

4）Classification and regression。利用proposal feature maps计算region proposal中物体的类别，同时再次bounding box regression获得检测框最终的精确位置。

6、其他理解

I是输入图像，conv是卷积层，H是network head，C使classification即Softmax二分类anchor中是否有目标，B是Bbox回归得到候选框，pool是ROI Pooling

7、其他概念

bounding box regression：对定位不准的边界框进行微调，即寻找一种映射关系是定位不准的边界框经过映射后得到跟ground true接近的边界框。

RPN步骤：生成anchors -> softmax分类器提取fg anchors -> bbox reg回归fg anchors -> Proposal Layer过滤得到最终的proposal boxs

多通道卷积：对多通道图像做1x1卷积，其实就是将输入图像于每个通道乘以卷积系数后加在一起，即相当于把原图像中本来各个独立的通道“联通”在了一起。

Faster-RCNN的一些记录。

猜你喜欢