Faster-RCNN的一些记录。

版权声明:本文为fourierr原创文章,未经博主fourier允许不得转载。 https://blog.csdn.net/qq_34562093/article/details/81566417

Faster-RCNN详解

Ross B. Girshick的论文《Faster R-CNN: Towards Real-Time ObjectDetection with Region Proposal Networks

主要解决两个问题:

1、提出区域建议网络RPN,快速生成候选区域;

2、通过交替训练,使RPNFast-RCNN网络共享参数。

另外Faster RCN已经将特征抽取(feature extraction)proposal提取(RPN),bounding box regressionclassification都整合在了一个网络中,使得综合性能有较大提高,在检测速度方面尤为明显

 

1RPN网络

RPN网络的作用是输入一张图像,输出一批矩形候选区域,类似于Selective Search的作用,网络结构是卷积神经网络,输出时包含softmax二类分类器(是否是候选框)和bbox回归得出候选边界框的位置的四个参数(box的中心坐标xyboxhw),

 

2anchor机制

anchorrpn网络的核心RPN网络需要确定每个滑窗中心对应感受野内存在目标与否,但是由于目标大小和长宽比例不一,需要多个尺度的窗。所以Anchor正是给出一个基准窗大小,可以按照倍数和长宽比例可以得到不同大小的窗,论文中基准窗大小为16,给了(81632)三种倍数和(0.512)三种比例,这样能够得到一共9种尺度的anchor

例如:在对60*40的特征图map进行滑窗时,以中心像素为基点构造9anchor映射到原来的1000*600图像中,映射比例为16倍。那么总共可以得到60*40*9大约2万个anchor

3、训练

对于分类器,采anchor是否有目标,用了这样的规则判断:1)假如某anchor与任一目标区域的IoU最大,则该anchor判定为有目标;2)假如某anchor与任一目标区域的IoU>0.7,则判定为有目标;3)假如某anchor与任一目标区域的IoU<0.3,则判定为背景。

所谓IoU,就是预测box和真实box的覆盖率,其值等于两个box的交集除以两个box的并集。其它的anchor不参与训练

对于回归器:判定为有目标的anchor,并将其标注的坐标作为ground truth

代价函数为:

代价函数分为两部分,前边对应anchor中是否有目标的分类误差,后边对应bbox回归误差。

4、联合训练

1 单独训练RPN网络,网络参数由预训练模型载入;

2 单独训练Fast-RCNN网络,将第一步RPN的输出候选区域作为检测网络的输入。具体而言,RPN输出一个候选框,通过候选框截取原图像,并将截取后的图像通过几次conv-pool,然后再通过roi-poolingfc再输出两条支路,一条是目标分类softmax,另一条是bbox回归。截止到现在,两个网络并没有共享参数,只是分开训练了;

3 再次训练RPN,此时固定网络公共部分的参数,只更新RPN独有部分的参数;

4 RPN的结果再次微调Fast-RCNN网络,固定网络公共部分的参数,只更新Fast-RCNN独有部分的参数。

5、其他理解

从上图来看:
1 Faster RCNN首先使用一组基础conv layer(conv+relu+pooling)提取imagefeature maps。该feature maps被共享用于后续RPN层和全连接层。

2) RPNRegion Proposal Networks)。RPN网络用于生成region proposals。该层通过softmax判断anchors属于foreground或者background,再利用bounding box regression修正anchors的位置,最终获得精确位置的region proposals(候选框)。

3RoI Pooling。输入的feature maps和候选框(region proposals),综合这些信息后提取proposal feature maps,送入后面全连接层判定目标类别

4Classification and regression。利用proposal feature maps计算region proposal中物体的类别,同时再次bounding box regression获得检测框最终的精确位置

6、其他理解

I是输入图像,conv是卷积层,Hnetwork headC使classificationSoftmax二分类anchor中是否有目标,BBbox回归得到候选框,poolROI Pooling

7、其他概念

bounding box regression:对定位不准的边界框进行微调,即寻找一种映射关系是定位不准的边界框经过映射后得到跟ground true接近的边界框。

RPN步骤:生成anchors -> softmax分类器提取fg anchors -> bbox reg回归fg anchors -> Proposal Layer过滤得到最终的proposal  boxs

多通道卷积:对多通道图像做1x1卷积,其实就是将输入图像于每个通道乘以卷积系数后加在一起,即相当于把原图像中本来各个独立的通道“联通”在了一起

猜你喜欢

转载自blog.csdn.net/qq_34562093/article/details/81566417
今日推荐