【深度学习】目标检测网络结构RCNN

算法分为4个步骤:

1. 生成1k~2k个候选区域

        使用selective search方法,从一张图像生成约2000~3000个候选区域:

                 (1)使用一种过分割手段,将图像分割成小区域

                 (2)查看现有小区域,合并可能性最高的两个区域,重复直到整张图像合并成一个区域位置

                            优先合并以下四种区域:颜色(颜色直方图)相近的,纹理(梯度直方图)相近的,合并后总面积小的(保证合并操作较为均匀,避免一个大区域陆续“吃掉”其他小区域),合并后总面积在其bbox中所占比例大的(保证合并后形状规则)。

                            上述四条规则只涉及区域的颜色直方图、纹理直方图、面积和位置,合并后的区域特征可以直接由子区域特征计算而来,速度较快。

                 (3)输出所有曾经存在过的区域,所谓候选区域 

                            为了尽可能不遗漏候选区域,上述才做在多个颜色空间中同时进行(RGB,HSV,Lab等)。在一个颜色空间中,使用上述四条规则的不同组合进行合并。所有颜色空间与所有规则的全部结果,在去除重复后,都作为候选区域输出。

         候选区域生成和后续步骤相对独立,实际可以使用任意算法进行。

2. 对每个候选区域,使用深度网络提取特征

        预处理:使用深度网络提取特征之前,首先把候选区域归一化成同一尺寸227*227。此处有一些细节可做变化:外扩的尺寸大小,形变时是否保持原比例,对框外区域直接截取还是补灰。会轻微影响性能。

        网络预训练:借鉴hinton 2012年在image net上的分类网络,略作简化。提取特征4096维,之后送入4096->1000的全连接层进行分类,学习率0.01。【训练数据:使用ilvcr 2012的全部数据进行训练,输入一张图片,输出1000维的类别标号】

        网络调优训练:同样适用上述网络,最后一层换成4096->21的全连接网络。学习率0.001,每一个batch包含32个正样本(属于)和96个背景(负样本)(提前设计好的)【训练数据 :使用PASCAL VOC 2007的训练集,输入一张图片,输出21维的类别标号,表示20类+背景。 考察一个候选框和当前图像上所有标定框(gt)重叠面积最大的一个。如果重叠比例大于0.5,则认为此候选框为此标定的类别;否则认为此候选框为背景。】

3. 特征送入每一类的svm分类器,判别是否属于该类

        对每一类目标,使用一个线性svm二类分类器进行判别。输入为深度网络输出的4096维特征,输出是否属于此类。由于负样本很多,使用hard negative mining(hard negative 就是每次把那些顽固的棘手的错误, 再送回去继续练, 练到你的成绩不再提升为止. 这一个过程就叫做'hard negative mining')方法。

        正样本:本类的真值标定框(gt+选出的框,也有很多)。 
        负样本:考察每一个候选框,如果和本类所有标定框的重叠都小于0.3,认定其为负样本。

        使用nms算法选出最终确定的几个框,如果两个框重叠很大,选出其中置信度高的框。

4. 使用回归器精细修正候选框位置

        该步骤不改变最终框的数量,只改变大小形状等。

        目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。 
        回归器:对每一类目标,使用一个线性脊回归器(在线性回归问题中,如果在回归模型后面增加L2范数的惩罚项,则为脊回归;如果增加L1范数的惩罚项,则为套索回归,参考:https://blog.csdn.net/aoulun/article/details/78688572)进行精修(并不能懂精修的过程,一种回归算法?)。正则项λ=10000λ=10000。 输入为深度网络pool5层的4096维特征,输出为xy方向的缩放和平移。 
        训练样本:判定为本类的候选框中,和真值重叠面积大于0.6的候选框(使用框出的部分来训练吗?)

训练过程和测试过程是完全分开的。cnn网络和svm分类器等全都是根据train集训练好的。测试时输入图片,输出框即可。

本文参考:https://blog.csdn.net/shenxiaolu1984/article/details/51066975

推荐参考(更详细):https://www.cnblogs.com/zyber/p/6672144.html

猜你喜欢

转载自blog.csdn.net/Sun7_She/article/details/90292652