【论文精读】Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation(R-CNN)

论文Title:Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation。发表于2014年。
本文是计算机视觉目标检测领域的奠基作,提出了R-CNN模型,指定了一类目标检测流程的范式,后期目标检测的算法都受其影响。
R-CNN中的R为 region,即目标检测候选框的意思。名字直接告诉我们,该工作就是对候选框进行CNN操作,提取出其特征,再对特征进行分类等处理。
R-CNN提出对候选框进行偏移调整,用一个回归模型提高候选框框中物体的能力。
此外,R-CNN研究提出将卷积神经网络提取特征的可视化,属于深度神经网络的可解释性研究。

下面是我读这篇论文自己整理的内容,以及自己的思考总结。

背景

R-CNN的提出,解决了当时两大问题:

①如何使用深度神经网络来训练一个高效的模型,用于定位物体。
这之前目标检测基本都是用传统的计算机视觉方法。
文章提出了两阶段范式(先生成候选框,再对候选框进行分类+微调)。
R-CNN使用卷积神经网络提取候选框特征,再对特征进行分类。
同时还使用一个回归模型对候选框的位置进行微调。

②目标检测可使用的数据少。
提出了“先监督式预训练,后在特定领域微调”这一范式。
即使用fine tuning的迁移学习技术。

R-CNN流程的3个模块

  • 1、将一个图像生成多个候选框
  • 2、将候选框用一个大型的卷积神经网络提取特征,每一个候选框提取出一个固定长度的特征向量。
  • 3、对提取出来的向量使用线性支持向量机(Linear SVM)进行类别预测,每个类别都训练一个线性支持向量机来预测是否是当前类别。
  • [同时] 对提取出来的向量同时进行偏移量的预测,使用回归模型,用于对候选框的定位进行微调。

下图是论文中给的R-CNN流图(图中没有画回归模型):
在这里插入图片描述

细节1:生成候选框

使用selective search方法,即聚类产生初始分割区域,其根据颜色、纹理、大小、形状相似度加权合并产生不同层次的2000个左右的候选框。
把它当成一个随机生成候选框的算法即可,这里没有和网络相关的可学习参数。
在这里插入图片描述

细节2:对候选框进行特征提取

先对候选框进行缩放,缩放成227×227的RGB图像。缩放细节:将候选框向四周扩展16个像素,然后强行缩放成227×227大小。如下图的缩放效果。
之后进行mean-subtracted处理,即减去均值。

在这里插入图片描述

之后喂给卷积神经网络模型(文中使用的AlexNet,所以读入的是227×227的图像),最后提取到一个4096维的向量。

主干流程:模型测试阶段

根据前面提到的3+1个模块的设计,具体流程为:

  1. 传入一个图像,使用selective search方法,生成2000个候选框,进行缩放。
  2. 缩放后喂到CNN模型中,抽取到一个4096维的向量。这一步是最耗时的。
  3. 对该向量用训练好的线性SVM分类器预测各个类别(每个类别都有一个线性SVM分类器)。
    第2步中得到的是一个2000×4096(候选框数×向量长度)的矩阵,这里乘以一个4096×N的矩阵(N为类别数,即为训练好的SVM),就可以得到各个类别置信度。
    最后,使用NMS算法(非极大值抑制)剔除多余的重复预测的候选框。

此外在分类预测的同时,还会同时对候选框进行偏移的预测,将其修正到更准确的位置。

下面这张示意图将这个模型的流程概括得很清晰(图摘自b站up“同济子豪兄”的R-CNN论文解读):
在这里插入图片描述

主干流程:模型训练阶段

详述一下训练模型时的细节。

1 CNN模型的训练

使用预训练模型+微调(fine tuning)的方式进行训练

在第二个模块的CNN模型中,使用了ImageNet图像分类数据集的预训练模型(作者使用的AlexNet),将该预训练模型使用微调(fine tuning)的迁移学习方法应用到VOC目标检测数据集上。(这个方法可解决目标检测数据量少的问题)
具体就是将VOC数据集上的候选框作为训练集,进行缩放,然后喂入CNN模型进行微调训练。其中CNN模型中最后一个全连接层的原1000个输出改成21个,对应PASCAL VOC 2012数据集20个类别+1个背景类。
背景类即未被有效框中的候选框代表的类。


注意,我们在训练CNN模型时,最后一层21个类别的输出仅用作训练,以训练出一个特征提取器。
我们参考一下AlexNet的结构:

在这里插入图片描述

最后一个全连接层改成21个输出后得以训练整个模型,但我们最后需要用到的是倒数第二层全连接层(甚至用再往前池化层的输出)提取到的4096维的向量,我们需要依靠它进行在测试阶段进行分类。分类的方法使用线性SVM分类器,下文会讲。

生成训练数据集

那么训练的样本怎么来的呢?
我们知道一开始拥有一些Ground Truth,即人工标注的框,但数量极少,拿来训练不现实。
我们还有大量的通过selective search生成的候选框,我们就可以对候选框通过处理标注,使其成为训练样本。

那么如何标注呢?
首先,我们将训练样本分成正样本负样本,正样本指标注为20个分类的候选框,负样本指标注为背景类的候选框。
如何区分正样本和负样本?这里使用了IoU(交并比)的概念,来衡量一个候选框是否有效地框中了目标。

如下面两张图展示的:
在这里插入图片描述

在这里插入图片描述
我们将一个候选框(如上图淡蓝色的框)和这一张图片中的所有Ground Truth(如上图的红框,图中就1个GT框,实际上可以有多个,代表多类)做对比,计算出各个IoU值,得到最大的IoU值和对应的类别。

我们将IoU>0.5的候选框视作正样本。比如,候选框有效地框中了bird,即为bird的正样本。
未有效框中bird,而是框中了树枝和远处的绿色,即为bird的负样本,视作背景类。

这样我们的训练集就生成了,既有那20类的候选框,又有背景候选框。

解决训练集中类别不平衡的问题

以上生成的训练集中,负样本(背景类样本)的数量仍占绝大多数,直接拿来训练会造成类别的不平衡,模型识别正样本的能力下降。
所以在训练时,需要保证一个批量的数据中,正样本有一定的比例(比如文中所描述的一个128数量的批次中,要有32个正样本和96个负样本)。
由于正样本数量远远小于负样本,这样需要对正样本进行过采样,对负样本进行欠采样,通过重采样以达到类别相对均衡。

2 线性SVM分类器的训练

训练线性SVM

每个类别都会训练一个线性SVM的二分类器。
我们使用CNN网络提取到的特征(即一个候选框对应的一个4096维向量),对其进行一个二分类的判断。比如判断它是不是bird。这是一个bird的二分类器。
我们还可以再训练一个car的二分类器。这样依次训练20个类别各自的二分类器。

生成训练数据集

分类“car”的二分类器为例,一个二分类器肯定也需要一定“car”正样本和非“car”的负样本(可以是框到car的很小一部分;也可以是背景,甚至是别的类别)。

这个二分类器的训练集数据又是怎么来的呢?

想想前面训练的CNN特征提取器,它会在IoU>0.5时就能识别出一辆“car”,一方面这样模糊识别的能力比较强,这样能抽取出五花八门的car特征;另一方面训练CNN时正样本少,需要相对低一点的IoU值要求来凑出更多的正样本来。
但是现在的二分类器需要严格地识别一辆相对完整的car,判别这是一辆car的可能性,毕竟有20个类别等着你去对比可能性大小。(此外后面会讲到,我们还需要预测这个候选框的定位信息,这个定位信息需要和一辆完整car的特征信息去对比,预测出定位的偏移)因此,在训练二分类器的时候,正样本和负样本和前面训练CNN的时候不同。

这里,正样本是数据集本身标注的Ground Truth框。
如果IoU小于0.3,视为训练的负样本。(注意如果IoU大于0.3的样本则不用来训练,被抛弃掉)

训练的时候也应当要注意正负样本的均衡。

难分辨的负样本的挖掘(hard negative mining)

R-CNN还使用了 hard negative mining,即将难分辨的一些负样本的数据作为“一本错题集”,加入到下一轮的训练中。
这样也能提升分类器的性能。

思考:为什么要用SVM分类,而不在CNN模型中直接以softmax分类作为结果

这个问题归根结底和训练数据少有关。
在CNN模型训练中,我们的正样本数量不够,所以需要降低IoU值的要求,将IoU>0.5的候选框一并归为训练集正样本,让模型能学习。这样的设计,明显可以看出其在定位性能上会有一定的损失(毕竟半辆车都拿来凑合着学了,最后预测时也就只能认识框中的半辆车)。

假使我们的样本足够多(比如框足够多),不应当降低IoU的要求,而将正好框中的目标候选框视为正样本,这样也就没有定位性能损失的问题。

所以无奈作者将预测地没那么好的候选框特征(即用CNN提取出来的4096维特征向量)人为地进行二次处理,将其特征信息拆分为分类+偏移预测(后文讲述)。
作者做了一些预实验,发现对训练时需要对正负样本进行划分,在训练CNN特征提取器时和对候选框进行分类使用不同的正负样本进行训练,会提高mAP(模型的性能)。对候选框进行分类时,我们需要更严格地划分正负样本,正样本就得是Ground Truth框。

如前文示意图所示,偏移预测就是下文需要讲的Bounding box Regression。
在这里插入图片描述

3 候选框偏移量的预测(Bounding box Regression)

因为候选框不可避免地会产生定位误差,所以我们可以对生成的候选框进行偏移修正。
Bounding box regression是受DPM算法的启发的,它通过训练一个线性回归模型,给予一组特征(CNN提取的特征),来预测一个新的检测框,这个新框的偏移量是这个Regression预测的目标。
这个偏移量是相对于正确位置(如Ground Truth框完整地框中某个目标)的偏移量,偏移量通过一组偏移系数计算得到,而偏移系数则是学出来的。
下面结合论文和我的思考细讲一下Bounding box Regression干了一件什么事。

我把这部分内容放到了另一篇子文章中:R-CNN 之预测框回归(Bounding box regression)问题详述

R-CNN的一些思想和贡献

以上是R-CNN进行目标检测任务的主干内容,再讲讲论文其他涉及的一些贡献和思想。
其中,预测框回归(Bounding box regression)已详细在主干部分讨论。

将学到的特征可视化(神经网络可解释性研究)

R-CNN也是卷积神经网络可解释性分析的奠基作之一(其它工作如还有ZFNet等)。R-CNN提出了一个可视化方法,直观地展示网络学到了什么东西。

关于神经元的激活值activation

先复习两个概念:
在CNN模型中,一个层的输出一般是:长×宽×通道数,其中矩阵中的每个数代表一个神经元neuron。
每一个层的输出称为这一组神经元的激活值activations,它会被传入下一层作为输入。
论文中提到的激活值activation就是某个通道中输出的数。

作者提出的将学到特征可视化的方法,就是寻找能够使AlexNet中某些神经元激活值最大的图片区域。什么意思呢?

激活值对应原图感受野

下面自己画了张图,展示某层的激活值对应的原图感受野。一张227×227的图片传入AlexNet网络,它最后一个池化层pool5的输出的feature map是6×6大小,有256个通道。
我们取池化层输出的第1个通道上的(3,3)这个激活值(红色小块),对应到原图就是一个195×195的感受野。并且(3,3)这个位置靠近中心,几乎就覆盖了原图的绝大部分区域。
池化层输出的256个通道我们可以把它视作256个高等级的语义特征类,比如假设第1个通道代表了“光晕”特征,第2个通道代表了“平行纹理”等等。
在这里插入图片描述
那么,在池化层输出的第1个通道上(3,3)处的激活值越高,意味着原感受野处“光晕”特征的可能性越大。
于是我们就可以根据池化层输出的各个通道上,某个指定神经元的激活值的大小,来分析原图感受野中提起到的特征是否正确、合理。这样就可以对卷积神经网络提取到的特征进行可视化了!

作者的做法

作者是怎么做的呢?
作者将整个数据集的所有的候选框(大约有1000万个)喂入卷积神经网络,提取到池化层输出的特征(6×6×256)。
各通道中,每个6×6的feature map中选取(3,3)处的激活值代表原图的大部分感受野。对该通道的激活值进行横向的从大到小排序,找激活值排名靠前的候选框,展示出感受野的部分。
这样,每个通道类别中,那些激活值高的,可以可视化出一组提取得很棒的特征。
那么这个通道类别就可以进行可解释性分析了。

我们看论文原图中,第1行就是那些激活值排名最高的通道单元,对应原图候选框的感受野,这里提取到的是people的高级语义特征。
第2行提取到的是dot(点阵)的高级特征,其中我们可以发现狗的脸部也被归类为了点阵信息,因为狗的两只眼睛和鼻子也像是点阵。
在这里插入图片描述

fine tuning的作用、全连接层的意义(消融对照实验)

作者对比了带和不带fine tuning的训练对模型性能的评估。
并且依次去掉AlexNet最后两个全连接层,观察对性能的影响。

结果如下图(注解摘自b站up“同济子豪兄”):
在这里插入图片描述
图中显示,使用fine tuning训练的模型,性能提升显著。
并且在使用fine tuning训练的时,全连接层的作用很明显(图中mAP 47.3提升至54.2);相比不带fine tuning训练的模型,全连接层的作用并不明显(图中mAP 44.2到44.7提升不明显)。

这可能说明,在使用预训练模型进行迁移学习时,CNN提取的是通用的特征,而全连接层fc完成的是特定领域的任务。
文中最后提到,“supervised pre-training/domain-specific fine-tuning”(先监督式预训练,后在特定领域微调)这一范式,对数据量相对较少的计算机视觉领域是一个解决问题的趋势。


参考资料:
https://academic.hep.com.cn/foe/article/2019/2095-2759/2095-2759-12-3-324.shtml
https://towardsdatascience.com/deep-learning-method-for-object-detection-r-cnn-explained-ecdadd751d22
https://aman.ai/cs231n/visualization/#visualizing-internal-representationsactivations

猜你喜欢

转载自blog.csdn.net/takedachia/article/details/126052406
今日推荐