YOLO系列-YOLOv2与YOLOv3

YOLOv1:https://blog.csdn.net/lipengfei0427/article/details/103589165

三、YOLOv2

为提高物体定位精准性和召回率,YOLO作者提出了 《YOLO9000: Better, Faster, Stronger》。相比v1提高了训练图像的分辨率;引入了Faster RCNN中anchor box的思想,对网络结构的设计进行了改进,输出层使用卷积层替代YOLO的全连接层,联合使用coco物体检测标注数据和imagenet物体分类标注数据训练物体检测模型。相比YOLO,YOLO9000在识别种类、精度、速度、和定位准确性等方面都有大大提升。

YOLOv1、v2、v3是连续的,虽然在网络结构等各个方面有所提升,但是整体思想是不变的,因为接下来分析YOLOv2对于YOLOv1的改进。

1.Better-Batch Normalization

使用Batch Normalization对网络进行优化,让网络提高了收敛性,同时还消除了对其他形式的正则化(regularization)的依赖。通过对YOLO的每一个卷积层增加Batch Normalization,最终使得mAP提高了2%,同时还使model正则化。使用Batch Normalization可以从model中去掉Dropout,而不会产生过拟合。

如图10所示的BN层在全连接层之后,在YOLOv2中,每个卷积层后面都有一个BN层。

                                                                              图10.BN层在全连接层之后

2.Better-High resolution classifier

目前业界标准的检测方法,都要先把分类器放在ImageNet上进行预训练。从Alexnet开始,大多数的分类器都运行在小于256*256的图片上。而现在YOLO从224*224增加到了448*448,这就意味着网络需要适应新的输入分辨率。

为了适应新的分辨率,YOLOv的分类网络以448*448的分辨率先在ImageNet上进行Fine Tune,Fine Tune10个epochs,让网络有时间调整他的滤波器(filters),好让其能更好的运行在新分辨率上,还需要调优用于检测的Resulting Network。最终通过使用高分辨率,mAP提升了4%。

 

                                                                             图11.YOLOv2训练的三个阶段

3.Better-Convolution with anchor boxes

YOLO去掉了全连接层,使用Anchor Boxes来预测 Bounding Boxes。作者去掉了网络中一个Pooling层,这让卷积层的输出能有更高的分辨率。使用Anchor Box会让精确度稍微下降,但用了它能让YOLO能预测出大于一千个框,同时recall达到88%,mAP达到69.2%。

 

4.Better-Dimension clusters

之前Anchor Box的尺寸是手动选择的,所以尺寸还有优化的余地。 为了优化,在训练集(training set)Bounding Boxes上跑了一下k-means聚类,来找到一个比较好的值。

由于使用标准k-means的方法,即使用欧式距离进行聚类,则大的box产生的误差必然比小box要大很多。因此采用评估公式为:

最终我们分别在VOC 2007和COCO数据集上运行,得到了不同数据集上簇的个数与平均IoU的关系,结果如图12所示。

 

                                                                      图12.在VOC和COCO数据集利用聚类结果

 

综合平衡召回率和模型复杂度,我们发现当k=5时,是比较好的权衡点。我们经过实验分析,聚类得到的anchor box较手动选择的anchor box有较大的提升。

                                                                     图13.聚类与手动选择anchor box结果比较

5.Better-Direction location prediction

在上面我们讨论了手动选择anchor box的尺寸可能会对结果产生的一些影响,在这里作者引入anchor box遇到第二个问题:模型稳定性。作者认为模型不稳定性主要来自box的(x, y)坐标。

YOLOv2没有预测偏移量,而是直接预测对于网格单元的相对位置。即相对单元格的左上角的位置坐标。作者通过引入Sigmoid函数预测offset,解决了anchor boxes的预测位置问题。

其中,, , ,为预测框的中心和宽高。最后一个公式是预测框的置信度。,是当前网格左上角到图像左上角的距离,需要先将网格大小归一化,即令一个网格宽和高均为1。, 是先验框的宽和高。, , , , 是要学到的函数,分别用于预测框的中心点坐标,宽高和置信度。

使用聚类搭配直接位置预测法的操作,使得模型上升了5个百分点。

 

6.Better-Fine-Grained Features

在13*13的特征图上预测大目标足够,但对于小目标效果不理想。YOLOv2增加 passthrough层,将前面26*26特征图与本层连接。passthrough层将26*26*512特征图转变为13*13*2048的特征图与本层13*13*1024特征图结合,得到13*13*3072的特征图,由此增加细粒度,在此特征图上做预测。

 

7.Better-Multi-Scale Training

为了使YOLOv2可以应用图片大小更广,YOLOv2每迭代几次都会改变网络参数。每10个Batch,网络会随机地选择一个新的图片尺寸,由于使用了下采样参数是32,所以不同的尺寸大小也选择为32的倍数{320,352……608},最小320*320,最大608*608,网络会自动改变尺寸,并继续训练的过程。这一政策让网络在不同的输入尺寸上都能达到一个很好的预测效果,同一网络能在不同分辨率上进行检测。

                                                                         图14.在不同尺寸训练集上训练结果

 

8.Faster-Darknet19

Darknet-19是基于Darknet框架编写的。主要使用3x3卷积并在pooling之后channel数加倍(VGG);global average pooling替代全连接做预测分类,并在3x3卷积之间使用1x1卷积压缩特征表示(Network in Network);使用 batch normalization 来提高稳定性,加速收敛,对模型正则化.

                                                                            图15.Darknet-19网络结构

9.Faster-损失函数

负责预测目标的anchor:

第一项:负责预测目标的anchor的坐标损失(包括中心定位和边界定位)。仅计算负责预测目标的那个anchor的坐标损失。(此项在YOLOv1中边界定位是采用根号下的差值的平方)——衡量目标定位准确度

第三项:负责预测目标的anchor的confidence损失。负责预测物体的anchor需要计算confidence损失,confidence的目标就是让预测置信得分去逼近的预测bbox和Ground Truth的IoU。——衡量可能有目标的准确度

第五项:负责预测目标的anchor的类别损失。每个类别的输出概率0-1之间,计算的是L2损失。也就是说分类问题也把它当做了回归问题。且YOLOv2中类别预测没有预测背景,因为置信得分值低于阈值就代表不存在目标。——衡量目标分类的准确度

 

不负责预测目标的anchor:

第二项:不负责预测目标的anchor的坐标损失。加了限制,希望直接回归到自身anchor box。

第四项:不负责预测目标的anchor的confidence损失。(只计算那些与Ground Truth的IoU小于IoU阈值的anchor box)。如果设定的anchor box小于阈值说明本身就无意预测,就回归到与Ground Truth的IoU=0。

 

10.Stronger

作者提出一种联合训练分类数据和检测数据的方法。在检测数据上学习特别的检测信息比如bounding box坐标及常见对象的分类;只有类别信息的数据用来扩充模型可检测的类别数量。

检测数据和类比数据混合后,在训练时,对于检测数据可以根据YOLOv2的损失函数反向传播对应信息,对于类别数据,只反向传播类别信息。

大多数对待分类的方法是使用softmax层,但是softmax使得类别之间互相排斥,这对类别有包含关系的数据集不适用,比如ImageNet中的“Norfolk terrier”和COCO中的“dog”。对此作者使用一种多标签的模型进行联合数据。

 

11.Stronger-Hierarchical classification

ImageNet的标签分布为WordNet,这种结构是图结构而不是树结构。因为树结构不存在交集,而图结构可以。比如:狗这个label即属于犬科也属于家畜。作者没有使用全图结构而是构造一种多层次树——WordTree,简化这一问题。我们可以预测每个节点处条件概率值如下

进而如果想判断某张图片是否属于某一类别,可以计算下面的式子,依次在各个类别条件概率相乘。

ImageNet 1k有1000类,使用WordTree后,类别扩充到1369,在ImageNet 1k和WordTree1k上预测情况如图16所示,在ImageNet上使用一个softmax,在WordTree上使用多个softmax,每一层次类使用一个softmax。

                                                                       图16.ImageNet和WordTree预测比较

作者使用与之前相同的训练参数,Darknet-19模型在WordTree1k数据集上top-1 accuracy为71.9%,top-5 accuracy为90.4%。尽管增加了额外369类,但准确率值下降了一点儿。

12.Stronger-Hierarchical classification

使用WordTree可以将ImageNet和COCO数据集整合。

                                                                        图17.ImageNet和COCO整合

 

四、YOLOv3

沿用

·“分而治之”,从YOLOv1开始,YOLO算法就是通过划分单元格来做检测,只是划分的数量不一样。

·采用"leaky ReLU"作为激活函数。

·端到端进行训练。一个loss function搞定训练,只需关注输入端和输出端。

·从YOLOv2开始,YOLO就用batch normalization作为正则化、加速收敛和避免过拟合的方法,把BN层和leaky ReLU层接到每一层卷积层之后。

·多尺度训练。在速度和准确率之间trade off。想速度快点,可以牺牲准确率;想准确率高点儿,可以牺牲一点速度。

 

改进

·多级预测终于为 YOLO 增加了 top down 的多级预测,解决了 YOLO 颗粒度粗,对小目标无力的问题。

·loss不同, v3 替换了 v2 的 softmax loss 变成 logistic loss。

·加深网络,采用简化的 residual block 取代了原来 1×1 和 3×3 的 block

                                                                            图18.YOLOv3性能与RetinaNet比较

1.网络结构

                                                                              图19-1.Darknet-53网络结构示意

                                                                                图19-2.YOLOv3网络结构示意

DBL:代码中的Darknetconv2d_BN_Leaky,是YOLOv3的基本组件。就是卷积+BN+Leaky relu。

resn:n代表数字,有res1,res2, … ,res8等等,表示这个res_block里含有多少个res_unit。

concat:张量拼接。将darknet中间层和后面的某一层的上采样进行拼接。

 

2.九种尺寸先验框

随着输出的特征图的数量和尺度的变化,先验框的尺寸也需要相应的调整。YOLO2已经开始采用K-means聚类得到先验框的尺寸,YOLO3延续了这种方法,为每种下采样尺度设定3种先验框,总共聚类出9种尺寸的先验框。

在COCO数据集这9个先验框是:(10x13),(16x30),(33x23),(30x61),(62x45),(59x119),(116x90),(156x198),(373x326)。

分配上,在最小的13*13特征图上(有最大的感受野)应用较大的先验框(116x90),(156x198),(373x326),适合检测较大的对象。中等的26*26特征图上(中等感受野)应用中等的先验框(30x61),(62x45),(59x119),适合检测中等大小的对象。较大的52*52特征图上(较小的感受野)应用较小的先验框(10x13),(16x30),(33x23),适合检测较小的对象。

                                                                                   表1.特征图与先验框

 

    9种先验框的尺寸如下图所示,蓝色框为聚类得到的先验框,黄色框为ground truth,红色框为对象中心点所在的网格

                                                                                图20.聚类得到的9种先验框

3.损失函数

YOLOv3重要改变之一:No more softmaxing the classes。

softmax来分类依赖于这样一个前提,即分类是相互独立的,换句话说,如果一个目标属于一种类别,那么它就不能属于另一种。但是,当我们的数据集中存在人或女人的标签时,上面所提到的前提就是去了意义。

在这里,我们使用logistic regression来预测每个类别得分并使用一个阈值来对目标进行多标签预测。比阈值高的类别就是这个边界框真正的类别。

 

4.输入与输出的映射

                                                                             图21.输入与输出的映射

对于一个416*416的输入图像,在每个尺度的特征图的每个网格设置3个先验框,总共有 13*13*3 + 26*26*3 + 52*52*3 = 10647 个预测。每一个预测是一个(4+1+80)=85维向量,这个85维向量包含边框坐标(4个数值),边框置信度(1个数值),对象类别的概率(对于COCO数据集,有80种对象)。

以上就是个人对YOLO系列的全部理解啦,欢迎大家指正!

 

参考:

1.《You Only Look Once: Unified, Real-Time Object Detection》Joseph Redmon, Santosh Divvala, Ross Girshick¶, Ali Farhadi(2015)

2.《You Only Look Once: Unified, Real-Time Object Detection》Joseph Redmon, Santosh Divvala, Ross Girshick¶, Ali Farhadi(2016)

3.《YOLO9000: Better, Faster, Stronger》Joseph Redmon, Ali Farhadi

4.《YOLOv3: An Incremental Improvement》Joseph Redmon,Ali Farhadi

5.https://www.imooc.com/article/36391

6.https://blog.csdn.net/qq_33270279/article/details/99883051

7.https://blog.csdn.net/c20081052/article/details/80236015

8.https://zhuanlan.zhihu.com/p/63507794

9.https://www.jianshu.com/p/57ea656660f7

10.https://blog.csdn.net/qq_41994006/article/details/88708199

11.https://blog.csdn.net/qq_33948796/article/details/88561542

12.https://www.jianshu.com/p/032b1eecb335

13. https://blog.csdn.net/yanzi6969/article/details/80505421

14. https://www.jianshu.com/p/d13ae1055302

猜你喜欢

转载自blog.csdn.net/lipengfei0427/article/details/103726333