【目标检测】YOLOV3详解

前言

前面的V1、V2已经讲完了，再讲解一下YOLOV3了。v3除了网络结构，其余变动不多，主要是将当今一些较好的检测思想融入到了YOLO中，在保持速度优势的前提下，进一步提升了检测精度，尤其是对小物体的检测能力。具体来说，YOLOv3主要改进了网络结构、网络特征及后续计算三个部分。

1、网络架构

YOLOv3继续吸收了当前优秀的检测框架的思想，如残差网络和特征融合等，提出了如图下图所示的网络结构，称之为DarkNet-53。作者在ImageNet上实验发现darknet-53相对于ResNet-152和ResNet101，不仅在分类精度上差不多，计算速度还比ResNet-152和ResNet-101强多了，网络层数也比它们少。

在这里插入图片描述

● DBL：代表卷积、BN及Leaky ReLU三层的组合，在YOLOv3中卷积都是以这样的组合出现的，构成了DarkNet的基本单元。DBL后面的数字代表有几个DBL模块。
● res：res代表残差模块，res后面的数字代表有几个串联的残差模块。
● 上采样：上采样使用的方式为上池化，即元素复制扩充的方法使得特征图尺寸扩大，没有学习参数。
● Concat：上采样后将深层与浅层的特征图进行Concat操作，即通道的拼接，类似于FPN，但FPN使用的是逐元素相加。
● 残差思想：DarkNet-53借鉴了ResNet的残差思想，在基础网络中大量使用了残差连接，因此网络结构可以设计的很深，并且缓解了训练中梯度消失的问题，使得模型更容易收敛。
● 多层特征图：通过上采样与Concat操作，融合了深、浅层的特征，最终输出了3种尺寸的特征图，用于后续检测。多层特征图对于多尺度物体及小物体检测是有利的。
● 无池化层：之前的YOLO网络有5个最大池化层，用来缩小特征图的尺寸，下采样率为32，而DarkNet-53并没有采用池化的做法，而是通过步长为2的卷积核来达到缩小尺寸的效果，下采样次数同样是5次，总体下采样率为32。

需要注意的是，concat操作与加和操作的区别：加和操作来源于ResNet思想，将输入的特征图，与输出特征图对应维度进行相加，即 y = f(x) + x ；而concat操作源于DenseNet网络的设计思路，将特征图按照通道维度直接进行拼接，例如8*8*16的特征图与8*8*16的特征图拼接后生成8*8*32的特征图。上采样层(upsample)：作用是将小尺寸特征图通过插值等方法，生成大尺寸图像。例如使用最近邻插值算法，将8*8的图像变换为16*16。上采样层不改变特征图的通道数。

2、多尺度预测

从网络结构中可以看出，YOLOv3输出了3个不同大小的特征图，从上到下分别对应深层、中层与浅层的特征。深层的特征尺寸小，感受野大，有利于检测大尺度物体，而浅层的特征图则与之相反，更便于检测小尺度物体，这一点类似于FPN结构。
YOLOv3依然沿用了预选框Anchor，由于特征图数量不再是一个，因此匹配方法也要相应地进行改变。具体做法是：依然使用聚类算法得到9中不同大小宽高的先验框，然后按照下图所示的方法进行先验框的分配，这样，每一个特征图上的一个点只需要3个先验框，而不是YOLOv2中的5个。

在这里插入图片描述

YOLOv3使用的方法有别于SSD，虽然都利用了多个特征图的信息，但SSD的特征是从浅到深地分别预测，没有深浅的融合，而YOLOv3的基础网络更像是SSD与FPN的结合。YOLOv3默认使用了COCO数据集，一共80个物体类别，因此一个Anchor需要80维的类别预测值，4个位置预测及一个置信度预测。每个cell有三个Anchor，因此一共需要3×（80+5）=255，也就是每一个特征图的预测通道数。

在这里插入图片描述

COCO数据集有80个类别，所以类别数在85维输出中占了80维，每一维独立代表一个类别的置信度。使用sigmoid激活函数替代了Yolov2中的softmax，取消了类别之间的互斥，可以使网络更加灵活。实验证明，Softmax可以被多个独立的Logistic分类器取代，并且准确率不会下降，这样的设计可以实现物体的多标签分类，例如一个物体如果是Women的同时，同时也属于Person。

3、训练策略与损失函数

前面的V1和V2都是只有正反例区分，但是在V3中还有了忽略样本。

正例：任取一个ground truth，与4032个框全部计算IOU，IOU最大的预测框，即为正例。并且一个预测框，只能分配给一个ground truth。例如第一个ground truth已经匹配了一个正例检测框，那么下一个ground truth，就在余下的4031个检测框中，寻找IOU最大的检测框作为正例。ground truth的先后顺序可忽略。正例产生置信度loss、检测框loss、类别loss。预测框为对应的ground truth box标签（需要反向编码，使用真实的x、y、w、h计算出）；类别标签对应类别为1，其余为0；置信度标签为1。

忽略样例：正例除外，与任意一个ground truth的IOU大于阈值（论文中使用0.5），则为忽略样例。忽略样例不产生任何loss。

负例：正例除外（与ground truth计算后IOU最大的检测框，但是IOU小于阈值，仍为正例），与全部ground truth的IOU都小于阈值（0.5），则为负例。负例只有置信度产生loss，置信度标签为0。

需要注意的是V3的ground truth不和V1一样，按照中心点分配对应的预测box。而是根据预测值寻找IOU最大的预测框作为正例。全部4032个输出框直接和ground truth计算IOU，取IOU最高的cell分配ground truth。原因是Yolov3一共产生3个特征图，3个特征图上的cell，中心是有重合的。训练时，可能最契合的是特征图1的第3个box，但是推理的时候特征图2的第1个box置信度最高。

Yolov1中的置信度标签，就是预测框与真实框的IOU，而Yolov3是1。置信度意味着该预测框是或者不是一个真实物体，是一个二分类，所以标签是1、0更加合理。在V1在训练时，有些预测框与真实框的IOU极限值就是0.7左右，置信度以0.7作为标签，置信度学习有一些偏差，最后学到的数值是0.5，0.6，那么假设推理时的激活阈值为0.7，这个检测框就被过滤掉了。但是IOU为0.7的预测框，其实已经是比较好的学习样例了。尤其是coco中的小像素物体，几个像素就可能很大程度影响IOU，所以第一种训练方法中，置信度的标签始终很小，无法有效学习，导致检测召回率不高。

忽略样例是Yolov3中的点睛之笔。由于Yolov3使用了多尺度特征图，不同尺度的特征图之间会有重合检测部分。比如有一个真实物体，在训练时被分配到的检测框是特征图1的第三个box，IOU达0.98，此时恰好特征图2的第一个box与该ground truth的IOU达0.95，也检测到了该ground truth，如果此时给其置信度强行打0的标签，网络学习效果会不理想。