一、前言

实时物体检测已经成为众多邻域应用的关键组成部分，这些领域包括：自动驾驶车辆、机器人、视频监控和增强现实等。在众多物体检测算法中，近年来，YOLO（You Only Look Once）框架以其卓越的速度和准确性脱颖而出，实际证明能够快速可靠地识别图像中的物体。自诞生以来，YOLO经过了多次迭代，每个版本都在前一版本的基础上进行改进，不断在提高性能，截至本文发稿，YOLO框架从V1已经更新到了v8。作为机器视觉技术应用的我们，有必要对YOLO的技术演进进行系统了解，熟悉YOLO每个版本之间的关键创新、差异和改进（如网络设计、损失函数修改、锚框适应和输入分辨率缩放等）。从而更好地把握YOLO的技术发展主脉搏，更好地选择应用相关的视觉识别技术。YOLO技术概要学习笔记共三篇，主要遵照国外文章《A COMPREHENSIVE REVIEW OF YOLO: FROM YOLOV1 AND
BEYOND》的主线进行学习，通过综合其它文献对YOLO技术进行细品，形成理性认识。

二、YOLOv2

YOLOv2 是由 Joseph Redmon 和 Ali Farhadi 在2017年的CVPR会议上发表的。它在原有的YOLO基础上进行了多项改进，使其更好，保持了相同的速度，同时变得更强——能够检测9000个类别! 改进包括以下几点：

2.1 v2特点

（1）卷积层归一化

对所有卷积层进行批量归一化，改善了收敛性，并作为正则化器减少了过拟合。

（2）高分辨率分类器

使用ImageNet在224×224上对模型进行了预训练，同时，在ImageNet上使用448×448的分辨率对模型进行了10个时期的微调，提高了网络在更高分辨率输入上的性能。

（3）完全卷积

移除了密集层（全连接层），采用了完全卷积的架构。

（4）使用锚框来预测边界框

使用一组先验框或锚框，这些是具有预定义形状的框，用于匹配对象的原型形状，如图所示。每个网格单元定义了多个锚框，系统预测每个锚框的坐标和类别。网络输出的大小与每个网格单元的锚框数量成比例。
在这里插入图片描述

（5）维度聚类

选择好的先验框有助于网络学习预测更准确的边界框。v2对训练边界框运行了k-means聚类，以找到好的先验框。他们选择了五个先验框，提供了在召回率和模型复杂性之间的良好平衡。

（6）直接位置预测

与其他预测偏移量的方法不同[45]，YOLOv2遵循相同的哲学，相对于网格单元预测位置坐标。网络为每个单元格预测五个边界框，每个边界框有五个值tx、ty、tw、th和to，其中to等价于YOLOv1中的Pc，最终边界框坐标如下图（通过经过sigmoid函数的预测tx、ty值并通过网格单元cx、cy的位置进行偏移，可以获得盒子的中心坐标。最终框的宽度和高度分别使用先前的宽度pw和高度ph，分别缩放e^tw 和e^th，其中tw 和th由YOLOv2预测）所示获得。
在这里插入图片描述

(7) 更细粒度的特征

与YOLOv1相比，YOLOv2去掉了一个池化层，以获得416×416输入图像的13×13的输出特征映射或网格。YOLOv2还使用了一个直通层，它将26×26×512特征映射重新组织成不同通道中的相邻特征，而不是通过空间子采样丢失它们。这生成了13×13×2048特征映射，与低分辨率的13×13×1024映射在通道维度上连接，以获得13×13×3072特征映射。有关架构详细信息，请参见下表：
Darknet-19骨干架构（层1到23）加上由最后四个卷积层和直通层组成的检测头，该直通层将26×26×512的第17个输出的特征重新组织成13×13×2048，然后与第25层连接。最终的卷积生成一个13×13的网格，具有125个通道，以容纳五个边界框的25个预测（5个坐标+20个类别

(8) 多尺度训练

由于YOLOv2不使用全连接层，输入可以是不同的大小。为了使YOLOv2对不同的输入大小具有鲁棒性，作者随机训练模型，每10个批次改变一次输入大小——从320×320到608×608不等。YOLOv2在PASCAL VOC2007数据集上取得了AP为78.6％，而YOLOv1仅获得了63.4％

2.2 YOLOv2 框架

YOLOv2使用的骨干架构称为Darknet-19，包含19个卷积层和五个最大池化层。与YOLOv1的架构类似，它受到Network in Network 的启发，使用1×1卷积在3×3之间减少参数数量。此外，正如上面提到的，他们使用批量归一化来规范化和帮助收敛。
上表显示了整个Darknet-19骨干架构和目标检测头。当使用PASCAL VOC数据集时，YOLOv2预测五个边界框，每个边界框有五个值和20个类别。目标分类头将最后四个卷积层替换为具有1000个过滤器的单个卷积层，然后是全局平均池化层和Softmax。

YOLO技术概要学习笔记2——YOLOV2到YOLOV3

目录