YOLO技术概要学习笔记2——YOLOV2到YOLOV3

一、前言

实时物体检测已经成为众多邻域应用的关键组成部分,这些领域包括:自动驾驶车辆、机器人、视频监控和增强现实等。在众多物体检测算法中,近年来,YOLO(You Only Look Once)框架以其卓越的速度和准确性脱颖而出,实际证明能够快速可靠地识别图像中的物体。自诞生以来,YOLO经过了多次迭代,每个版本都在前一版本的基础上进行改进,不断在提高性能,截至本文发稿,YOLO框架从V1已经更新到了v8。作为机器视觉技术应用的我们,有必要对YOLO的技术演进进行系统了解,熟悉YOLO每个版本之间的关键创新、差异和改进(如网络设计、损失函数修改、锚框适应和输入分辨率缩放等)。从而更好地把握YOLO的技术发展主脉搏,更好地选择应用相关的视觉识别技术。YOLO技术概要学习笔记共三篇,主要遵照国外文章《A COMPREHENSIVE REVIEW OF YOLO: FROM YOLOV1 AND
BEYOND》的主线进行学习,通过综合其它文献对YOLO技术进行细品,形成理性认识。

二、YOLOv2

YOLOv2 是由 Joseph Redmon 和 Ali Farhadi 在2017年的CVPR会议上发表的。它在原有的YOLO基础上进行了多项改进,使其更好,保持了相同的速度,同时变得更强——能够检测9000个类别! 改进包括以下几点:

2.1 v2特点

(1)卷积层归一化

对所有卷积层进行批量归一化,改善了收敛性,并作为正则化器减少了过拟合。

(2)高分辨率分类器

使用ImageNet在224×224上对模型进行了预训练,同时,在ImageNet上使用448×448的分辨率对模型进行了10个时期的微调,提高了网络在更高分辨率输入上的性能。

(3)完全卷积

移除了密集层(全连接层),采用了完全卷积的架构。

(4)使用锚框来预测边界框

使用一组先验框或锚框,这些是具有预定义形状的框,用于匹配对象的原型形状,如图所示。每个网格单元定义了多个锚框,系统预测每个锚框的坐标和类别。网络输出的大小与每个网格单元的锚框数量成比例。
在这里插入图片描述

(5)维度聚类

选择好的先验框有助于网络学习预测更准确的边界框。v2对训练边界框运行了k-means聚类,以找到好的先验框。他们选择了五个先验框,提供了在召回率和模型复杂性之间的良好平衡。

(6)直接位置预测

与其他预测偏移量的方法不同[45],YOLOv2遵循相同的哲学,相对于网格单元预测位置坐标。网络为每个单元格预测五个边界框,每个边界框有五个值tx、ty、tw、th和to,其中to等价于YOLOv1中的Pc,最终边界框坐标如下图(通过经过sigmoid函数的预测tx、ty值并通过网格单元cx、cy的位置进行偏移,可以获得盒子的中心坐标。最终框的宽度和高度分别使用先前的宽度pw和高度ph,分别缩放etw 和eth,其中tw 和th由YOLOv2预测)所示获得 。
在这里插入图片描述

(7) 更细粒度的特征

与YOLOv1相比,YOLOv2去掉了一个池化层,以获得416×416输入图像的13×13的输出特征映射或网格。YOLOv2还使用了一个直通层,它将26×26×512特征映射重新组织成不同通道中的相邻特征,而不是通过空间子采样丢失它们。这生成了13×13×2048特征映射,与低分辨率的13×13×1024映射在通道维度上连接,以获得13×13×3072特征映射。有关架构详细信息,请参见下表:
Darknet-19骨干架构(层1到23)加上由最后四个卷积层和直通层组成的检测头,该直通层将26×26×512的第17个输出的特征重新组织成13×13×2048,然后与第25层连接。最终的卷积生成一个13×13的网格,具有125个通道,以容纳五个边界框的25个预测(5个坐标+20个类别

(8) 多尺度训练

由于YOLOv2不使用全连接层,输入可以是不同的大小。为了使YOLOv2对不同的输入大小具有鲁棒性,作者随机训练模型,每10个批次改变一次输入大小——从320×320到608×608不等。YOLOv2在PASCAL VOC2007数据集上取得了AP为78.6%,而YOLOv1仅获得了63.4%

2.2 YOLOv2 框架

YOLOv2使用的骨干架构称为Darknet-19,包含19个卷积层和五个最大池化层。与YOLOv1的架构类似,它受到Network in Network 的启发,使用1×1卷积在3×3之间减少参数数量。此外,正如上面提到的,他们使用批量归一化来规范化和帮助收敛。
上表显示了整个Darknet-19骨干架构和目标检测头。当使用PASCAL VOC数据集时,YOLOv2预测五个边界框,每个边界框有五个值和20个类别。目标分类头将最后四个卷积层替换为具有1000个过滤器的单个卷积层,然后是全局平均池化层和Softmax。

3 YOLOv

猜你喜欢

转载自blog.csdn.net/kanbide/article/details/131141048