深度学习计算机视觉之YOLO,YOLOv2和YOLOv3算法(超详细解析)

您只看一次(YOLO)是针对实时处理的对象检测系统。我们将在本文中介绍YOLO,YOLOv2和YOLOv3。这是YOLO官网提供各种模型的准确性和速度比较。
在这里插入图片描述
让我们从下面的测试图像开始
在这里插入图片描述
YOLO检测到的对象:
在这里插入图片描述

网格单元

为了便于讨论,我们裁剪了原始照片。YOLO将输入图像划分为S × S网格。每个网格单元仅预测一个对象。例如,下面的黄色网格单元试图预测其中心(蓝色点)落在网格单元内的“人”对象。
在这里插入图片描述
每个网格单元都预测固定数量的边界框。在此示例中,黄色网格单元格进行两个边界框预测(蓝色框)以定位人的位置。
在这里插入图片描述
但是,单对象规则限制了所检测对象的接近程度。为此,YOLO在对象近距离上确实有一些限制。对于下图,左下角有9个圣诞老人,但YOLO只能检测到5个。
在这里插入图片描述
对于每个网格单元:

  • 它预测B个边界框,每个框都有一个框置信度得分
  • 它只检测一个物体,而与盒子B的数量无关
  • 它可以预测C个 条件类的概率(对于对象类的可能性,每个类一个)

为了评估PASCAL VOC,YOLO使用7×7网格(S×S),2个边界框(B)和20个类(C)
让我们来了解更多细节。每个边界框包含5个元素:(x,y,w,h)和一个框的置信度得分。置信度得分反映了框包含一个对象的可能性(objectness)以及边界框的准确性。我们通过图像的宽度和高度对边界框的宽度w和高度h进行归一化。x和y是对应
单元格的偏移量。因此,x,y,w和h都在0和1之间。每个像元都有20个条件类概率。该条件类概率是检测到的对象属于特定类别的概率(每个单元格每个类别一个概率)。因此,YOLO的预测形状为(S,S,B×5 + C)=(7,7,2×5 + 20)=(7,
7,30)。
在这里插入图片描述
YOLO的主要概念是建立一个CNN网络以预测(7,7,30)张量。它使用CNN网络将空间尺寸减小到7×7,每个位置都有1024个输出通道。YOLO使用两个完全连接的层执行线性回归,以进行7×7×2边界框预测(下图为中间图)。为了做出最终预测,我们将框置信度得分高(大于0.25)的那些作为我们的最终预测(右图)。
在这里插入图片描述
每个预测框的分类置信度得分计算如下:
在这里插入图片描述
它测量对分类和定位(对象所在的位置)的置信度。
我们可以轻松地将那些计分和概率项混合在一起。以下是数学定义:
在这里插入图片描述

网络设计

在这里插入图片描述
YOLO具有24个卷积层,其后是2个全连接层(FC)。一些卷积层可替代地使用1×1缩小层来减少特征图的深度。对于最后一个卷积层,它输出形状为(7,7,1024)的张量。然后将张量展平。使用2个完全连接的层作为线性回归的形式,它输出7×7×30个参数,然后重塑为(7、7、30),即每个位置2个边界框预测。更快但不太准确的YOLO版本称为Fast YOLO,它仅使用9个卷积图层,具有较浅的特征图。

损失函数

YOLO预测每个网格单元有多个边界框。为了计算真实正值的损失,我们只希望其中一个负责对象。为此,我们选择具有最高IoU(与工会的交集)和基本事实的人。这种策略导致边界框预测之间的专门化。每个预测都可以更好地预测某些大小和纵横
比。
YOLO使用预测值与基本事实之间的平方和误差来计算损失。损失函数包括:

  • 在分类的损失
  • 位置的损失(预测边界框与真实框之间的误差)
  • 置信度的损失
    在这里插入图片描述

非最大抑制

YOLO可以对同一物体进行重复检测。为了解决这个问题,YOLO应用了非最大抑制以较低的置信度删除重复项。非最大抑制会在mAP中增加2-3%。

这是可能的非最大抑制实现之一:

  1. 按置信度分数对预测进行排序。
  2. 从最高分开始,如果我们发现任何先前的预测与当前预测具有相同的类并且IoU>
    0.5,则忽略任何当前预测。
  3. 重复步骤2,直到检查完所有预测。

YOLOv2

SSD是YOLO的强大竞争对手,它一方面证明了实时处理的更高准确性。与基于区域的探测器相比,YOLO的定位误差更高,召回率(衡量所有物体的定位效果)更低。YOLOv2是YOLO的第二个版本,目的是在提高准确性的同时又要使其更快。

第一方面:精度提升

批量标准化

在卷积层中添加批处理规范化。mAP提升了2%。

高分辨率分类器

YOLO培训分为两个阶段。首先,我们训练像VGG16这样的分类器网络。然后,我们用卷积层替换完全连接的层,并端到端对其进行重新训练以进行对象检测。YOLO用224×224图片,然后是448×448图片来训练分类器,以进行物体检测。YOLOv2从224×224张图片开始进行分类器训练,但随后以更少的时间间隔再次以448×448张图片重新分类器。这使检测器的训练更加轻松,并将mAP提高4%。

卷积与锚框

如YOLO论文所述,早期训练易受不稳定梯度的影响。最初,YOLO在边界框上进行任意猜测。这些猜测可能对某些对象有效,但对另一些对象则不利,从而导致陡峭的梯度变化。在早期的培训中,关于哪种形状要专门进行预测是相互斗争的。
在这里插入图片描述
由于我们只需要一个猜测就对了,因此,如果我们从现实生活中常见的各种猜测开始,初始训练将更加稳定。例如,我们可以创建5个具有以下形状的锚框。
在这里插入图片描述
代替预测5个任意边界框,我们预测到上面每个锚定框的偏移量。如果我们限制偏移值,则我们可以保持预测的多样性,并使每个预测着眼于特定形状。因此初始培训将更加稳定。

删除负责预测边界框的完全连接的层

在这里插入图片描述

增加边界框为5个

每个预测都包括边界框的4个参数(x, y, w, h),1个框的置信度得分(客观性)和20个类概率。即5个带有25个参数的边界框:每个网格单元125个参数。与YOLO一样,客观性预测仍可预测地面实况和拟议方框的IOU。

将输入图像的大小从448×448更改为416×416。

这将创建一个奇数空间尺寸(7×7与8×8网格单元)。图片的中心通常被大物体占据。使用奇数网格单元,可以更确定对象所属的位置。

维度簇

在许多问题域中,边界框具有很强的模式。例如,在自动驾驶中,两个最常见的边界框将是距离不同的汽车和行人。为了确定对训练数据具有最佳覆盖范围的前K个边界框,我们在训练数据上运行K-均值聚类,以找到前K个聚类的质心。
在这里插入图片描述

细粒度的功能

卷积层逐渐减小空间尺寸。随着相应分辨率的降低,很难检测到小物体。其他对象检测器(如SSD)可从功能图的不同层定位对象。因此,每一层都以不同的规模专长。YOLO采用了另一种称为直通的方法。它将26×26×512层重塑为13×13×2048。然后
与原始的13×13×1024输出层连接。现在,我们在新的13×13×3072层上应用卷积滤波器进行预测。
在这里插入图片描述

多尺度培训

删除完全连接的图层后,YOLO可以拍摄不同尺寸的图像。如果宽度和高度加倍,我们将只进行4倍的输出网格单元,因此进行4倍的预测。由于YOLO网络会将输入下采样32倍,因此我们只需要确保宽度和高度是32的倍数即可。在训练期间,YOLO拍摄
的图像尺寸为320×320、352×352,…和608×608(步骤32)。对于每10批,YOLOv2随机选择另一个图像大小来训练模型。这充当数据增强,并迫使网络针对不同的输入图像尺寸和比例进行良好的预测。另外,我们可以使用较低分辨率的图像进行目标检测,但要以准确性为代价。在低GPU功耗的设备上,这可能是一个不错的折衷方案。YOLO以288×288的速度在90 FPS的条件下运行,其mAP几乎与Fast R-CNN一样。

准确性

这是应用到目前为止讨论的技术之后的准确性提高:
在这里插入图片描述
不同检测器的精度比较:
在这里插入图片描述

YOLOv3

在Pascal Titan X上,它以30 FPS的速度处理图像,并且在COCO测试开发中的mAP为57.9%。

class预测

大多数分类器假定输出标签是互斥的。如果输出是互斥的对象类,则为true。因此,YOLO应用softmax函数将分数转换为总计为1的概率。YOLOv3使用多标签分类。例如,输出标签可以是非排他性的“行人”和“孩子”。(现在输出的总和可以大于1。)
YOLOv3用独立的逻辑分类器替换了softmax函数,以计算输入属于特定标签的可能性。YOLOv3在计算分类损失时不使用均方误差,而是对每个标签使用二进制交叉熵损失。通过避免softmax函数,这也降低了计算复杂度。

边界框预测和损失函数计算

YOLOv3使用逻辑回归预测每个边界框的客观性得分。YOLOv3改变了计算损失函数的方式。如果边界框先验(锚点)与真实物体的重叠程度大于其他事实,则对应的客观性得分应为1。对于重叠度大于预定义阈值(默认值为0.5)的其他先验,它们不
会产生任何成本。每个地面真理对象仅与一个边界框相关联。如果没有分配先验边界框,则不会导致分类和定位丢失,而只会降低客观性的置信度。我们使用tx和ty(而不是bx和by)来计算损失。
在这里插入图片描述

金字塔网络

YOLOv3每个位置进行3个预测。每个预测由边界框,客观性和80个类别分数组成,即N×N×[3×(4 + 1 + 80)]个预测。YOLOv3以3种不同的尺度进行预测(类似于FPN)

特征提取器

使用新的53层Darknet-53代替Darknet-19作为特征提取器。Darknet-53主要由3×3和1×1滤波器组成,这些滤波器具有跳过连接,例如ResNet中的残留网络。与ResNet152相比,Darknet-53具有更少的BFLOP(十亿浮点运算),但以2倍的速度实现了相
同的分类精度。

YOLOv3性能

YOLOv3的COCO AP指标与SSD相当,但速度提高了3倍。但是YOLOv3的AP仍然落后于RetinaNet。特别是,AP @ IoU = .75与RetinaNet相比明显下降,这表明YOLOv3具有更高的定位误差。YOLOv3在检测小物体方面也显示出显着改进。
在这里插入图片描述
当速度很重要时,YOLOv3在快速检测器类别中的表现非常好。
在这里插入图片描述

发布了74 篇原创文章 · 获赞 47 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/weixin_40639095/article/details/103973101