目标检测之YOLOv5算法分析

YOLOv5共有5个版本的网络模型及其权重文件，即（n,s,m,l,x）。
（下图来自github上yolov5官方开源项目的性能截图）
在这里插入图片描述
其中n,s,m,l,x网络模型结构如出一辙，差异在参数上。另外的n6,s6,m6,l6,x6模型是对于更大分辨率图片检测。

网络结构

该网络结构图来自CSDN博主：江大白。此处引用，仅供学习记录使用。
在这里插入图片描述
此图为 $Y O L O v 5 s$ 的网络模型架构。

Backbone

CSP-Darknet53

Neck

SPPF + CSP-PAN
在这里插入图片描述

Head

YOLOv3 Head
输出三种大小的特征预测，如分别是 $(76, 76, 255), (38, 38, 255), (19, 19, 255)$ ，不同版本不一致。

重点解析

边界框优化
在YOLOv4的基础上，将 $b_w=p_w*e^{t_w}$ 与 $b_h=p_h*e^{t_h}$ 换成 $b_w=p_w*(2*\sigma(e^{t_w}))^2$ 与 $b_h=p_h*(2*\sigma(e^{t_h}))^2$ .
使用 $\sigma$ 函数旨在限制 $t_w$ 与 $t_h$ 的值域，避免出现Nan的情况发生。

数据增强
数据增强方式有mosaic、HSV色域变换、旋转、缩放、翻转、平移、剪切等

真实框与Anchor匹配

$\begin{align} r_w&=\frac{w_{gt}}{w_{at}}\\ r_h&=\frac{h_{gt}}{h_{at}}\\ r_w^{max}&=max(r_w,\frac{1}{r_w})\\ r_h^{max}&=max(r_h,\frac{1}{r_h})\\ r_w^{max}&=max(r_w^{max},r_h^{max})\\ \end{align}$
其中 $w_{gt}$ 为真实框的宽度， $w_{at}$ 为anchor的宽度， $h_{gt}$ 为真实框的高度， $h_{at}$ 为anchor的高度。

$(3) (4)$ 两式子用于衡量真实框与anchor差异大小，如果两者框的差异最小或两个框最相近，那么 $r_h^{max}$ 和 $r_w^{max}$ 为1.最后 $(5)$ 中，获取框在高、宽上的最大差异值。这个差异值会与给定的阈值进行比较，如果满足阈值条件则认为匹配成功，否则失败。该原理与之前的使用IOU匹配原理类似。

损失函数（v6.0及以后版本）
损失=边界框定位损失+目标分类损失+CIoU损失（置信度损失）
$Loss=\lambda_1L_{loc}+\lambda_2L_{cls}+\lambda_3L_{ciou}$
也即在这里插入图片描述
参数K为特征图数量， $S^2$ 为grid cell数量， $B$ 为anchor数量。

其中为了平衡不同尺度的损失（在coco数据集上），对于三个预测特征层 ${P_3(小目标，如76*76),P_4(中等目标，如38*38),P_5(大目标，如19*19)\}$ 上的目标CIOU损失采用不同的权重： $Loss_{ciou}=4*L_{ciou}^{small}+L_{ciou}^{medium}+0.4*L_{ciou}^{large}$
损失函数中，为了提高对小目标的精准度，提高了小目标预测的损失。