还没搞懂YOLO v7，YOLO v8已经来了！

YOLO系列又双叒更新！

只能说，YOLO系列发展地真快，已经有点跟不上了！

YOLOv1-YOLOv8系列回顾

YOLOv1：2015年Joseph Redmon和Ali Farhadi等人（华盛顿大学）

YOLOv2：2016年Joseph Redmon和Ali Farhadi等人（华盛顿大学）

YOLOv3：2018年Joseph Redmon和Ali Farhadi等人（华盛顿大学）

YOLOv4：2020年Alexey Bochkovskiy和Chien-Yao Wang等人

YOLOv5：2020年Ultralytics公司

YOLOv6：2022年美团公司

YOLOv7：2022年Alexey Bochkovskiy和Chien-Yao Wang等人

YOLOv8：2023年Ultralytics公司

先来看看经典的YOLOv5

Backbone：CSPDarkNet结构，主要结构思想的体现在C3模块，这里也是梯度分流的主要思想所在的地方；
PAN-FPN：双流的FPN，必须香，也必须快，但是量化还是有些需要图优化才可以达到最优的性能，比如cat前后的scale优化等等，这里除了上采样、CBS卷积模块，最为主要的还有C3模块（记住这个C3模块哦）；
Head：Coupled Head+Anchor-base，毫无疑问，YOLOv3、YOLOv4、YOLOv5、YOLOv7都是Anchor-Base的，后面会变吗？
Loss：分类用BEC Loss，回归用CIoU Loss。

话不多说，直接YOLOv8！

YOLOv8是一种尖端的、最先进的（SOTA）模型，它建立在先前YOLO成功基础上，并引入了新功能和改进，以进一步提升性能和灵活性。它可以在大型数据集上进行训练，并且能够在各种硬件平台上运行，从CPU到GPU。

YOLOv8的一个关键特性是它的可扩展性，它被设计成一个框架，支持所有以前YOLO的版本，使得在不同版本之间切换和比较它们的性能变得容易。

除了可扩展性之外，YOLOv8还包括许多其他创新，使其成为各种目标检测和图像分割任务的吸引人的选择。其中包括一个新的骨干网络、一个新的anchor-free检测头和新的损失函数。

总的来说，YOLOv8 是一个强大而灵活的目标检测和图像分割工具，提供了两个最好的功能：最新的SOTA技术；使用和比较所有以前YOLO版本的能力。

YOLOv8 代码：github.com/ultralytics/

权重：github.com/ultralytics/

YOLOv8 文档：Ultralytics Docs

基于YOLOv5，v8的具体改进如下：

Backbone：使用的依旧是CSP的思想，不过YOLOv5中的C3模块被替换成了C2f模块，实现了进一步的轻量化，同时YOLOv8依旧使用了YOLOv5等架构中使用的SPPF模块；
PAN-FPN：毫无疑问YOLOv8依旧使用了PAN的思想，不过通过对比YOLOv5与YOLOv8的结构图可以看到，YOLOv8将YOLOv5中PAN-FPN上采样阶段中的卷积结构删除了，同时也将C3模块替换为了C2f模块；
Decoupled-Head：是不是嗅到了不一样的味道？是的，YOLOv8走向了Decoupled-Head；
Anchor-Free：YOLOv8抛弃了以往的Anchor-Base，使用了Anchor-Free的思想；
损失函数：YOLOv8使用VFL Loss作为分类损失，使用DFL Loss+CIOU Loss作为分类损失；
样本匹配：YOLOv8抛弃了以往的IOU匹配或者单边比例的分配方式，而是使用了Task-Aligned Assigner匹配方式。

PAN-FPN改进了什么？

我们先看一下YOLOv5以及YOLOv6的PAN-FPN部分的结构图：

YOLOv5的Neck部分的结构图如下：

YOLOv6的Neck部分的结构图如下：

我们再看YOLOv8的结构图：

可以看到，相对于YOLOv5或者YOLOv6，YOLOv8将C3模块以及RepBlock替换为了C2f，同时细心可以发现，相对于YOLOv5和YOLOv6，YOLOv8选择将上采样之前的1×1卷积去除了，将Backbone不同阶段输出的特征直接送入了上采样操作。

Head部分都变了什么呢？

先看一下YOLOv5本身的Head（Coupled-Head）：

而YOLOv8则是使用了Decoupled-Head，同时由于使用了DFL 的思想，因此回归头的通道数也变成了4*reg_max的形式：

对比一下YOLOv5与YOLOv8的YAML

损失函数

对于YOLOv8，其分类损失为VFL Loss，其回归损失为CIOU Loss+DFL的形式，这里Reg_max默认为16。

VFL主要改进是提出了非对称的加权操作，FL和QFL都是对称的。而非对称加权的思想来源于论文PISA，该论文指出首先正负样本有不平衡问题，即使在正样本中也存在不等权问题，因为mAP的计算是主正样本。

q是label，正样本时候q为bbox和gt的IoU，负样本时候q=0，当为正样本时候其实没有采用FL，而是普通的BCE，只不过多了一个自适应IoU加权，用于突出主样本。而为负样本时候就是标准的FL了。可以明显发现VFL比QFL更加简单，主要特点是正负样本非对称加权、突出正样本为主样本。

针对这里的DFL（Distribution Focal Loss），其主要是将框的位置建模成一个 general distribution，让网络快速的聚焦于和目标位置距离近的位置的分布。

DFL 能够让网络更快地聚焦于目标 y 附近的值，增大它们的概率；

DFL的含义是以交叉熵的形式去优化与标签y最接近的一左一右2个位置的概率，从而让网络更快的聚焦到目标位置的邻近区域的分布；也就是说学出来的分布理论上是在真实浮点坐标的附近，并且以线性插值的模式得到距离左右整数坐标的权重。

样本的匹配

标签分配是目标检测非常重要的一环，在YOLOv5的早期版本中使用了MaxIOU作为标签分配方法。然而，在实践中发现直接使用边长比也可以达到一阿姨你的效果。而YOLOv8则是抛弃了Anchor-Base方法使用Anchor-Free方法，找到了一个替代边长比例的匹配方法，TaskAligned。

为与NMS搭配，训练样例的Anchor分配需要满足以下两个规则：

正常对齐的Anchor应当可以预测高分类得分，同时具有精确定位；
不对齐的Anchor应当具有低分类得分，并在NMS阶段被抑制。基于上述两个目标，TaskAligned设计了一个新的Anchor alignment metric 来在Anchor level 衡量Task-Alignment的水平。并且，Alignment metric 被集成在了 sample 分配和 loss function里来动态的优化每个 Anchor 的预测。

Anchor alignment metric：

分类得分和 IoU表示了这两个任务的预测效果，所以，TaskAligned使用分类得分和IoU的高阶组合来衡量Task-Alignment的程度。使用下列的方式来对每个实例计算Anchor-level 的对齐程度：

s 和 u 分别为分类得分和 IoU 值，α 和 β 为权重超参。从上边的公式可以看出来，t 可以同时控制分类得分和IoU 的优化来实现 Task-Alignment，可以引导网络动态的关注于高质量的Anchor。

Training sample Assignment：

为提升两个任务的对齐性，TOOD聚焦于Task-Alignment Anchor，采用一种简单的分配规则选择训练样本：对每个实例，选择m个具有最大t值的Anchor作为正样本，选择其余的Anchor作为负样本。然后，通过损失函数(针对分类与定位的对齐而设计的损失函数)进行训练。

---------

v8开源一天已经吸引了600多star数，热度非凡，但我们还是需要看全面看待star fork等，一个代码库刚放出来的时候，配合上营销宣传，star肯定是暴涨的，但是放出来一段时间后，star数的增长趋于平稳，这个时候其实可以关注下star/fork 比，各大YOLO都还在继续保持着创新和更新，可以期待下yolov9 v10，不过不需要盲目就换模型，还是得大致了解下改进点和优劣势后再谨慎选择。

参考

[1].https://github.com/uyolo1314/ultralytics.
[2].https://github.com/meituan/YOLOv6.
[3].https://arxiv.org/abs/2209.02976.
[4].https://github.com/PaddlePaddle/PaddleDetection.
[5].https://github.com/PaddlePaddle/PaddleYOLO.
[6].https://github.com/open-mmlab/mmyolo.

作者丨小书童

来源丨集智书童

END