深度学习论文: YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection

深度学习论文: YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection
YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection
PDF: https://arxiv.org/pdf/2308.05480.pdf
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

基于一系列对不同Kernel-Size卷积如何影响不同尺度上目标检测性能的研究，提出一个名为YOLO-MS的网络架构。作者在MS COCO数据集上从头开始训练YOLO-MS，而不依赖于任何其他大规模数据集，如ImageNet，或预训练权重。YOLO-MS在使用相同数量的参数和FLOPs的情况下，优于最近的最先进的实时目标检测器，包括YOLO-v7和RTMDet。
在这里插入图片描述
YOLO-MS从两个新的角度考虑为实时目标检测编码多尺度特征：

从局部视角来看，设计的一个具有简单而有效的分层特征融合策略的MS-Block。受到Res2Net 的启发，在MS-Block中引入了多个分支进行特征提取，但是不同的是，使用了具有深度卷积的反向瓶颈块，以实现对大内核的高效利用。
从全局视角来看，提出了逐渐增加卷积核大小的策略，随着网络的深入，在浅层使用小内核卷积来更高效地处理高分辨率特征。另一方面，在深层中采用大内核卷积来捕捉广域信息。

2 YOLO-MS

2-1 Multi-Scale Building Block Design

CSP块是一个基于阶段级梯度路径的网络，平衡了梯度组合和计算成本。广泛的应用于YOLO系列。除了YOLOv4和YOLOv5中的原始版本，同时衍生出了几种变体，Scaled YOLOv4中的CSPVoVNet，YOLOv7中的ELAN，以及RTMDet中提出的大Kernel单元。基于Res2Net 和大Kernel卷积，作者希望将来自不同层次的特征融合以增强多尺度表示，进一步提升目标检测性能，但是将大Kernel卷积纳入Res2Net，会引入不必要的计算开销，因此作者提出用 Inverted Bottleneck Block替代Res2Net中标准的3 × 3卷积，以享受大Kernel卷积的好处。
在这里插入图片描述
基于前面的分析，作者提出了一个带有分层特征融合策略的全新Block，称为MS-Block，以增强实时目标检测器在提取多尺度特征时的能力，同时保持快速的推理速度。MS-Block的具体结构如上图©。

2-2 Heterogeneous Kernel Selection Protocol

从宏观角度，在这项工作中，作者建议在不同阶段中采用异构卷积，以帮助捕获更丰富的多尺度特征。具体而言，在编码器的第一个阶段中，采用最小Kernel卷积，而最大Kernel卷积则位于最后一个阶段。随后，逐步增加中间阶段的Kernel-Size，使其与特征分辨率的增加保持一致。这种策略允许提取细粒度和粗粒度的语义信息，增强了编码器的多尺度特征表示能力。

在这里插入图片描述
从实验可以看出，透出的HKS协议能够在深层中扩大感受野，而不会对浅层产生任何其他影响。此外，HKS不仅有助于编码更丰富的多尺度特征，还确保了高效的推理。

2-3 Architecture

YOLO-MS模型的Backbone由4个阶段组成，每个阶段后面跟随1个步长为2的3 × 3卷积进行下采样。在第3个阶段后，添加了1个SPP块，与RTMDet中一样，使用PAFPN作为Neck来构建特征金字塔。它融合了从Backbone不同阶段提取的多尺度特征。Neck中使用的基本构建块也是MS-Block，在其中使用3 × 3深度可分离卷积进行快速推理。

不同尺度的YOLO-MS变体如下：
在这里插入图片描述

3 Experiments

在这里插入图片描述

Grad-CAM可视化：
在这里插入图片描述

与其他YOLO检测器集成：
在这里插入图片描述