深度学习论文: YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection

深度学习论文: YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection
YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection
PDF: https://arxiv.org/pdf/2308.05480.pdf
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

基于一系列对不同Kernel-Size卷积如何影响不同尺度上目标检测性能的研究,提出一个名为YOLO-MS的网络架构。作者在MS COCO数据集上从头开始训练YOLO-MS,而不依赖于任何其他大规模数据集,如ImageNet,或预训练权重。YOLO-MS在使用相同数量的参数和FLOPs的情况下,优于最近的最先进的实时目标检测器,包括YOLO-v7和RTMDet。
在这里插入图片描述
YOLO-MS从两个新的角度考虑为实时目标检测编码多尺度特征:

  • 从局部视角来看,设计的一个具有简单而有效的分层特征融合策略的MS-Block。受到Res2Net 的启发,在MS-Block中引入了多个分支进行特征提取,但是不同的是,使用了具有深度卷积的反向瓶颈块,以实现对大内核的高效利用。
  • 从全局视角来看,提出了逐渐增加卷积核大小的策略,随着网络的深入,在浅层使用小内核卷积来更高效地处理高分辨率特征。另一方面,在深层中采用大内核卷积来捕捉广域信息。

2 YOLO-MS

2-1 Multi-Scale Building Block Design

CSP块是一个基于阶段级梯度路径的网络,平衡了梯度组合和计算成本。广泛的应用于YOLO系列。除了YOLOv4和YOLOv5中的原始版本,同时衍生出了几种变体,Scaled YOLOv4中的CSPVoVNet,YOLOv7中的ELAN,以及RTMDet中提出的大Kernel单元。基于Res2Net 和 大Kernel卷积,作者希望将来自不同层次的特征融合以增强多尺度表示,进一步提升目标检测性能,但是将大Kernel卷积纳入Res2Net,会引入不必要的计算开销,因此作者提出用 Inverted Bottleneck Block替代Res2Net中标准的3 × 3卷积,以享受大Kernel卷积的好处。
在这里插入图片描述
基于前面的分析,作者提出了一个带有分层特征融合策略的全新Block,称为MS-Block,以增强实时目标检测器在提取多尺度特征时的能力,同时保持快速的推理速度。MS-Block的具体结构如上图©。

2-2 Heterogeneous Kernel Selection Protocol

从宏观角度,在这项工作中,作者建议在不同阶段中采用异构卷积,以帮助捕获更丰富的多尺度特征。具体而言,在编码器的第一个阶段中,采用最小Kernel卷积,而最大Kernel卷积则位于最后一个阶段。随后,逐步增加中间阶段的Kernel-Size,使其与特征分辨率的增加保持一致。这种策略允许提取细粒度和粗粒度的语义信息,增强了编码器的多尺度特征表示能力。

在这里插入图片描述
从实验可以看出,透出的HKS协议能够在深层中扩大感受野,而不会对浅层产生任何其他影响。此外,HKS不仅有助于编码更丰富的多尺度特征,还确保了高效的推理。
在这里插入图片描述

2-3 Architecture

YOLO-MS模型的Backbone由4个阶段组成,每个阶段后面跟随1个步长为2的3 × 3卷积进行下采样。在第3个阶段后,添加了1个SPP块,与RTMDet中一样,使用PAFPN作为Neck来构建特征金字塔。它融合了从Backbone不同阶段提取的多尺度特征。Neck中使用的基本构建块也是MS-Block,在其中使用3 × 3深度可分离卷积进行快速推理。

不同尺度的YOLO-MS变体如下:
在这里插入图片描述

3 Experiments

在这里插入图片描述

Grad-CAM可视化:
在这里插入图片描述

与其他YOLO检测器集成:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/shanglianlm/article/details/132336806