YOLO-MS Rethinking Multi-Scale Representation Learning for Real-time Object Detection

摘要

为目标检测社区提供一种高效且性能优良的目标检测器,称为YOLO-MS。其核心设计基于对不同内核尺寸的卷积不同尺度对象检测性能的影响进行一系列研究。结论是,这种新的策略可以显著增强实时目标检测器的多尺度特征表示。为了验证我们的策略的有效性,我们构建了一个名为YOLO-MS的网络架构。我们从头开始训练,不依赖于任何其他大规模数据集或预训练权重。我们的YOLO-MS在使用相当数量的参数和FLOPs时,优于最近的最先进的实时目标检测器,包括YOLOv7和RTMDet。此外,我们的工作还可以作为其他YOLO模块的即插即用模块。

Introduction

实时物体检测,以YOLO为例,在工业领域,尤其是对于无人机和机器人等边缘设备,已经找到了重要的应用。与之前的重型物体检测器不同,实时物体检测器旨在追求速度和准确性之间的最佳平衡,为了追求这个目标,已经提出了大量的工作:从第一代DarkNet 到 CSPNet 再到最近扩展型ELAN,实时物体检测器的架构在性能的快速增长中经历了巨大的变化。
尽管表现出色,但在不同尺度上识别物体仍然是实时物体检测器面临的基本挑战。这激发了我们为学习具有表现力的多尺度特征表示设计一个稳健的编码器架构的动机。具体而言,我们从两个新的角度考虑为实时物体检测编码多尺度特征。
在这里插入图片描述

  • 从本地视角出发,我们设计了一个具有简单而有效的分层特征融合策略的MS-Block。受到Res2Net的启发&#x

猜你喜欢

转载自blog.csdn.net/shengweiit/article/details/132455209