Abstract

目前目标检测算法在小目标检测中的效果很差，主要原因是低层网络缺乏语义信息，小目标检测数据所表达的特征信息非常缺乏。针对上述困难，本文提出了一种 基于多尺度特征融合的小目标检测算法。通过在浅层学习浅层特征和在深层学习深层特征，所提出的多尺度特征学习方案侧重于具体特征和抽象特征的融合。它构建了 基于多尺度深度特征学习网络的目标检测器（MSFYOLO），并考虑了单个目标与局部环境之间的关系。结合全局信息和局部信息，通过融合网络中的不同深度特征层构建特征金字塔。此外，本文还提出了一种新的特征提取网络（CourNet），与主流骨干网络相比，通过特征可视化的方式，该网络可以更好地表达小目标的特征信息。所提出的算法在 MS COCO 上进行了评估，与 YOLOv3 相比，FPS 提高了 11.7%，AP 提高了 17.0%，ARS 提高了 81.0%，计算 FPLO 减少了 23.3%，取得了领先的性能。本研究表明，全局信息和局部信息的结合有助于检测小目标在不同光照下的表达。MSFYOLO使用CourNet作为主干网络，效率高，准确率和速度之间取得了很好的平衡。

I. INTRODUCTION

目标检测是计算机视觉领域的一个重要研究方向[1]。自2012年以来，AlexNet[2]在ILSVRC Challenge[3]的图像分类任务中以显著势获得冠军，可见卷积神经网络强大的特征表示能力。从此开始了基于深度学习的研究热潮。在随后的几年中，引入了更强大的分类网络，如 VGGnet [4]、Googlenet [5]、ResNet[6]、Inception v3[7]、Densenet [8]、Senet [9] 等。因为它们能够提取非常抽象的特征，所以除了图像分类之外，它们还常被用作更复杂的计算机视觉任务的骨架网络，包括目标检测。 2014年，R-CNN算法[10]在PSACAL VOC检测数据集[12]中以绝对优势超越DPM算法[11]，标志着目标检测的新里程碑。从此，深度学习算法在目标检测研究领域占据了绝对主导地位，并一直延续至今[13]。

无论是选择单阶段目标检测方法还是双阶段目标检测方法，都很难检测到小目标。具体来说，小目标检测主要面临以下挑战：

首先，底层特征缺乏语义信息[14]。在现有的目标检测模型中，一般使用骨干的底层特征来检测小目标，但是底层特征语义信息的缺失给小目标的检测带来了一定的困难。

其次，小目标的训练样本数据量小[15]。由于 采集到的样本图片需要人工标注，导致模型训练过程中无法充分学习到中小型目标。

第三，测试模型和测试任务使用的骨干的区别。现有目标检测模型的主干都是在分类数据集上训练的，但是 分类数据集中目标的尺度分布与检测数据集中的不同[16]。

II. MATERIALS AND METHODS

A. CourNet 提取特征网络

（）

（这篇文章的图片都特别模糊，从ieee下载，看不清楚）

YOLOv5 Backbone 的结构被修改为 C3 网络结构（图 1）。卷积层的减少比 BottleneckCSP 结构更好地提取了浅层特征信息。

C3网络结构层和两层Conv网络结构交替加入。

YOLOv5l 和 CourNet 的主干之间的相同点是最后一层通过 SPP [17] 处理特征（图 2）。

在一般的CNN结构中，全连接通常连接在卷积层之后。全连接层的特征个数是固定的，所以网络输入的时候输入的大小也是固定的。我们的输入图像的尺寸总是不能满足要求的尺寸。然而，通常的技术是裁剪crop 和变形warp。但是，图像的比例方面和输入图像的大小发生了变化。这会扭曲原始图像。 SPP层可以很好的解决这个问题，通常连接到卷积层的最后一层。

使用CNN检测目标时，浅层网络感受野小，分辨率高，低特征由于细节丰富，更适合小目标或简单目标检测。深度网络具有较大的感受野和低分辨率，其高阶特征因其丰富的语义信息更适用于大型或复杂目标检测[36]。因为浅层网络可以更好地表示语义特征信息，而小目标的信息就是语义信息。因此，如果特征提取网络能够在浅层网络中获得更好的语义信息和边缘检测信息，则特征提取网络对语义信息的提取效果更好，更适合作为小目标检测的主干。通过特征可视化对比：VGG19[18]、ResNet152[19]、Inception v3[20]和CourNet，特征可视化对比图如图3所示，其中图3(a)为原图输入图像，图3(b)为VGG19生成的特征图，图3(c)为Resnet152生成的特征图，图3(d)为YOLOv5 backbone生成的特征图，图3( e)是Inception v3生成的特征图，图3(f)是CourNet生成的特征图。从图中可以看出，图3（c）、图3（d）和图3（f）的特征图在semantics YOLOv5 Backbone上表现更好。

B. 多尺度特征融合

MSFYOLO采用路径聚合网络（PANET）结构[21]作为颈部的模型架构，如图4所示。PANET从FPN[22]构建的特征金字塔底部开始，增加一条侧路径自下而上的特征再融合，重构了一个增强空间信息的金字塔。然后对金字塔的每一层进行ROI对齐操作，对齐后的特征层取最大值进行融合，最后在融合后的特征图上进行检测，保证每个物体的预测都充分利用了所有特征层的信息。 MSFYOLO之所以选择PANET，是因为它可以准确保存空间信息，有助于正确定位像素点，形成掩码。

在检测 640×640 输入图像时，YOLOv5 的三个特征层的网格大小分别为 80×80、40×40 和 20×20 [23]。卷积神经网络越深，特征图的感受野越大，这也意味着每个神经元包含更多的全局和高层语义特征，但局部特征和细节特征会丢失。相反，当卷积神经网络较浅时，特征图的神经元所包含的特征往往更加局部和详细[24]。为了更好的识别目标，相比YOLOv5的检测层增加了一个检测层。新的检测层用于检测4×4像素的物体。 MSFYOLO算法四个特征层的大小分别为160×160、80×80、40×40和20×20。 MSFYOLO算法的网络结构如图5所示。（图5啥都看不清，不知道这篇文章怎么回事。）

C. MSFYOLO 损失函数

也就是我们所说的交叉和对比度，是目标检测中使用最多的指标，不仅用于判断正样本和负样本，还用于评估输出框与真实框的距离[25]。计算公式如式1所示，其中A、B分别为两个目标框的面积。可以反映预测测试框和真实测试框的检测效果。另一个好的特性是尺度不变性。 [35]在回归任务中，判断输出框与真实测试框距离的最直接指标是IoU[26]。如果两个框不相交= 0，则无法反映它们之间的距离。同时，由于loss = 0，没有梯度回归，所以无法进行学习和训练。MSFYOLO 的损失函数如等式2所示。

由于IoU是ratio的概念，对目标的尺度不敏感。但是检测任务中的BBox回归损失优化和IoU优化并不完全等价，Ln范数对物体的尺度也很敏感，所以IoU不能直接优化非重叠部分[27]。 GIoU是IoU的下界，在两个框无限重叠的情况下，GIoU =1。 IoU取值[0,1]，但GIoU有一个对称区间，取值范围[1,1]。两者重叠时最大值为1，无交集且相距无限远时最小值为-1。因此，它是一个非常好的距离度量[28]。㼿㼿㼿，也是一种距离的度量，如式3所示。其中，是两个物体框的最小闭合面积，是两个物体框的交集面积。㼿㼿 GIoU的损失函数如图所示在等式 4 中。

这篇文章词有的重复，有的缺词，不看了。

【目标检测论文阅读笔记】MSFYOLO: Feature Fusion-Based Detection for Small Objects