ABSTRACT

小目标检测在现实世界中有着广泛的应用。在复杂场景中检测小目标非常困难，因为它们的分辨率很低。目前，许多研究在提高小目标检测精度方面取得了重大进展。但是，有些算法不能很好地平衡检测速度和精度。为了解决上述问题，本文提出了一种利用多尺度信息的轻量级多尺度网络(LMSN)。首先，通过多尺度特征融合单元在各个尺度上对语义信息交互进行显式建模；其次，采用轻量级感受野增强模块增强网络的特征提取能力；最后，采用一种有效的通道注意模块来增强特征表示能力。为了验证我们提出的网络，我们在两个基准数据集上进行了广泛的实验。LMSN在PASCAL VOC和RSOD数据集上的mAP分别达到75.76%和89.32%，比MobileNetv2-SSD高5.79%和11.14%。值得注意的是，其推理速度分别高达61 FPS和64 FPS。实验结果验证了LMSN在小目标检测中的有效性。

INTRODUCTION

目标检测 (Zaidi et al, 2022) 在计算机视觉领域发挥着重要作用。它旨在准确识别输入图像中的目标并精确定位它们。近年来，基于深度学习的方法，如 Faster R-CNN (Ren et al, 2015)、YOLO (Redmon et al, 2016) 和 SSD (Liu et al, 2016) 等在目标检测方面取得了重大进展。这些方法对大型、高分辨率和清晰的物体表现良好。然而，它们通常不能准确地检测到小目标，因为很难从低分辨率的小物体中学习到丰富的特征表示。小目标检测在现实生活中应用广泛，例如智能监控（Kumar，Punitha 等，2020）、医疗（Ganatra，2021）和自动驾驶（Feng 等，2020）。然而，由于分辨率低和遮挡严重，很难在复杂的现实世界场景中检测到小目标。因此，快速有效地检测小目标已成为一项紧迫的挑战。

近年来，提出了一系列基于深度学习的方法来检测小目标。 Pang 等人（2019 Efficient featurized image pyramid network for single shot detector）提出了一种轻量级的特征图像金字塔网络，它结合了特征注意力和前向融合 来检测小物体。 Ma & Zhou (2020 An improved small object detection algorithm based on attention mechanism and feature fusion) 引入了一个 注意力模块 来有效地提取小目标特征，并采用特征融合来准确地回归小目标位置。 Qu et al (2020 Dilated convolution and feature fusion SSD network for small object detection in remote sensing images) 融合了浅层特征图和深层特征图，以加强浅层特征图的语义表示能力。同时，采用扩张卷积来增强特征图的感受野。 Zhai et al (2020) 应用 DenseNet 提取特征并设计了一种新颖的特征融合机制，提高了小目标检测的检测性能。 Huang 等人 (2021 FaPN: feature-aligned pyramid network for dense image prediction) 提出了一种特征对齐的金字塔网络，该网络集成了 特征对齐模块和特征选择模块 以提高模型性能。 Qian 等人 (2020 Dilated convolution and feature fusion SSD network for small object detection in remote sensing images) 提出了一种分布排序损失，解决了小目标的类不平衡问题。结果表明，该方法大大提高了小目标检测性能。 Zhang & Jiang (2022 SSD small object detection algorithm integrating feature enhancement and self-attention.) 构建了一个 从高层到低层的 递归逆向路径，包括深度特征增强模块、上采样特征增强模块和自适应特征融合模块。 Fan et al (2020) 集成了 Faster R-CNN、Tiny Face 和 CNN 进行头盔佩戴检测，提高了现有方法在复杂场景中的精度和召回率。

尽管这些方法取得了可喜的成果，但在小目标检测方面仍然存在挑战。一方面，由于低级特征图中缺乏语义信息，无法准确检测到小物体。另一方面，小物体像素少，分辨率低，导致检测的特征不足。此外，上述方法都 以牺牲检测速度为代价来提高小目标检测精度，不能很好地兼顾精度和速度。

在本文中，我们 提出了一种高精度、高速度的轻量级多尺度网络（LMSN）来解决上述问题。与现有方法不同，LMSN配备了三个创新设计模块，即多尺度特征融合（MSFF）、轻量级感受野增强（LRFE）和高效通道注意力（ECA）。 MSFF是一个特征融合模块，旨在融合低层细节特征和高层语义特征，增强低层特征图中小目标的语义表达。同时，在特征融合过程中采用LRFE，通过 模拟人的视觉感受野，增强小目标特征提取能力。最后引入ECA，更加关注重要信息，增强特征表示能力。实验结果表明，LMSN在满足实时检测要求的同时，显著提高了小目标检测精度。

这项工作的主要贡献可以概括如下：（1）提出了一种用于小目标检测的新型 LMSN，这有助于在复杂的现实世界场景中进行小目标检测的鲁棒和快速学习。 (2) 针对小目标检测难的关键问题，精心设计了三大创新模块。同时，网络在准确性和速度之间取得了很好的平衡。 (3) 所提出的 LMSN 在两个不同的基准数据集上建立了可比的小目标检测性能。实验结果表明，LMSN 以具有竞争力的推理速度极大地提高了检测精度。

本文的其余部分组织如下。 “相关工作”描述了对文献的回顾。 “提出的方法”详细介绍了我们提议的 LMSN 架构。 “实验和结果”展示了实验结果及其分析。最后，“结论”给出了本文的结论。

RELATED WORK

在本节中，我们简要回顾了目标检测方法、特征融合方法、感受野增强方法和注意力机制方面的相关工作。

目标检测方法

根据特征提取方法，目前的目标检测方法可以分为两类：传统的目标检测方法和基于深度学习的目标检测方法。早期，传统的目标检测方法（Viola & Jones, 2001; Dalal & Triggs, 2005; Felzenszwalb, McAllester & Ramanan, 2008）主要依靠手工制作的特征。提取的特征比较单一，复杂场景下的目标检测精度较低，限制了此类方法的广泛应用。

随着人工智能的发展，深度学习方法越来越多地用于分类和检测任务（Yu et al, 2022）。基于深度学习的目标检测方法通过强大的深度卷积神经网络提取特征，一般可分为两类。第一种是基于区域生成的两阶段方法，如 R-CNN (Girshick et al, 2014)、Fast R-CNN (Girshick, 2015)、Faster R-CNN、R-FCN (Dai et al, 2016), Mask R-CNN (He et al, 2017) 等。这种方法虽然对小尺度物体检测效果好，但计算过程复杂。因此，两阶段方法的检测速度较慢，不适合实时应用。另一种是基于回归的单阶段方法，如YOLO系列（Redmon & Farhadi, 2017; Redmon & Farhadi, 2018; Bochkovskiy, Wang & Liao, 2020）、SSD、RetinaNet（Lin et al, 2017b）、EfficientDet (Tan, Pang & Le, 2020) 等等。这种方法使用端到端的方法来检测对象。与两阶段方法相比，检测速度更快，但检测效果不是很理想。

为了权衡当前目标检测模型的推理速度和检测精度，MobileNetv2-SSD算法（Huang et al, 2022a Traffic pedestrian detection algorithm based on lightweight SSD）应运而生，该算法采用 MobileNetv2 作为骨干网络来提取特征。 MobileNetv2-SSD在兼顾速度和准确率方面取得了令人满意的平衡，在目标检测领域得到了广泛关注和广泛应用。尽管 MobileNetv2-SSD 算法取得了优越的性能，但始终存在更准确的小物体检测空间。 Chen等人（2019）提出了一种多尺度网络模型用于小目标检测，可以学习到丰富的小目标特征。 Sun et al (2021) 通过 增强检测特征 提高了小物体检测性能。 Wu et al (2021) 结合特征金字塔网络的思想，合并包含丰富语义信息的特征层。该方法提高了检测小物体的模型性能。上述方法 以牺牲检测速度为代价 提高了对小尺度物体的模型检测性能，不利于在现实生活中的实时应用。

本文 在MobileNetv2-SSD的基础上增加了三个有效模块，构建了一个轻量级高效的多尺度网络。该网络不仅保证了准确性和速度的良好平衡，而且大大提高了小目标的检测性能。

Feature fusion

目前的物体检测方法可以在复杂场景中准确检测出大物体，但不适用于小物体检测。特征融合可以有效解决这个问题，提升模型检测性能。之前的大量工作已经提出了许多特征融合方法。 Lin 等人 (2017a) 构建了一个具有横向连接的自顶向下结构，称为特征金字塔网络 (FPN)。该结构利用上采样和横向连接来生成具有更强语义信息的特征图。 Liu et al (2018) 在 FPN 的基础上添加了一个自下而上的路径增强和快捷连接。路径聚合网络（PANet）被提出来进一步增强网络的定位能力。 Guo 等人 (2020) 提出了一种增强型 FPN (AugFPN)，它由一致选择、残差特征增强和软 ROI 选择组成。 AugFPN 有效地解决了 FPN 中语义缺口和信息丢失的问题。 Tan, Pang & Le (2020) 设计了一个 加权双向特征金字塔网络 (BiFPN)，它利用跨尺度连接和加权特征融合来学习不同特征的重要性。该方法大大提高了检测效率。 Jiang 等人 (2022) 开发了一种由queen-fusion式路径和跳层连接组成的新型广义 FPN (GFPN) 结构，大大提高了模型精度。

基于以上研究，许多特征融合方法被应用到目标检测中。 Leng & Liu (2019) 使用双向传输的特征信息来融合来自不同输出层的特征图，从而提高了网络性能。 Fan et al (2019) 提出了一种由特征聚合块和密集特征金字塔组成的特征融合块，显著提高了模型精度并保持了接近的检测速度。 Cheng 等人 (2020a) 设计了一种跨尺度的特征融合结构，该结构结合了特征金字塔网络和 squeeze-and-excitation 挤压激励块。 Shahin & Almotairi (2021) 使用加性融合函数来融合光谱显着性特征图和空间特征图。在自建的沙漠建筑数据集上的结果表明，该架构能够有效提升检测性能。现有的特征融合方法网络结构复杂，检测流程长，大大降低了检测速度。与上述方法不同，我们提出的特征融合模块实现了出色的检测性能，简化了融合结构并降低了网络复杂度。特征融合模块新生成的特征金字塔网络在保证检测速度的同时有效检测小尺度目标。

感受野增强

骨干网提取的低层特征图感受野小，不利于小目标特征识别。许多研究通过扩大特征图的感受野来解决这个问题。已经提出了一系列方法来扩大感受野。 He et al (2015) 采用 空间金字塔池化来任意缩放输入图像。该方法获得了固定长度的表示，避免了重复的卷积计算，大大加快了检测速度。 Zhao et al (2017) 设计了金字塔池化模块，有效增加了感受野，增强了全局信息的利用率。该模块使用四种不同尺度的池化操作得到多尺度特征图，并通过通道拼接形成最终的特征表示。 Chen 等人 (2017) 提出了 Atrous Spatial Pyramid Pooling (ASPP)，它采用具有多个空洞率的空洞卷积来捕获多尺度语义。该方法在不损失分辨率的情况下扩大了感受野。受人类视觉系统中感受野 (RF) 结构的启发，Liu, Huang 等人 (2018) 提出了一种 新颖的感受野块 (RFB)。这种设计生成了更高分辨率的特征图，捕获了更多的上下文信息。 Li 等人 (2019) 提出了一个Trident Network，该网络利用具有不同感受野的多分支结构来检测物体。 Zhang et al (2020) 添加了一个 多尺度空洞卷积模块 来扩大特征层的感受野，增强网络的学习能力。 Liu et al (2021) 设计了 不同采样率的混合膨胀卷积，扩大了感受野，提高了小目标检测性能。 Huang 等人 (2022b) 设计了一种新颖的 Parallel-insight并行洞察卷积层来从不同领域提取信息，该层与时空双注意力单元集成以提取高质量的全局时空特征。该方法有效地提高了跨视图步态识别。 Wang 等人 (2021) 提出了一种由空间全局池化、通道压缩和时间膨胀密集预测层组成的时域膨胀密集预测块。该方法在视频动作识别方面取得了优异的性能，同时保持了较低的计算成本。

受上述研究的启发，我们设计了一个轻量级的感受野增强模块。该模块细化了检测分支，它使用并行卷积和串行卷积来大大减少计算量。同时，应用不同膨胀率的膨胀卷积来扩大特征层的感受野。此外，在特征融合模块中加入感受野增强模块，获得更高分辨率的特征，进一步提升了检测性能。

注意力机制

最近，注意力机制在目标检测方法中得到了广泛的应用。在小目标检测过程中，注意力机制可以抑制不相关的背景信息，强化关键特征。注意力机制的发展越来越受到重视。 Hu, Shen & Sun (2018) 设计了 Squeeze-and-Excitation (SE) 块，通过学习通道之间的相互关系来重新校准通道特征表示。该结构显著提高了网络性能，而计算成本仅略有增加。 Woo 等人 (2018) 开发了一种 卷积块注意模块 (CBAM)，以自适应地细化通道和空间维度的特征。 Cao 等人 (2019) 提出了一个 全局上下文 (GC) 块，它有效地对全局上下文进行了建模。 Wang 等人 (2020) 设计了一个 高效通道注意力 (ECA) 模块，该模块使用局部通道交互策略自适应地学习通道特征。

基于以上研究，注意力机制被广泛应用于目标检测方法中。 Gao, Cai & Ming (2020) 开发了一个具有高效通道注意力机制的残差模块，称为 ECA-ResNet。该架构通过全局平均池化和局部跨通道交互操作增强了每个特征图之间的连接。 Li 等人 (2020) 设计了新的注意力单元来自适应地实现跨通道、空间和领域的注意力机制。 Lu 等人 (2021) 提出了一种新颖的注意力模块，它有两条路径来抑制背景干扰信息和突出重要特征信息。 Dong 等人 (2022) 开发了一种 Shuffle Polarized Self-Attention (SPSA)，以在通道和空间维度上自适应地生成更具辨别力的特征表示。该检测器结合SPSA在小麦穗检测任务中取得了优异的检测效果。

虽然我们提出的特征融合模块结合了浅层和深层的特征，但 每个特征层之间的相关性很弱。因此，我们在特征融合模块新生成的特征金字塔之后引入了一个高效的通道关注模块。该模块通过分配不同的权重来学习特征层之间的特征信息。此外，特征融合与注意力机制相结合的方案，不仅加强了网络对关键特征的注意力，还增强了特征表达能力。

PROPOSED METHOD

在本节中，我们首先说明 LMSN 的网络架构。然后，我们详细描述了建议的 MSFF 模块、LRFE 模块和 ECA 模块。

网络架构

MobileNetv2-SSD是一种基于SSD的改进方法，使用 MobileNetv2 代替 VGG16 作为骨干网络。 MobileNetv2-SSD目标检测方法 可以大大减少计算量，加快推理速度。但是对于小目标的检测，并不尽如人意。该方法从提取的特征层中选择六个不同尺度的特征层进行预测。这些特征层相互独立，低层特征图的细节特征和高层特征图的语义信息没有得到充分利用。这个缺点导致小目标的漏检和误检问题。此外，该方法仅在每个特征层上分别预测对象。这些特征层之间的联系较弱，信息交互不完整。这些问题导致关键特征容易受到背景信息的干扰，使得网络对小目标检测效果不佳。

为了提高小目标的检测性能，我们 提出了一种改进的 MobileNetv2-SSD 物体检测方法，称为 LMSN。如图1所示，LMSN主要包括三个模块：MSFF模块、LRFE模块和ECA模块。

(1) 首先，MSFF被开发用于融合不同尺度的特征层，将更丰富的语义表达引入到具有更详细信息的特征图中。然后生成一个新的多尺度特征金字塔网络来检测不同的物体。

(2) 接下来，我们在特征提取过程中加入 LRFE 以扩大感受野并增强特征提取能力。

(3)最后采用ECA 加强各特征图之间的关联。 ECA可以抑制不相关的背景信息，强调关键信息。 LMSN 在不降低推理速度的情况下有效地提高了小尺度物体的检测性能。

LMSN的 整体网络框架 如下： LMSN的输入图像大小为300×300。我们首先使用 MobileNetv2 作为骨干网络 进行特征提取，生成三个有效特征层bottleneck3_3、bottleneck5_3和bottleneck7。具体来说，分别是bottleneck3的第三次卷积的特征，bottleneck5的第三次卷积的特征，bottleneck7的卷积的特征。这些特征层被输入到 LRFE 模块 以增加感受野。然后，通过MSFF模块融合高层特征和低层特征，得到包含更丰富信息的新特征层。对新特征层进行5次stride为2的卷积运算，生成新的特征金字塔网络，该网络 由6个不同尺度的特征层组成。接下来，我们使用 ECA模块来抑制这些特征层不相关的背景信息，让网络更加关注关键特征。最后，新特征金字塔网络输出的特征图从高到低依次为38×38、19×19、10×10、5×5、3×3、1×1。尺寸为38×38和19×19的特征图是高层特征图，比较大，适合检测小物体。尺寸为10×10、5×5、3×3、1×1的feature maps是低层特征图，体积小，适合检测大物体。

在检测过程中，将有效特征层划分为网格，在每个网格上生成相应的不同尺度和纵横比的默认框。对每个特征层进行分类和回归，以预测物体的类别和位置。回归分支不断调整先验框以逼近对象的真值框。分类概率由softmax函数计算。

default boxes默认框的计算方法如下：在特征图上生成的默认框的尺度遵循线性递增的规律：随着特征图尺寸的减小，默认框的尺度线性增加，如Eq(1)所示.

其中 $s_{min}$ = 0.2， $s_{max}$ = 0.9，m 是特征图的数量。

每个默认框的纵横比设置为 ar ∈ {1,2,3, 1/2 , 1/3 }。这样，我们就可以计算出每个默认框的宽度和高度。当纵横比为 1 时，我们还添加了一个默认框，其比例为，导致每个网格有 6 个默认框。通过组合具有不同比例和纵横比的默认框，我们可以轻松检测不同比例的对象。

检测结束后，通过 非极大值抑制（NMS）算法去除重复的预测框，得到最终的检测结果。 NMS算法根据分类置信度从高到低对每个类别的预测框进行排序。在某个类别中，首先选择置信度最高的框。然后计算该框与其余框的并集交集 (IOU)。当 IOU 高于设定的阈值时，删除相应的框。

多尺度特征融合模块

MobileNetv2-SSD 方法利用多尺度特征层对各种尺度和形状的目标进行分类和预测。大规模低级特征图适用于检测小规模目标。小尺度高级特征图主要用于检测大尺度物体。大规模低级特征图虽然细节信息丰富，分辨率高，但感受野小，语义表达能力弱。小尺度高层特征图感受野大，语义表示丰富，但细节信息表示能力弱，分辨率小。另外，这些特征图相互独立，特征信息比较单一。因此，MobileNetv2-SSD对于小目标检测的检测精度较低。

为了解决上述问题，我们结合 FPN 的思想提出了一种轻量级高效的 MSFF 模块。 MSFF模块融合了大规模低级特征图的细节特征和小规模高级特征图的语义信息。该模块最终得到包含更丰富语义特征表示的低级特征图，有效解决了小尺度目标检测性能不理想的问题。 MSFF的结构如图2所示。

MobileNetv2-SSD 使用六种不同比例的特征图进行目标检测。对应的特征尺寸为19 × 19,10 × 10,5 × 5,3 × 3,2 × 2和1 × 1。我们认为 空间尺寸小于5 × 5的特征图具有较少的语义信息可以合并。如果将这些特征层与大规模特征层合并，只会增加模型的计算量，降低检测速度。所以我们没有融合这些特征图。此外，尺度最大的特征图为 bottleneck5_3层的19 × 19，对于低分辨率小目标的检测仍然不够。尺度尺寸为 75×75 的特征层对最终性能也没有任何好处。因此我们将38 × 38尺度大小的特征图合并到MSFF中。

MSFF模块的流程如下。

(1) 首先对每个特征图使用1×1卷积来降低通道维度，使得每个特征图中的通道维度一致。

(2) 接下来，我们将 bottleneck3_3 的特征层的大小设置为基本大小。对于尺寸小于基本尺寸的特征图，我们使用双线性插值来调整到基本尺寸。这样，MSFF 模块中的所有特征图在空间维度上具有相同的 38×38 尺度。

(3) 然后，利用 concatenation拼接方法融合这些特征层，并加入批归一化操作以防止过拟合，从而获得语义信息更丰富的特征图。

(4) 最后，应用1×1卷积减少通道数，从而生成最终的特征图。新的特征图结合了低级特征图和高级特征图，包含丰富的细节信息和更多的语义信息。新的特征图更有利于小目标检测。

轻量级感受野增强模块

MobileNetv2- ssd方法利用MobileNetv2作为骨干网来提取特征。虽然 MobileNetv2 结构简单，参数较少，但提取的特征不足。骨干网从输入图像中提取特征后，提取的低层特征图感受野小，特征表达能力不强。此外，感受野小的特征层不利于学习小目标特征。因此，设计了一个 LRFE 模块来扩大低层特征图的感受野。 LRFE不仅降低了网络的复杂度，而且增强了特征的可辨别性和鲁棒性，从而提高了特征提取能力。

受感受野模块 Receptive Field Block 的启发，我们设计了 LRFE 模块。如图 3 所示，它包含四个卷积分支和一个捷径分支。具体来说，（1）首先，在每个卷积分支上采用1×1卷积来减少特征层的通道维度。 (2)其次，将原来的3×3 conv-layer换成1×3加一个3×1 conv-layer，做成 两个平行的卷积分支，减少了计算量，在宽度上增强了特征。同时，将 5×5 的卷积层替换为两个堆叠的 1×3 和 3×1 卷积层，以在高度上增强特征。 (3) 第三，我们使用膨胀率为1、3、3和5的膨胀卷积 获得具有更大感受野的特征图。然后，我们将特征图与前一层相加。 (4)最后通过 ReLU激活函数得到包含更多上下文信息的特征图。该模块扩大了特征层的感受野。在 MSFF 模块中使用包含丰富信息的特征层进行融合是有利的。

LRFE模块利用不同内核的多个分支和具有不同扩张率的扩张卷积来增加特征层的感受野。骨干网提取的特征层经过LRFE模块后可以获得更大的感受野，可以更好地保留图像的空间特征。扩张率为3的扩张卷积层可以获得9×9的感受野，扩张率为5的扩张卷积层可以获得19×19的感受野。最后将所有分支连接起来，生成最终的感受野空间数组，有效增加了特征层的感受野。

高效通道注意力模块ECA

MSFF结合大尺度特征层和小尺度特征层，生成新的多尺度特征金字塔用于检测目标。但这些特征层相互独立，信息交互不完整，容易出现误检和漏检的问题。为了解决这些问题，我们在网络架构中引入了ECA模块。ECA通过分配不同的权重，使网络忽略干扰信息，专注于重要特征。该模块可以有效地增强LMSN的特征表示能力。

许多研究表明，注意力机制可以提高目标检测方法的整体性能。SE-Net首次提出了一种有效的通道注意力学习机制来学习通道注意力，并取得了良好的效果。CBAM 由通道注意力模块和空间注意力模块两个独立的子模块组成，分别对通道和空间进行特征融合。然而，这些方法在结构上更加复杂，主要关注提高性能而牺牲速度。

为了 解决性能与复杂度之间的矛盾，ECA 提出了一种不降低维数的局部跨通道交互策略和自适应选择一维卷积核大小的方法。ECA模块是一个轻量且高效的注意力模块，仅通过少量附加参数就实现了显著的性能改进。ECA模块如图4所示。

如图4所示，ECA首先在输入特征层上 应用全局平均池化操作。其次，ECA捕获局部跨通道交互，然后通过 Sigmoid激活函数获得每个通道的权重。最后，将权重乘以输入特征层的相应元素，得到最终的输出特征层。

通过核大小为k的一维卷积可以有效地实现局部跨通道交互策略，具体计算如式(2)所示。

其中w为通道权重，σ为sigmoid函数，C1D为一维卷积，k为C1D的核大小，y为聚合特征。这里，方法只涉及k个参数。当k = 3时，它可以达到与SE-var3相似的效果，同时降低模型复杂度。

ECA模块的目标是适当地捕获局部跨通道的交互，因此需要确定交互的覆盖范围，即1D卷积的核大小。手动优化交互的超量会消耗大量的计算资源。因此，我们采用一种自适应确定卷积核k 的方法，卷积核k的大小与通道维数C 成正比 (即k与C之间可能存在映射)。最简单的映射是线性函数，但线性映射有一定的局限性。同时，我们知道 信道维数通常是2的指数倍，因此我们使用以2为底的指数函数来表示非线性映射关系，如式(3)所示。

LMSN模型提取的有效特征图分别为38×38×512、19×19×512、10×10×256、5×5×256、3×3×128、1×1×128。根据不同特征图的通道维度，自适应选择一维卷积的核大小来确定局部跨通道交互的覆盖范围。所以不同的通道应该使用不同的卷积核大小。卷积核大小 k 可以在等式 (4).中计算。

其中 k是卷积核的大小，C是通道数，|t|odd 表示最接近t的奇数，我们设置 γ和b为2和1。

实验和结果

在本节中，我们对 PASCAL VOC 和 RSOD 数据集进行实验，并将 LMSN 与最先进的方法进行比较。我们还设计了消融研究来探索我们在 LMSN 中引入的三个模块的性能。

实施细节

我们使用 Pytorch 深度学习框架实现 LMSN 模型，并在 Inter i5-11400H、NVIDIA GeForce RTX 3050 GPU 上对其进行训练。编程语言为Python，操作系统为Windows 11。

在训练期间，执行 Adam (Yi, Ahn & Ji, 2020) 以优化动量为 0.9 的网络，权重衰减为 0.0005。训练过程分为两个阶段：冻结阶段和解冻阶段。它总共有 100 个 epoch，每个阶段训练 50 个 epoch。在冻结阶段，初始学习率为0.0005，批量大小设置为16。在解冻阶段，初始学习率设置为0.0001，批量大小设置为8。此外，我们使用 StepLR 调整学习率的机制，每训练一个epoch，学习率就变成原来的0.94。

输入图像统一缩放到 300×300 大小。应用数据增强方法，例如平移变换、水平翻转、颜色扭曲和随机裁剪来增强数据集并避免过度拟合。

数据集

PASCAL VOC 数据集 (Everingham et al, 2010) 是一个开放的目标检测数据集，包括 20 个不同尺度和姿势的对象类别。我们采用 PASCAL VOC 2007（Everingham 等人，0000）和 PASCAL VOC 2012（Everingham 等人，0000）（16,551 张图像）的训练集来训练 LMSN。 PASCAL VOC 2007 的测试集（4,952 张图像）用于评估性能。

RSOD 数据集（Long 等人，2017 年；Xiao 等人，2015 年）是一个用于遥感图像中物体检测的开放数据集，包括飞机、油箱、立交桥和操场。其中，飞机466幅4993幅，油罐165幅1585幅，立交桥176幅180座，游乐场189幅191个。训练时，RSOD数据集按8:2的比例分为trainval set和test set，trainval set中90%用于训练，10%用于验证。

评价指标

我们使用平均精度 (AP)、平均平均精度 (mAP) 和每秒帧数 (FPS) 作为评估指标来评估模型性能。 FPS 是每秒处理图像的帧数。 AP表示P-R曲线与坐标轴围成的面积。 P-R曲线以召回值为横轴，精度值为纵轴绘制。精度和召回率可以在方程式(5) 和 (6)中定义。

其中TP 代表真正样本，FP代表假正样本，TN代表真负样本，FN代表假负样本。所以AP可以在等式中(7). 计算。

mAP是不同种类AP的平均值。

其中 n 是所有目标类别的数量。

结果与讨论

PASCAL VOC 的结果

为了证明 LMSN 的有效性，我们比较了 LMSN 和最先进的方法，包括 Faster R-CNN、YOLOv3、Tiny YOLOv3、MobileNet-YOLOv3、SSD、Tiny SSD、MobileNet-SSD、MobileNetv2-SSD 和一些改进的方法PASCAL VOC 数据集上的轻量级方法（Wu et al, 2021; Qi et al, 2020; Zhang, Chen & Xiao, 2021; Cheng et al, 2020b）。结果如表 1 所示，其中最佳结果以粗体突出显示。

从结果中我们可以看出，LMSN 的 mAP 高达 75.76%，推理速度保持在 61 FPS。与原始MobileNetv2-SSD相比，LMSN的mAP提高了5.79%，而参数数量仅增加了3.9%。尽管与MobileNetv2-SSD相比，LMSN的检测速度降低了36.4%，但所提出的方法仍能满足实时检测的要求。证明 LMSN在满足实时检测的同时，可以有效提高检测精度。与Faster R-CNN相比，LMSN的mAP提高了2.56%，推理速度提高了54 FPS。同时，参数显著减少。证明 LMSN的整体性能优于两阶段检测方法。与YOLOv3相比，虽然LMSN的准确率下降了1.34%，但参数数量减少了89.8%，检测速度提高了26 FPS。与SSD相比，LMSN的mAP提升了1.46%，参数量减少了75.8%，检测速度提升了15 FPS。它证明了 LMSN 是一种具有良好性能的轻量级方法。与Tiny YOLOv3 和 MobileNet-YOLOv3相比，mAP分别提高了14.46%和6.86%，参数数量分别减少了68.64%和56.69%。与 Tiny SSD 和 MobileNet-SSD 相比，在保持相当的检测速度的同时，mAP 分别提高了 14.46% 和 3.16%，这是一个显著的提高。

此外，LMSN 的性能也优于一些改进的轻量级算法。特别是 Wu 等人 (2021) 和 Cheng 等人(2020b) 提出的方法均采用 300 × 300 输入并使用 MobileNetv2 作为骨干网络。与Wu et al (2021)提出的方法相比，LMSN的mAP减少了0.74%，参数数量减少了10.1%，检测速度提高了39 FPS。 Wu et al (2021)提出的方法虽然检测精度高，但检测速度不能满足实时检测的需要。我们的 LMSN 在保持高检测精度的同时大大加快了检测速度。与Cheng et al (2020b)提出的方法相比，LMSN的参数增加了16.38 M，检测速度降低了36 FPS，但mAP提高了1.96%。Cheng et al (2020b)提出的方法虽然检测速度较快，但检测精度较低。我们的 LMSN 在满足实时检测的同时提高了检测精度。可以得出结论，LMSN可以在检测速度和准确率上取得很好的平衡，是一种高精度和实时性的方法。

为了详细分析 LMSN 的检测性能，我们在 PASCAL VOC 2007 测试集的每个类别中比较了 LMSN 和最先进方法的检测精度，如表 2 所示。在列出的七种方法中，我们加粗单个目标类别的最高 AP。可以清楚地发现，LMSN 的准确性在大多数类别中都超过了最先进的方法。 LMSN 在八个目标类别上取得了最好的检测结果。在其他类别中，虽然由于固定的默认框，LMSN没有达到最好的检测效果，但 AP也超越了很多方法的检测精度。与Faster RCNN相比，LMSN的检测准确率在18个类别上都有所提升。 LMSN也有18个类别超过了SSD，只有两个类别低于SSD。虽然 LMSN 的检测结果仅在 11 个类别上高于 YOLOv3，但 YOLOv3 的网络结构复杂，参数数量多，导致检测速度较慢。我们的LMSN在保证多类别检测精度的同时，大大提高了检测速度。此外，LMSN 的检测精度超过了许多轻量级方法。 LMSN 的检测精度在所有类别中都高于 Tiny YOLOv3。与MobileNet-SSD相比，LMSN的准确率仅在三个类别上有所降低，而在其他类别上取得了优异的检测效果。与 MobileNetv2-SSD 相比，LMSN 对所有目标类别的检测精度都有所提高。具体来说，对于飞机、船、瓶子、椅子、植物、羊、电视等小物体类，检测准确率分别显著提高了6.76%、6.61%、16.96%、10.81%、10.94%、8.93%和8.23 ％。图5是表2的可视化结果，可以直观的看出 LMSN在大部分类别中都处于最高点，说明LMSN达到了优秀的检测性能。

RSOD 的结果

我们还分析了我们提出的 LMSN 和最先进的方法在 RSOD 数据集上的检测性能。如表 3 所示，其中加粗的结果代表最佳性能。从表3中不同方法的比较结果可以看出，LMSN优于大多数常用方法。 LMSN 的 mAP 达到了 89.32%，推理速度为 64 FPS。与原始MobileNetv2-SSD算法相比，LMSN的mAP提高了11.14%，检测速度降低了37 FPS。尽管检测速度降低，但实时仍然是可能的。证明我们的LMSN在兼顾检测速度的同时明显提高了模型精度。同时，LMSN在各个类别的准确率也超越了MobileNetv2-SSD方法，尤其是飞机和油箱的AP分别提升了22.48%和8.51%。与 Faster R-CNN 相比，我们模型的 mAP 提高了 1.56%，检测速度提高了 56 FPS。与YOLOv3相比，虽然LMSN的准确率降低了1.95%，但检测速度提高了35 FPS。与YOLOv2相比，LMSN的mAP提升了20.07%，检测速度提升了28FPS，证明了LMSN在精度和速度上都超越了YOLOv2。 LMSN的检测精度比SSD高1.96%。 LMSN 的检测速度比 SSD 高 16 FPS。与 Tiny YOLOv3 和 Tiny YOLOv4 等轻量级方法相比，LMSN 的 mAP 分别提高了 30.86% 和 2.85%，同时保持了相当的检测速度。这些结果证明了 LMSN 的有效性。

此外，我们将 LMSN 与 Wu 等人 (2021) 和 Cheng 等人 (2020b) 提出的方法进行了比较。这些方法也是使用 MobileNetv2 作为主干网络的轻量级目标检测算法。与Wu et al (2021)提出的方法相比，LMSN的mAP提高了3.54%，而检测速度仅降低了4 FPS。虽然 LMSN 的检测速度略有降低，但检测精度却大大提高。 LMSN 在检测精度和速度上取得了更好的平衡。与Cheng等人（2020b）提出的方法相比，LMSN的mAP提高了3.26%，检测速度提高了22 FPS。可以看出，LMSN 在精度和速度上都超过了 Cheng et al (2020b) 提出的方法。总之，与这些改进的轻量级算法相比，我们提出的 LMSN 在 RSOD 数据集上实现了更好的检测性能，并且可以更有效地检测小物体。

不同方法在RSOD数据集上的检测精度和检测速度分布如图6所示，可以发现LMSN在速度上超越了Faster R-CNN、YOLOv2、YOLOv3、SSD和Tiny YOLOv4，并且优于Faster R-CNN、SSD、YOLOv2、Tiny YOLOv3、Tiny YOLOv4 和 MobileNetv2-SSD 的准确性。总的来说，我们的 LMSN 在检测精度和检测速度方面都取得了出色的检测性能。

五重交叉验证实验

为了评估该方法的泛化性和稳定性，我们对 RSOD 数据集进行了五重交叉验证实验。基本步骤如下： (1) 将RSOD数据集分成五个相等的子集。 (2) 将第一个子集作为测试集，其他四个子集合并作为训练集。 (3)训练模型，计算模型在测试集下的mAP。 (4)重复步骤(2)-(3)，依次取第二至第五个子集作为测试集。 (5)计算五次实验得到的mAP的平均值。通过进行五折交叉验证实验，我们分别得到了MobileNetv2-SSD和LMSN的五次实验的mAP及其平均值，如表4所示。

从表4可以看出，在MobileNetv2-SSD的五个实验中，虽然Test4的结果偏低，但是其他四个实验的结果相差不大，证明了模型是比较稳定的。我们的 LMSN 的五个结果比较接近，这可以有效地说明我们提出的模型的稳定性。同时从表4可以看出，MobileNetv2-SSD的平均mAP为78.11%，而LMSN的平均mAP达到了88.47%。与MobileNetv2-SSD相比，LMSN的mAP提升了10.36%，有效证明了LMSN的有效性。

消融研究

为了定性分析 LMSN 中每个模块的有效性，我们设计了 RSOD 数据集的消融研究。实验 A 是 MobileNetv2-SSD 算法，实验 B 到 E 是使用我们提出的模块的方法，其中“√”表示应用了提出的模块，“×”表示未使用提出的模块。消融研究的结果如表 5 所示。

实验A是MobileNetv2-SSD目标检测算法。 mAP为78.18%，FPS为101.42。 MobileNetv2-SSD在RSOD数据集上取得了较好的检测效果，但对于一些分辨率低、分布密集的小目标检测不便。存在漏检和误检的问题。

实验B在MobileNetv2-SSD的基础上增加了MSFF模块。 mAP从78.18%提高到85.78%，FPS为96.93，证明MSFF可以有效融合浅层特征层的细节信息和深层特征层的语义信息。实验 B 取得了更好的检测性能，检测到了更多的小物体。它说明MSFF模块获得了具有详细特征和丰富语义表示的低级特征层，从而提高了小物体的检测精度。

实验C结合了MSFF模块和ECA模块，在检测速度略有下降的情况下大大提高了检测性能。 mAP从85.78%提高到87.75%，FPS为84.19。证明 ECA可以加强各特征层之间的关联，更加关注关键特征，增强特征表示能力。实验C 提高了小目标的检测精度，减少了小目标漏检的情况。

实验 D 将 LRFE 模块添加到 MSFF 模块。 mAP 从 85.78% 提高到 87.08%，FPS 为 68.23，表明 LRFE 可以有效地扩大特征图的感受野大小，增强特征提取能力。与实验B相比，实验D进一步提高了对小尺度低分辨率目标的检测力度，提高了网络的鲁棒性。这也表明MSFF模块和LRFE模块的组合可以达到更好的检测性能。

实验E就是本文提出的LMSN模型。 LMSN 包含我们提出的三个模块。 mAP提高到89.32%，FPS为64.64。与原始 MobileNetv2-SSD 相比，mAP 增加了 11.14%，而检测速度仅略有降低。与其他实验相比，实验E对分辨率低、分布密集的小物体检测性能最好。可以得出结论，我们设计的三个模块可以在保持检测速度的同时有效地加强检测精度。

结论

本文提出了一种轻量级多尺度网络，称为 LMSN，它 配备了三个有效模块。针对复杂场景中小目标难以识别的问题，设计了 MSFF模块来增强低层特征图的语义表达能力。然后，加入LRFE模块扩大特征图的感受野，增强了网络的特征提取能力。此外，引入ECA模块来抑制不相关的背景信息，增强特征表示能力。 PASCAL VOC 和 RSOD 数据集的实验结果表明，LMSN 优于大多数流行的方法。它以具有竞争力的推理速度实现了卓越的检测性能。然而，小目标检测仍有改进空间，尤其是遮挡严重的小目标。提出的网络结构将在未来的工作中进一步完善。

【目标检测论文阅读笔记】Lightweight multi-scale network for small object detection