【CVPR2023】具有全局上下文增强的自适应稀疏卷积网络,用于加快无人机图像的目标检测...

论文标题:Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images

9f213a2ec22c799cdc065f4e42577be1.png

代码:https://github.com/Cuogeihong/CEASC

bcb337eb0bc1c4623839603f6ef2e596.png

导读

本文文着眼于解决在无人机平台上进行目标检测所面临的挑战,即需要在有限的计算资源下实现高准确性和低延迟的检测。传统的深度学习方法通常过于复杂,难以适应无人机硬件的资源限制,因此需要一种更高效的方法。

本文提出了一种全新的目标检测优化方法——全局上下文增强自适应稀疏卷积(Global Context Enhancement for Faster Object Detection,CEASC),旨在在无人机图像上实现高效目标检测。CEASC方法不仅仅适用于无人机图像目标检测,而且可以轻松扩展到各种现有目标检测器,例如RetinaNet和GFL V1,以显著降低计算成本,同时保持竞争性的准确性。

本文贡献

  • 我们提出了一种基于稀疏卷积的全新检测头优化方法,即CEASC,以实现无人机的高效目标检测。这个方法为解决无人机平台上的目标检测问题提供了一种创新的途径。

  • 我们引入了一种上下文增强稀疏卷积层和自适应多层掩码方案,用于优化掩码比例,实现检测准确性和效率之间的最佳平衡。通过捕获全局上下文信息,我们能够更好地处理前景区域的波动,从而改进了目标检测的性能。

  • 我们对所提出的方法进行了广泛的评估,将CEASC集成到各种最新的目标检测器(例如RetinaNet和GFL V1)中,并在两个重要的无人机图像基准数据集上进行了测试。这些实验结果表明,我们的方法显著降低了计算成本,同时保持了竞争性的准确性,为无人机图像目标检测提供了一种有效的解决方案。

相关工作

通用目标检测

通用目标检测方法可以分为基于锚点和不基于锚点的检测器两类,具体取决于它们是否使用预设的滑动窗口或锚点来定位目标提议区域。

基于锚点的检测器,如R-CNN、FasterRCNN和Mask RCNN,通常生成提议区域,然后在这些区域内进行目标对象的分类和定位。而一阶段检测器(如RetinaNet和GFL V1/V2)则可以直接在整个特征图上进行对象的分类和定位,将锚点视为最终的边界框目标。

不基于锚点的检测器,如Centernet、FCOS和FSAF,它们使用效率更高的替代方法(如中心约束或对象热图)替代了传统锚点,尽管这些方法取得了一定的进展,但将它们应用于无人机图像上并不那么直接。

航拍图像上的目标检测

对于在无人机图像上进行目标检测,目前的研究通常遵循一个粗到精的流程,首先使用粗检测器定位大尺度实例和包含密集分布小目标的子区域,然后在这些区域上进一步应用精细检测器以找到小尺度实例。尽管这些方法能够实现高精度的检测,但需要对同一图像进行多次推理,不够高效,限制了它们在资源有限的无人机平台上的应用。

目标检测的轻量级模型

随着深度学习的发展,目标检测模型的复杂性急剧增加,导致计算成本高昂和推理速度缓慢。为了加速计算,已经提出了一些解决方案,包括神经架构搜索、网络剪枝、知识蒸馏和轻量级模型设计。在这些方法中,轻量级模型设计因其在速度和准确性之间具有良好的潜力而在无人机目标检测中处于领先地位。一些方法专注于轻量级主干网络,代表性的有MobileNet和ShuffleNet,它们使用深度可分离卷积和分组卷积等技术。还有一些方法专注于轻量级检测头的设计,例如YOLO系列中的YOLO v6和YOLO v7。最近,稀疏卷积作为一种加速推理的有希望的方法出现了,一些研究已尝试将稀疏卷积应用于检测头,但它们通常使用固定的掩码比例,没有充分捕获全局上下文,因此在无人机图像上优化检测结果方面存在不足。

本文方法

0a18dbd6858b886cc05e244aebe5cd9d.png

CEASC网络的整体目标是针对FPN中不同层次的基础检测器来优化检测头,通过开发一种上下文增强稀疏卷积(CESC)来实现,该方法通过一个轻量级的卷积模块和一个上下文增强组归一化(CEGN)层将焦点信息与全局上下文集成在一起。

具体步骤如下:

1. 稀疏卷积(Sparse Convolution): CEASC首先采用稀疏卷积技术,它通过学习一个稀疏掩码来仅在前景区域执行卷积操作,从而降低计算成本。具体公式如下所示:

7250273c7be6845d8c60c2b2f00142c5.png

根据公式(1),仅在掩码值为1的区域在推理过程中参与卷积运算,从而降低了总体计算成本

2. 上下文增强(Context Enhancement): 为了弥补稀疏卷积可能导致的上下文信息损失,CEASC引入了上下文增强技术。它使用全局上下文信息,将其融合到稀疏卷积中,以增强特征表示并提高检测性能。具体公式如下所示:

4efbe171363e4f20d0eeb24a8012cc40.png

为了进一步减轻 SC 中的信息丢失并使训练过程更加稳定,我们在训练期间除了稀疏卷积外还保留了正常的密集卷积,生成一个在完整输入特征图上卷积的特征图Ci,j。然后,我们使用Ci,j通过优化均方误差(MSE)损失来增强稀疏特征图Fi,j,具体公式如下:

55ac92ba4fd9ce1c66049a017d050d6f.png

最后,在激活层之前采用了一个残差结构,将Gi添加到Fi,j中

3. 自适应多层掩码(AMM): 为了自适应地控制激活比率(或掩码比率),CEASC引入了AMM方案。AMM首先基于地面实况标签估计每个FPN层的最佳掩码比率,然后通过优化损失来迫使生成具有足够掩码比率的掩码,以平衡准确性和效率。

第i层FPN层的最佳激活比率 Pi 估计为:

f67829dd53a1b51782be2258d7d2245c.png

为了引导网络自适应地生成一个具有足够掩码比的掩码,我们采用了以下损失:

7b86bd6274ece7972f26fad5eb5a51e0.png

通过添加传统的检测损失Ldet,总体训练损失如下:

67fb86efd5f135cfc3696fe717c48920.png

其中包括传统的目标检测损失、掩码生成损失和AMM损失。

实验

实验结果

CEASC与四种流行的基础探测器结合的性能:

f03945220d5da823d9306b9aedcdca04.png

与SOTA的比较:

17bcdcb5b7622eaa1d9b749556bd64f8.png

掩模比率对计算成本和准确性的影响

40d64b8bb0069f5ba4617509ddf4622e.png

不同层次的特征金字塔网络(FPN)中最佳掩模比率的变化:

d01984fdae2dcba691a3a37721cd7888.png
消融实验

以GFL V1为基础探测器,CESC和AMM的消融结果:

aa8d535757202b7f63135a5996fdf716.png

对CEASC中的不同组成部分分别进行评估的结果:

9760ef02802a51619c42c2e9d5006239.png

评估CE-GN的性能:

29dd4a8f6931e6edafa00196c7f4c1ae.png

点卷积与其他技术的对比:

57a93c40be3e785bc5e5161de9e48cc6.png

不同FPN层次上的AMM效果:

83635bc234aac57ff1f4acdf9b4bd5e2.png

结论

本文提出了一种新的即插即用检测头优化方法,即CEASC,来对无人机图像进行目标检测。它开发了具有CE-GN的CESC模块,这大大补偿了全局环境的损失,并稳定了前景的分布。此外,它还设计了AMM模块,以自适应地调整不同前景区域的掩模比例。在VisDrone和UAVDT上获得的大量实验结果表明,CEASC显著地加速了各种基础探测器的推理速度和竞争精度。

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

f395208728d2c04fc732e5fa34a209d2.jpeg

猜你喜欢

转载自blog.csdn.net/woshicver/article/details/133191491
今日推荐