【论文解读】——基于多尺度卷积网络的遥感目标检测研究（姚群力，胡显，雷宏）

该文针对现有遥感图像目标检测算法对于复杂场景下多尺度目标检测精度较低、泛化能力差的问题，提出了一种多尺度卷积神经网络遥感目标检测框架———MSCNN。

1.引言

遥感目标自动检测技术不仅是一种实现遥感目标自动分类和定位的智能化数据分析方法，还是遥感图像解译领域的重要研究方向之一。
传统的遥感图像目标检测方法是根据人工经验设计特征，虽然在特定的应用场景下能取得较好的检测效果，但该类方法对先验知识的依赖性强，导致
检测模型的自适应性与泛化能力较差。而MSCNN用到的是深度卷积神经网络，它可以从数据中主动学习特征，不依赖于人工经验。
基于深度卷积网络的目标检测模型在研究理念上可以分为两类：
1）基于回归的目标检测框架：直接在图像上回归出目标的边框位置和物体类别。（具体回归过程看最后链接）
2）基于区域建议的目标检测框架：该类方法基于原始图像生成一系列区域建议，并将区域建议和特征图输入感兴趣区域池化层，最终实现目标的分类与定位。（具体过程看最后链接）
本文先设计了一种多尺度特征金字塔网络——EFPN。再基于EFPN 构造多尺度卷积神经网络的遥感目标检测框架（MSCNN）,来提高多尺度遥感目标的预测能力。

2.MSCNN检测框架

2.1MSCNN网络结构
MSCNN 基于RetinaNet目标检测网络。MSCNN整体结构框架图如下所示：
在这里插入图片描述
其中Ａ（左）膨胀瓶颈结构，Ｂ（右）为带有１×１卷积的膨胀瓶颈结构：

首先以 ResNet-50作为基础网络构造了一种新的特征金字塔网络 EFPN，生成了新的融合预测特征。再通过目标检测子网络，分别给出多尺度目标的分类得分和边框位置。最后再采用非极大值抑制原理将相似结果进行合并，输出最终检测结果。
2.2EFPN
EFPN金字塔网络是一个自底向上的通路，从主干中选取卷积块｛Ｃ３，Ｃ４，Ｃ５｝作为基础层级结构。添加特征映射Ｃ６和Ｃ７，以获得更精确的语义信息，特征层Ｃ６和Ｃ７的计算式为：
在这里插入图片描述

式中：Ｃｏｎｖ２Ｄ为二维卷积算子，它将给定的特征图与预定义的卷积核进行卷积；ｋ为卷积核的数量；ｓ为内核的尺度；RELU 为激活函数。因此，通过自底向上的路径生成了特征图｛Ｃ３，Ｃ４，Ｃ５，Ｃ６，Ｃ７｝。
为了进一步提高网络的特征表达能力，本文在ResNet-50的第４阶段以后，首先将步长锁定为１６×，然后将通道维度控制为256，接着在每个阶段之后均部署了一个低复杂度的膨胀瓶颈结构（带有1*1卷积的），以保障网络能生成更深的特征图，且能保持较高的分辨率。最后通过自上而下的通路，构建出了特征金字塔网络层级｛Ｐ３，Ｐ４，Ｐ５，Ｐ６，Ｐ７｝。新的特征金字塔 EFPN将包含Ｐ３～Ｐ７共５层预测层。这些特征层级的计算方法为：
在这里插入图片描述
式中：序数Ｎ＝３，４，５，６，７；序数Ｎ′＝３，４，５，６，且ｊ
为由Ｎ生成的索引；ＲＮ为自底向上路径经过卷积降维得到的特征层；ＴＮ为经过特征堆叠得到的新特征；Ｕ（·）为将Ｔｊ的尺度调整到ＣＮ大小的算子；ＰＮ为自顶向下构造的输出特征。所有的预测特征最后都将被送入检测网络进行多尺度目标预测。
2.3损失函数
在实际的遥感影像数据中，正、负样本的不平衡现象普遍存在。然而，极端的正、负样本不平衡将会导致网络训练过程中正样本在数据中占比较少，从
而使网络训练效率降低，使得一些难以学习的正样本得不到充分的学习，严重制约了检测网络在遥感目标检测任务中的检测性能。为此，本文引入聚焦
分类损失，通过动态缩放交叉熵，快速地将模型的训练集中在难样本稀疏集上，用以加强网络对于遥感图像中难样本的学习和挖掘。本文所提出的多
任务联合损失函数为：
在这里插入图片描述
式中：Ｎｃｌｓ为批量尺度；Ｎｌｏｃ为锚点框数量；α 为平衡超参数；ｐ＊ｉ为目标的真实类别标签；ｐｉ为预测相应类别的概率；ｔｉ为预测的４个参数化坐标向量；ｔ＊ｉ为真实边框参数；ｉ为批量数据中锚点框的索引；Ｌｆｌ和Ｌｌｏｃ分别为聚焦分类和边框回归损失，其中Ｌｆｌ可定义为：
在这里插入图片描述
式中：αｔ∈［０，１］，为平衡超参数；（１－ｐｔ）γ 为调制
因子，ｐｔ为前景目标对应的预测概率；γ∈［０，５］，为超参数，当γ＞０时意味着模型将更专注于难样本的训练。Ｌｌｏｃ通常采用ＳｍｏｏｔｈＬ１损失，其表达式为：
在这里插入图片描述

3.实验结果与分析

3.1数据集与评价指标
本文在ＮＷＰＵＶＨＲ－１０公开数据集上进行多尺度目标检测实验。ＮＷＰＵＶＨＲ－１０数据集是一个用于多类多尺度目标检测的地理空间目标检测公开数据集。共包含650幅光学遥感图像，平均尺度约为６００×８００，共标注了７５７架飞机、３０２艘船只、６５５个油罐、３９０个棒球场、５２４个网球场、１５９个篮球场、１６３个田径场、２２４个港口、１２４座桥梁，以及４７７辆车。图像分辨率在０．５～２．０ｍ之间，每一幅图像至少包含一个目标。
根据ＮＷＰＵＶＨＲ－１０数据分布信息统计，定义了相应的边界框尺度量，如下所示：
在这里插入图片描述
本文采用平均检测精度（ｍＡＰ）作为目标检测的评价指标，该指标衡量了所有类别的检测精度的均值。ＡＰ值越高代表检测性能越好。此外，本文还评估了在不同ＩＯＵ阈值和不同边界框尺度（ｓｍａｌｌ、ｍｅｄｉｕｍ，ａｎｄｌａｒｇｅ）下目标的检测精度和召回率，分析了所提方法对多尺度目标的检测能力。ＩＯＵ代表了检测框与真值框的交并比，其定义可以表示为:
在这里插入图片描述
式中：ＧＴ为真值框；ＤＲ为检测结果。
3.2 参数设置
本文训练和测试采用的硬件平台为ＮＶＩＤＩＡＴｉｔａｎＸｐＧＰＵｓ，利用Ｐｙｔｏｒｃｈ开源深度学习框架完成实验的构建。实验过程采用端到端训练方式，初始学习率设置为０．００１，优化方法为随机梯度下降，动量设置为０．９，正则化系数设置为０．０００５，批处理大小设置为１。
3.3 主要结果
在这里插入图片描述
ＭＳＣＮＮ在ＮＷＰＵＶＨＲ－１０公开数据集上的平均检测精度相较于ＭＳＤＮ提升了０．４％，相较于ＦＰＮ提升了２．９％。由上述分析可知，本文提出的基于ＥＦＰＮ的ＭＳＣＮＮ能有效提高多尺度目标的检测性能。
3.4消融实验
为了证明ＥＦＰＮ组件在检测框架中所发挥的性能，本文设计了一组对比实验。ＥＦＰＮ取得了０．９６０＠ＡＰ５０以及０．８２４＠ＡＰ７５的平均检测精度，相较于ＲｅｔｉｎａＮｅｔ取得了１．５％＠ＡＰ５０和１．５％＠ＡＰ７５的增益，表现出了更高的检测精度。此外，ＥＦＰＮ还取得了０．５４７＠ｓｍａｌｌ、０．５７８＠ｍｅｄｉｕｍ和０．７０１＠ｌａｒｇｅ的多尺度平均检测精度，相较于ＲｅｔｉｎａＮｅｔ取得１．５％＠ｓｍａｌｌ、１．９％＠ｍｅｄｉｕｍ和１．９％＠ｌａｒｇｅ的增益，表现出了对多尺度目标检测的优越性。因此，在多尺度遥感目标检测中，ＥＦＰＮ组件相较于ＲｅｔｉｎａＮｅｔ具有更为明显的优势。
3.5 多尺度目标检测
在这里插入图片描述
ＡＰ５０是评价模型分类能力的有效指标，ＡＰ７５能够体现出检测框架对边界框位置回归的能力。如表４所示，ＭＳＣＮＮ取得了０．９６０＠ＡＰ５０以及０．８２４＠ＡＰ７５的平均检测精度，相较于ＲｅｔｉｎａＮｅｔ取得了１．５％＠ＡＰ５０和１．５％＠ＡＰ７５的增益。即ＭＳＣＮＮ目标检测框架具有更高的分类能力和边框回归精度。
此外，ＭＳＣＮＮ取得了０．６００＠ｓｍａｌｌ、０．６０５＠ｍｅｄｉｕｍ和０．７５５＠ｌａｒｇｅ的平均召回率，相较于ＲｅｔｉｎａＮｅｔ网络取得了２．７％＠ｓｍａｌｌ、１．９％＠ｍｅｄｉｕｍ和０．１％＠ｌａｒｇｅ的增益，说明其对小尺度目标在召回率上具有一定优势。事实上，与ＲｅｔｉｎａＮｅｔ网络相比，ＭＳＣＮＮ在深层阶段的分辨率更高，同时还生成了更新的阶段。因此，ＭＳＣＮＮ可以在更深阶段检测到更小尺度的目标。

4.结论

MSCNN方法首先设计了一种多尺度特征提取骨架，并在此基础上构造出一种深度特征金字塔EFPN，从而能够更加有效地对遥感图像中的多尺度目标特征的学习。此外，聚焦分类损失作为分类损失函数，进一步改善了目标检测网络对于遥感图像中难样本的挖掘能力。该方法在NWPUVHRG10公开数据集上获得了0.906的平均检测精度，相较于其他遥感目标检测框架，实现
了对多尺度遥感目标的高精度稳健检测。

https://blog.csdn.net/qq_30091945/article/details/96570669
https://blog.csdn.net/H_hei/article/details/89791176