论文原文链接：Align Deep Features for Oriented Object Detection | IEEE Journals & Magazine | IEEE Xplore

面向对象检测的深度特征对齐

代码链接：

https://github.com/csuhan/s2anet

关键点：refined single stage, feature alignment RetinaNet as Baseline

ResNet50/ResNet101 79.42/79.15

摘要

在过去的十年中，航空图像中的目标探测取得了显著的进展，这些目标通常分布在大范围变化和任意方向上。然而，现有方法大多依赖于不同尺度、角度和纵横比的启发式定义锚，anchor boxes (ABs) 与axis-aligned convolutional features 轴向卷积特征之间存在严重的错位，导致分类评分与定位精度之间普遍存在不一致。针对这一问题，我们提出了single-shot alignment network(S2A-Net)，它由两个模块组成：特征对齐模块(FAM)和面向检测模块(ODM)。FAM可以通过锚点细化网络生成高质量的锚点，并根据具有新的对齐卷积的ABs自适应对齐卷积特征。ODM首先采用主动旋转滤波器对方向信息进行编码，然后生成方向敏感和方向不变特征，以缓解分类评分与定位精度不一致的问题。此外，我们进一步探索了在大尺寸图像中检测目标的方法，从而在速度和准确性之间取得更好的平衡。大量实验表明，该方法在两种常用的空中目标数据集(DOTA和HRSC2016)上均能达到最先进的性能，同时保持较高的效率。

小结：

关注点：目标通常分布在大范围变化和任意方向上

现有问题：依赖于不同尺度、角度和纵横比的启发式定义锚，anchor boxes (ABs) 与axis-aligned convolutional features 轴向卷积特征之间存在严重的错位

提出方法：
提出了single-shot alignment network(S2A-Net)，它由两个模块组成：特征对齐模块(FAM)和面向检测模块(ODM)。

FAM可以通过锚点细化网络生成高质量的锚点，并根据具有新的对齐卷积的ABs自适应对齐卷积特征。

ODM首先采用主动旋转滤波器对方向信息进行编码，然后生成方向敏感和方向不变特征，以缓解分类评分与定位精度不一致的问题。

关键词：航空图像，深度学习，特征对齐，目标检测。

1. 引言

航空图像中的目标检测旨在识别感兴趣物体(如飞机、船舶、车辆)的位置和类别。近年来，在深度卷积神经网络的框架下，航空图像目标检测取得了显著的进展[1]-[7]，其中现有的大多数方法都致力于解决航空图像中拥挤目标的大规模变化和任意方向所带来的挑战。

为了实现更好的检测性能，大多数最先进的航空目标检测器[4]，[5]，[7]，[8]依赖于复杂的R-CNN[9]框架，该框架由两个部分组成：区域提议网络(RPN)和R-CNN检测头。在一般管道中，利用RPN从水平锚点生成高质量的兴趣区域，然后利用RoI池化操作从兴趣区域中提取准确的特征。最后利用R-CNN对边界框进行回归分类。然而，值得注意的是，水平roi经常导致bounding boxes 和定向对象（oriented objects）[3]，[4]之间的严重错位。例如，水平RoI通常包含几个实例，这是由于航空图像中的定向和密集的物体。一个自然的解决方案是使用定向边框作为锚来缓解这个问题[2]，[3]。因此，需要设计出具有不同角度、比例和长宽比的锚，但这将导致大量的计算和内存占用。最近有人提出了RoI transformer[4]来解决这个问题，它通过将水平RoI转化为旋转RoI，避免了大量的锚点，但仍然需要启发式定义锚点和复杂的RoI操作。

小结

双阶段R-CNN[9]框架组成：区域提议网络(RPN)和R-CNN检测头。

过程：

利用RPN从水平锚点生成高质量的兴趣区域，

利用RoI池化操作从兴趣区域中提取准确的特征。

利用R-CNN对边界框bounding boxes进行回归分类。

问题：水平roi经常导致bounding boxes 和定向对象（oriented objects）[3]，[4]之间的严重错位。（例如，水平RoI通常包含几个实例，这是由于航空图像中的定向和密集的物体。）

自然的解决方案

使用定向边框作为锚来缓解这个问题[2]，[3]。

需要设计出具有不同角度、比例和长宽比的锚，但这将导致大量的计算和内存占用。

最近有人提出了RoI transformer[4]来解决这个问题，它通过将水平RoI转化为旋转RoI，避免了大量的锚点，但仍然需要启发式定义锚点和复杂的RoI操作。

与基于R-CNN的检测器相比，一级检测器对bounding boxes进行回归，并使用规则和密集的采样锚直接对它们进行分类。该体系结构具有较高的计算效率，但在精度方面常常滞后。如图1(a)所示，我们认为一级探测器存在严重的失调。

小结：

一级检测器对bounding boxes进行回归，并使用规则和密集的采样锚anchors.直接对它们进行分类。

（与双阶段区别吗？双阶段是对bounding boxes回归分类，单阶段是对bounding boxes回归，对锚框分类？？？理解可能有问题）

启发式定义的锚是低质量的，不能覆盖对象，导致对象和锚之间的错位。例如，一座桥的长径比通常在1/3到1/30之间，只有很少甚至没有锚可以分配给它。这种错位通常会加剧前景-背景类的不平衡，并阻碍性能。
骨干网的卷积特征通常呈轴向排列，接收场固定，而航拍图像中的目标呈任意方向分布，形态各异。即使将anchor boxe AB分配给具有高置信度的实例[即，Intersection over Union (IoU)]，在ABs和卷积特征之间仍然存在错位。也就是说，anchor box 对应的特征在一定程度上难以代表整个对象。因此，最终的分类评分不能准确反映定位精度，也会影响后期处理阶段的检测性能[如非最大抑制(non-maximum suppression, NMS)]。

问题的抛出很好，一点一点阐述的，很有说服力，需要学习这种分析问题的方式。

问题一：对象和锚错位问题以及错位问题的危害。

问题二：ABs和卷积特征之间仍然存在错位，分类评分不能准确反映定位精度（因果关系吗？）。

FAM可以通过锚点细化网络生成高质量的锚点，并根据具有新的对齐卷积的ABs自适应对齐卷积特征
(~~可以理解为解决：anchor boxes (ABs) 与axis-aligned convolutional features 轴向卷积特征之间存在严重的错位。~~)
轴向axis-aligned卷积特征和任意定向对象之间

ODM首先采用主动旋转滤波器对方向信息进行编码，然后生成方向敏感和方向不变特征。
（以缓解分类评分与定位精度不一致的问题。）

为了解决单级检测器存在的这些问题，我们提出了单镜头对准网络(single - shot Alignment Network, S2A-Net)，该网络由两个模块组成：特征对准模块(FAM)和定向检测模块(ODM)。FAM可以通过锚点细化网络(ARN)生成高质量锚点，并通过对齐卷积(AlignConv)根据相应的ABs自适应对齐特征[图1(a)]。与其他密集采样锚点的方法不同，我们在feature map的每个位置只使用一个平方锚点，ARN将其细化为高质量的旋转锚点。然后，卷积的变体AlignConv根据其相应锚点的形状、大小和方向自适应地对齐特征。在ODM中，我们首先采用主动旋转滤波器(ARF)[14]对方向信息进行编码，生成方向敏感特征，然后通过池化方向敏感特征提取方向不变特征。最后，我们将这些特征输入一个回归子网络和一个分类子网络来产生最终的预测。此外，我们还探索了在大尺寸图像(如4000×4000)上检测目标的方法，而不是在切割的图像上（chip images），这显著减少了整体推理时间，而精度损失微不足道。在DOTA[3]和HRSC2016[15]等常用数据集上的大量实验表明，我们提出的方法在保持高效率的同时可以达到最先进的性能，如图1(b)所示。

小结：

特征对准模块(FAM)和定向检测模块(ODM)

FAM：
通过锚点细化网络(ARN)生成高质量锚点，
通过对齐卷积(AlignConv)根据相应的ABs自适应对齐特征[图1(a)]。
与其他密集采样锚点的方法不同，在feature map的每个位置只使用一个平方锚点，ARN将其细化为高质量的旋转锚点。
卷积的变体AlignConv根据其相应锚点的形状、大小和方向自适应地对齐特征。

AB(蓝色边框)和卷积特征(浅蓝色矩形)之间的错位(红色箭头)。
为了缓解这个问题，我们首先将初始锚点细化为一个旋转的锚点(橙色边框)，
然后在细化AB的指导下调整特征采样位置(橙色点)，提取对齐的深度特征。绿色方框表示ground truth。

ODM：
首先采用主动旋转滤波器(ARF)[14]对方向信息进行编码，生成方向敏感特征，
通过池化方向敏感特征提取方向不变特征。
最后，将这些特征输入一个回归子网络和一个分类子网络来产生最终的预测。

我们的主要贡献总结如下。

我们提出了一种新的对齐卷积，以完全卷积的方式缓解轴对齐卷积axis-aligned convolutional特征与任意定向对象之间的错位。值得注意的是，与标准卷积相比，AlignConv的额外消耗时间可以忽略不计，并且可以嵌入到许多检测器中，只需要很少的修改。
通过嵌入对准卷积，我们设计了一个轻型单镜头对准网络（light single-shot alignment network），使我们能够生成高质量的锚点和对准特征，以便在航空图像中准确地检测目标。
我们在DOTA数据集中报告了79.42%的面向对象检测任务，在速度和准确性上都达到了最先进的水平。

本文的其余部分组织如下。第二部分介绍了相关工作。第三部分介绍了我们提出的S2A-Net的细节。第四部分报告了具有挑战性的DOTA和HRSC2016数据集的实验结果和分析。最后，在第五节中得出结论。

2. 相关工作

随着机器学习特别是深度学习的发展，近年来目标检测取得了长足的进步，目标检测大致可以分为两级检测器和一级检测器两类。两级检测器[9]-[11]，[16]首先在第一阶段生成roi的稀疏集，并在第二阶段执行RoI-wise包围盒回归和对象分类。一级检测器，例如YOLO[17]和SSD[18]，直接检测对象，不需要RoI生成阶段。一般情况下，由于前景-背景等级的极度不平衡，单级检测器的性能往往滞后于两级检测器。为了解决这个问题，focal loss[12]可以被使用，并且无锚点检测器[19]-[21]可以选择将目标检测作为一个点检测问题，以避免与锚点相关的复杂计算，通常运行得更快。

A. 航空图像中的目标检测

航拍图像中的目标往往是拥挤的、大尺度分布的、出现在任意方向上的。在这种情况下，带有水平锚点[3]的一般对象检测方法通常会遭受严重的错位：一个锚点/RoI可能包含几个实例。一些方法[2]、[22]、[23]采用不同角度、比例和长宽比的旋转锚点来缓解这一问题，同时涉及大量与锚点相关的计算(如bounding box变换和groundtruth 匹配)。Dinget al.[4]提出了RoI Transformer，将水平RoI转化为旋转RoI，避免了大量的锚点，缓解了错位问题。然而，它仍然需要启发式定义锚和复杂的RoI操作。Xuet al.[7]没有使用旋转的锚点，而是滑动水平边框的顶点来准确地描述一个有方向的对象。但相应的RoI特征仍然是水平的，存在错位问题。最近提出的R3Det[24]从对应AB的五个位置(如中心和角落)采样特征，并将其相加，重新编码位置信息。与上述方法相比，本文提出的S2A-Net利用启发式定义锚点，通过将水平锚点精炼为旋转锚点，可以生成高质量的锚点。此外，所提出的FAM模块能够以完全卷积的方式实现特征对齐。

A. 航空图像中的目标检测

特点：拥挤的、大尺度分布的、出现在任意方向上的。

问题：带有水平锚点[3]的一般对象检测方法通常会遭受严重的错位：一个锚点/RoI可能包含几个实例。

[2]、[22]、[23]
采用不同角度、比例和长宽比的旋转锚点来缓解这一问题，

同时涉及大量与锚点相关的计算(如bounding box变换和groundtruth 匹配)。

Dinget al.[4]
提出了RoI Transformer，将水平RoI转化为旋转RoI，避免了大量的锚点，缓解了错位问题。

然而，它仍然需要启发式定义锚和复杂的RoI操作。

Xuet al.[7]
没有使用旋转的锚点，而是滑动水平边框的顶点来准确地描述一个有方向的对象。

但相应的RoI特征仍然是水平的，存在错位问题。

R3Det[24] 从对应AB的五个位置(如中心和角落)采样特征，并将其相加，重新编码位置信息。
（有空回去看看原文）

本文S2A-Net
利用启发式定义锚点，通过将水平锚点精炼为旋转锚点，可以生成高质量的锚点。

此外，所提出的FAM模块能够以完全卷积的方式实现特征对齐。

B. 物体检测中的特征对齐

特征对齐通常是指卷积特征与ABs/ roi之间的对齐，这对于两级检测器和一级检测器都很重要。依赖于偏差特征的检测器很难获得准确的检测结果。在两阶段检测器中，采用RoI算子(如RoIPooling[16]、RoIAlign[11]和可变形RoIPooling[25])提取RoI内部的定长特征，可以近似地表示对象的位置。RoIPooling首先将RoI划分为子区域网格，然后将每个子区域最大池化到相应的输出网格单元中。然而，RoIPooling将RoI的浮点数边界量化为整数，这将引入RoI和特性之间的错位。为了避免RoIPooling的量化，RoIAlign采用双线性插值的方法计算子区域内每个采样位置的提取值，显著提高了定位性能。同时，可变形的RoIPooling为RoI的每个子区域添加一个偏移量，从而实现自适应特征选择。然而，RoI算子通常涉及大量的区域操作，如特征扭曲和特征插值，这成为快速目标检测的瓶颈。

最近，引导锚（guided anchoring）[26]试图对齐特征与锚形状。它从锚点预测映射中学习偏移场，然后引导可变形卷积(DeformConv)提取对齐特征。AlignDet[27]设计了RoI卷积，以获得与RoIAlign在一级检测器相同的效果。[26]和[27]都以完全卷积的方式实现特征对齐，并具有很高的效率。这些方法适合自然图像中的对象,但当检测面向对象和密集的在空中拍摄的照片时,往往失去影响，虽然他们中的一些人(例如,旋转RoIPooling[23]和旋转位置灵敏RoIAlign[4])已经实现了功能定位在面向对象检测。与上述方法不同的是，我们提出的方法旨在缓解轴向卷积特征与任意方向对象之间的错位，在ABs的引导下调整特征采样位置。

B.物体检测中的特征对齐

定义：卷积特征与ABs/ roi之间的对齐

RoIPooling[16]
将RoI划分为子区域网格，然后将每个子区域最大池化到相应的输出网格单元中。

RoIPooling将RoI的浮点数边界量化为整数，这将引入RoI和特性之间的错位。

RoIAlign[11] 为了避免RoIPooling的量化，RoIAlign采用双线性插值的方法计算子区域内每个采样位置的提取值，显著提高了定位性能。

可变形RoIPooling[25] 为RoI的每个子区域添加一个偏移量，从而实现自适应特征选择。

RoI算子通常涉及大量的区域操作，如特征扭曲和特征插值，这成为快速目标检测的瓶颈。

guided anchoring[26]
试图对齐特征与锚形状。

它从锚点预测映射中学习偏移场，然后引导可变形卷积(DeformConv)提取对齐特征。

AlignDet[27] 设计了RoI卷积，以获得与RoIAlign在一级检测器相同的效果。

[26]和[27]都以完全卷积的方式实现特征对齐，并具有很高的效率。

适应自然图像不适用定向目标

虽然(例如,旋转RoIPooling[23]和旋转位置灵敏RoIAlign[4])已经实现了功能定位在面向对象检测。

本文方法
旨在缓解轴向卷积特征与任意方向对象之间的错位，

在ABs的引导下调整特征采样位置。

C. 回归与分类的不一致性

目标检测器通常由两个并行任务组成：bounding-box回归和目标分类，它们具有与骨干网相同的特征。分类评分用于反映后期处理阶段(如NMS)的定位精度。然而，正如在[28]和[29]中讨论的那样，在分类分数和定位精度之间存在一个普遍的不一致性。分类分数高的检测可能会产生定位精度低的包围盒，而附近其他定位精度高的检测可能会在NMS步骤中被抑制。为了解决这个问题，IoU- net[28]提出学习预测一个检测的IoU作为本地化置信度，然后结合分类评分和本地化置信度作为一个检测的最终概率。双头R-CNN[29]针对不同的任务采用不同的头结构，即分类使用全连接头，回归使用卷积头。在我们的方法中，我们的目标是通过提取每个实例的对齐特征来提高分类得分。特别是在航空图像中检测密集物体时，精确的特征对于稳健分类和精确定位至关重要。此外，正如在[29]中讨论的，来自主干的共享特征并不适用于分类和定位。在[14]和[30]的启发下，我们首先采用ARF编码方向信息，然后提取方向敏感特征和方向不变特征分别用于回归和分类。

C. 回归与分类的不一致性

问题：

bounding-box回归和目标分类，它们具有与骨干网相同的特征。

分类评分用于反映后期处理阶段(如NMS)的定位精度。

正如在[28]和[29]中讨论的那样，在分类分数和定位精度之间存在一个普遍的不一致性。分类分数高的检测可能会产生定位精度低的包围盒，而附近其他定位精度高的检测可能会在NMS步骤中被抑制。

目标：

通过提取每个实例的对齐特征来提高分类得分。

IoU- net[28]
提出学习预测一个检测的IoU作为本地化置信度，

然后结合分类评分和本地化置信度作为一个检测的最终概率。

双头R-CNN[29] 针对不同的任务采用不同的头结构，即分类使用全连接头，回归使用卷积头。

本文方法
正如在[29]中讨论的，来自主干的共享特征并不适用于分类和定位。

在[14]和[30]的启发下，我们首先采用ARF编码方向信息，

然后提取方向敏感特征和方向不变特征分别用于回归和分类。

太强了，他们是怎么知道卷积的（全连接、卷积）以及不一致性的。

3. 提出的方法

在本节中，我们首先启用面向对象检测的RetinaNet，并在III-A节中选择它作为我们的基线。然后，我们在 III-B节详细描述了对齐卷积。FAM和ODM的架构分别在III-C和III-D节中介绍。最后，我们展示了S2A-Net在训练和推理阶段的细节。整体架构如图2所示，代码可在https://github.com/csuhan/s2ane。

图2所示。提出的S2A-Net的体系结构。S2A-Net由主干网、特征金字塔网[12]、FAM和ODM组成。FAM和ODM组成检测头，应用于特征金字塔的各个尺度。在FAM中，ARN被提议产生高质量的旋转锚点。然后我们将锚点和输入特性输入到ACL中以提取对齐的特性。值得注意的是，为了简化，我们只是将ARN的回归(reg.)可视化，而忽略了分类(cls.)分支。在ODM中，我们首先采用ARF[14]生成方向敏感特征，然后将这些特征集合起来提取方向不变特征。然后cls和reg分支。分支程序用于产生最终的检测结果。(a)骨干。(b)特征金字塔网络。(c)FAM。(d) ODM

A. RetinaNet as Baseline

我们选择了一种具有代表性的单针single-shot 检测器，RetinaNet [12]作为我们的基线。它由一个骨干网和两个特定于任务的子网络组成。采用特征金字塔网络(FPN)[31]作为骨干网来提取多尺度特征。分类和回归子网络是完全卷积网络，具有多个(例如，4)堆叠的卷积层。此外，Focal loss 被提出来解决训练中极端的前景-背景类不平衡。

需要注意的是，RetinaNet是为一般目标检测而设计的，输出水平边框[图3(a)]表示为（中心点、）为了与定向目标检测兼容，我们将RetinaNet的回归输出替换为定向bounding-box[图3(b)]。其中θ∈[−(π/4)， (3π/4)]表示x1的位置方向与宽度[4]方向的夹角。所有其他设置保持不变与原来的RetinaNet.。

图3所示。两种类型的bounding-box。(a)水平边界框{(x,w,h)}，中心点=(x1,x2)，宽度和高度。
(b)定向边界框{(x,w,h，θ)}。x表示中心点。w和h分别代表一个bounding-box的长边和短边。
θ为x1位置方向与θ∈[−(π/4)， (3π/4)]方向的夹角。当θ=0时，一个有方向的边界框变为一个水平的，例如(x,w,h,0)

b. 对齐卷积

在一个标准的二维卷积中，我们首先对输入特征图进行采样，mapx定义为由规则网格，然后由W加权的采样值之和。例如，表示一个3×3核和膨胀1。对于输出特征映射上的每个定位。

与标准卷积相比，对齐卷积(AlignConv)为每个定位pi增加了额外的偏移量字段

如图4(c)和(d)所示，对于定位为p，偏移场计算为基于锚点的采样位置与常规采样位置(即p+r)的差值。设(x,w,h，θ)表示p点对应的AB，对于每个r∈R，基于锚点的采样点可定义为

其中，k表示核大小，s表示特征图的stride, 分别为旋转矩阵。定位p的偏移量字段是

这样，我们可以将给定位置的轴向卷积特征x (p)转换为基于相应AB的任意向卷积特征。

与其他卷积的比较：如图4所示，通过规则网格对特征图进行标准卷积采样。变形卷积DeformConv学习一个偏移场来增加空间采样位置。然而，它可能从错误的位置采样，监督薄弱，特别是对于密集的物体。我们提出的AlignConv通过添加额外的偏移字段，以ABs为指南提取网格分布特征。与DeformConv不同，AlignConv中的偏移量字段是直接从ABs中推断出来的。图4(c)和(d)中的例子说明，我们的AlignConv可以提取ABs内部的准确特征。

标准卷积通过规则网格对特征图进行标准卷积采样。

变形卷积DeformConv
学习一个偏移场来增加空间采样位置。

它可能从错误的位置采样，监督薄弱，特别是对于密集的物体。

AlignConv
偏移量字段是直接从ABs中推断出来的。

AlignConv可以提取ABs内部的准确特征。

图4所示。说明在不同的方法采样位置与3×3内核。
(a)常规采样位置的标准二维卷积(绿点)。
(b)带有可变形采样位置的可变形卷积[25](蓝色点)。
(c)和(d)我们提出的AlignConv的两个例子，分别带有水平AB和旋转AB(在橙色矩形中)。蓝色箭头表示偏移字段

C. 特征对齐模块

本节介绍如图2(c)所示，由锚定优化网络(anchor refinement network)和对齐卷积层(ACL)组成的FAM。

1) 锚框细化网络（Anchor Refinement Network:）：锚点细化网络(ARN)是一个轻型网络，有两个平行分支:锚点分类分支(图中没有显示)和锚点回归分支。锚分类分支将锚按不同类别进行分类，锚回归分支将水平锚细化为高质量的旋转锚。默认情况下，因为我们只需要回归的ABs来调整AlignConv中的采样位置，所以在推理阶段丢弃分类分支以加速模型。但是对于S2A-Net的快速版本，使用ARN的输出来产生最终的预测(见章节IV-D)，分类分支被保留。按照无锚点检测器中的一对一方式，我们为特征图中的每个位置预设了一个平方锚点。我们不会过滤掉低置信度的预测，因为我们注意到一些消极的预测在最终的预测中变成了积极的。

小结

有两个平行分支:锚点分类分支(图中没有显示)和锚点回归分支。

锚分类分支将锚按不同类别进行分类，

锚回归分支将水平锚细化为高质量的旋转锚。

默认情况下，因为我们只需要回归的ABs来调整AlignConv中的采样位置，所以在推理阶段丢弃分类分支以加速模型。

但是对于S2A-Net的快速版本，使用ARN的输出来产生最终的预测(见章节IV-D)，分类分支被保留。

按照无锚点检测器中的一对一方式，我们为特征图中的每个位置预设了一个平方锚点。

我们不会过滤掉低置信度的预测，因为我们注意到一些消极的预测在最终的预测中变成了积极的。

2)对齐卷积层：嵌入AlignConv，形成如图5所示的ACL。具体来说，对于H×W×5锚预测图中的每个位置，我们首先将其解码为绝对ABs(x,w,h，θ)。然后将(4)计算的偏移字段连同输入特征输入到AlignConv中，提取对齐特征。注意对于每个AB(5维)，我们定期抽样9个(3行3列)点，以获得18维偏移量字段[即9个点的x-偏移量和y-偏移量，见图4(c)和(d)中的蓝色箭头]。此外，需要强调的是，ACL在偏移场计算中是一个速度延迟可以忽略不计的轻卷积层。

D. 面向检测模块

如图2(d)所示，提出ODM来缓解分类评分与定位精度不一致的问题，进而进行准确的目标检测。我们首先采用ARF[14]对方位信息进行编码。ARF为k×k×N过滤器，在卷积过程中主动旋转N−1次，以产生一个具有n个方向通道(默认是N是 8)的特征映射。对于一个特征映射X和ARF F,y的第i个方向输出可以记为

其中为F 顺时针方向的θ -旋转版本, 和分别为和第n个方向通道。将ARF应用于卷积层，可以获得具有明确编码方向信息的方向敏感特征。bounding-box回归任务受益于方向敏感特性，而对象分类任务需要不变特性。在[14]之后，我们的目标是通过汇集方向敏感特征来提取方向不变特征。这可以通过选择响应最强的方向通道作为输出特性来实现

通过这种方法，我们可以将不同方向的对象特征进行对齐，从而实现鲁棒的对象分类。与方向敏感特征相比，方向不变特征在参数较少的情况下具有较高的效率。例如，一个H×W×256特性映射八个方向通道经过池化层变成H×W×32。最后，我们将方向敏感特征和方向不变特征分别输入到两个子网络中，分别对边界框进行回归和分类。

E. 单发对准网络Single-Shot Alignment Network

我们以RetinaNet为基线，包括其网络架构和大部分参数设置，在FAM和ODM相结合的基础上形成S2A-Net。在下面，我们详细介绍了S2A-Net在训练和推理阶段的情况。

1) Regression T argets回归目标：在前面的工作中，我们给出参数化回归目标为

和x 分别为ground-truth box和AB(同样为w,h，θ)。并且k是一个整数，确保(见图3)。在FAM中，我们将θ=0表示水平锚点。那么回归目标可以用(7)表示。在ODM中，我们先解码FAM的输出，然后用(7)重新计算回归目标。

2) 匹配策略：我们采用IoU作为指标，如果AB的IoU大于前景阈值(或小于背景阈值)，AB可以被赋为正(或负)。与水平边框之间的IoU不同，我们计算了两个面向边框（oriented bounding boxes.）之间的IoU。在FAM和ODM中，默认情况下，我们将前景阈值设置为0.5，背景阈值设置为0.4。

We adopt IoU as the metrics, and an AB can be assigned to positive (or negative) if its IoU is greater than a foreground threshold (or less than a background threshold, respectively). Different from the IoU between horizontal bounding boxes, we calculate the IoU between two oriented bounding boxes. By default, we set the foreground threshold as 0.5 and the background threshold as 0.4 in both FAM and ODM.（翻译不准确，自行理解）

3) Loss Function: S2A-Net的Loss是一个多任务的Loss，它包括两个部分，FAM的Loss和ODM的Loss。对于每个部分，我们为每个锚/精炼锚分配一个类标签，并回归其位置。损失函数可以定义为

4)推论：S2A-Net是一个全卷积网络，我们可以简单地通过网络forward图像，无需复杂的RoI操作。具体来说，我们将输入的图像传递给骨干网，提取金字塔特征。然后将金字塔特征输入FAM以产生精细的锚点和对齐特征。然后，ODM对方向信息进行编码，以产生高可信度的预测。最后，我们选择top-k(即， 2000)预测，并采用NMS产生最终检测。

4. 实验分析

A. 数据集

1) DOTA[3]：是一个用于定向目标检测的大型航空图像数据集，包含从800×800到4000×4000的2806张图像，15种常见目标类别的188 282个实例包括:飞机(PL)、棒球场(BD)、大桥(BR)、田场(GTF)、小型车辆(SV)、大型车辆(LV)、船舶(SH)、网球场(TC)、篮球场(BC)、贮水池(ST)、足球场(SBF)、回旋处(RA)、海港(HA)、游泳池(SP)、直升机(HC)。

训练集和验证集都用于训练，测试集用于测试。在[3]之后，我们从原始图像中裁剪出一系列1024×1024 patches，步长为824。为了避免过拟合，我们在训练过程中只采用随机水平翻转，不指定其他技巧。为了与其他方法进行公平比较，我们在训练阶段采用了数据增强(即随机旋转)。在多尺度实验中，我们首先在0.5、1.0和1.5三个尺度对原始图像进行调整，然后将其裁剪为1024×1024 patches, stride为512。

2) HRSC2016[15]：是带有定向边框标注的高分辨率船舶识别数据集，包含1061张图像，图像大小从300×300到1500×900。我们使用训练集(436幅图像)和验证集(181幅图像)进行训练，使用测试集(444幅图像)进行测试。所有的图像在不改变纵横比的情况下被调整为(800512)。水平翻转是在训练中应用的。

B. 实现细节

我们采用ResNet101 FPN作为骨干网，与其他方法进行公平比较，如果没有指定，其他实验采用ResNet50 FPN。对于每一层金字塔特征(即P3toP7)，我们为每个位置预设一个平方锚点，其规模是总步幅大小的4倍(即32、64、128、256、512)。损失平衡参数λ设置为1。Focal loss的超参数设置为α=0.25和γ=2.0。我们采用与mmdetection[32]相同的训练时间表。我们训练所有的模型在12个时代的DOTA和36个时代的HRSC2016。采用SGD优化器，初始学习速率为0.01，每步学习速率除以10。动量衰减和重量衰减分别为0.9和0.0001。我们采用500次迭代的学习速率预热。默认情况下，我们使用4个V100 GPU(总批大小为8个)进行训练，使用单个V100 GPU进行推理。后处理时间(如NMS)包含在所有实验中。

C. 消融实验

在这一部分，我们对DOTA的测试集进行了一系列的实验来验证我们的方法的有效性。所有实验均采用ResNet50 FPN作为骨干。注意到，我们在mmdetection[32]中扩展了flops_counter工具来计算我们方法的FLOPs。

1)RetinaNet as Baseline：RetinaNet 作为单镜头检测器，速度足够快。然而，任何添加到它的模块将引入更多的计算。我们在RetinaNet上试验不同的架构和设置。如表I(a)所示，RetinaNet实现了68.05%的mAP, 215.92 GFLOPs和36.42 M参数，表明我们的基线是可靠的。如果RetinaNet 头深度从4变为2,mAP下降0.41%，FLOPs (respa .parameters)减少51.54 G (respa .36 M)。此外，如果我们在每个位置设置一个锚点[表I(c)]， FLOPs减少28%，与表I(a)相比，准确率下降1.5%。结果表明，轻探测头和少量锚点也可以获得竞争性能和更好的速度-精度权衡。

2) AlignConv的有效性：如III-B节所述，我们将AlignConv与其他方法进行比较，以验证其有效性。我们只是用其他卷积方法替换AlignConv，并保持其他设置不变。此外，我们还增加了与Guided Anchoring DeformConv (GA-DeformConv)[26]的比较。注意到GA-DeformConv的偏移场是通过1×1卷积从ARN中的锚预测映射中学习到的。

如表II所示，AlignConv大大超过了其他方法。与标准卷积相比，AlignConv提高了约3%的mAP，但只引入了1.41 GFLOPs计算。此外，AlignConv提高了几乎所有类别的性能，特别是那些大长宽比(如桥梁)、密集分布(如sv和大型车辆)和较少实例(如直升机)的类别。相反，DeformConv和GA-DeformConv的mAP值分别为71.71%和71.33%。由图6的定性对比可知，AlignConv在检测密集封装和任意方向的对象时，实现了准确的包围盒回归，而其他带有内隐学习的方法性能较差。

3) ARN和ARF的有效性：为了评估ARN和ARF的有效性，我们对不同设置的S2A-Net进行了实验。如果丢弃ARN，那么FAM和ODM共享相同的初始锚。如果ARF被丢弃，我们将ARF层替换为标准卷积层。如表III所示，在不考虑ARN、ACL和ARF的情况下，我们的方法达到了68.26% mAP，比基线方法提高了约1.26% mAP。这主要是因为我们在FAM和ODM中都添加了监督。在ARN的参与下，我们得到了71.17%的mAP，表明锚的细化对ODM的最终预测很重要。

此外，我们发现，在没有ACL参与的情况下，ARF对性能提高没有任何作用，即应用ARF或ARN与ARF结合的方法，mAP分别仅为68.35%和71.11%。然而,如果我们把ACL和ARF放在一起，有一个明显的改善，从73.24%到74.12%。我们认为cnn不是旋转不变的，即使我们可以提取出准确的特征来代表物体，对应的特征仍然是旋转敏感的。因此，ARF的参与明确地增加了方位信息，使回归和分类更好。

4)网络设计：如表4所示，我们探讨了FAM和ODM中不同的网络设计。与表IV(a)中的基线方法相比，我们可以得出结论，S2A-Net不仅是一种检测精度高的有效检测器，而且在速度和参数上都是一种高效检测器。表4 (b) - (f)的结果表明，我们提出的方法对网络的深度不敏感，性能的提高主要来自于我们新的对齐机制。此外，随着层数的增加，从表IV(d) - (f)有一个性能下降。我们假设更深层次的网络具有更大的接收域可能会阻碍小尺寸物体的检测性能。此外，在FAM和ODM层数相同的设置(d)中，(c) - (e)的mAP值最高，而(c)和(e)的mAP值显著下降，说明FAM和ODM的接受域相似，对于高质量的目标检测更平衡。

D. 大尺寸图像检测

航拍图像的大小通常从数千到数万不等，这意味着更多的计算和内存占用。许多先前的作品[3]，[4]采用chips检测策略来缓解这一挑战，即使chip不包含任何物体。ClusDet[33]试图通过生成集群chips来解决这个问题，同时引入了更复杂的操作(例如，chips生成和结果合并)和显著的性能下降。由于我们提出的S2A-Net高效且架构灵活，我们的目标是直接检测大尺寸图像上的目标。

我们首先探索了输入大小和裁剪步幅的不同设置，并报告了推断过程中的mAP和总时间(表V)。我们首先将图像裁剪到1024×1024 chips,，当步幅从1024降低到512时，mAP从71.20%提高到74.62%。然而，芯片图像数量从8143张增加到20012，总推理时间增加了约135%。如果我们在原始的大尺寸图像上进行检测而不进行裁剪，则推断时间减少了50%，准确率的损失可以忽略不计。我们认为cropping策略很难探测到物体在边界(图7)。此外,如果我们采用FAM的输出检测和浮点16 (FP16)加快推理,我们可以减少推理时间97秒的地图为70.85%。将我们的S2A-Net与ClusDet[33](表VI)进行比较，我们的方法仅处理了458张图像，并且大大优于ClusDet。如果采用FAM的输出进行评价，mAP.5−仍然达到42.7%。mAP.5 95和72.7%。结果表明，该方法是有效的，检测策略可以获得更好的速度-精度权衡。

图7所示。检测结果的定性比较。我们将大尺寸图像裁剪为1024×1024chip图像，步长为824。
将大尺寸图像和芯片图像输入同一个网络，产生检测结果(如红框中的平面)而不调整大小。具有相同数量的实例是对应的。
(a)chip图像检测。(b)大尺寸图像检测。

E. 与最先进技术的比较

在本节中，我们将我们提出的S2A-Net与其他先进的方法在两个航空探测数据集(DOTA和HRSC2016)上进行比较。设置已经在IV-A和IV-B节中介绍。

1) DOTA2的结果：值得注意的是，视网膜网络是我们在III-A节中提到的重新实现的版本。如图所示在表VII中，我们使用ResNet-50-FPN骨干在没有任何数据增强(例如随机旋转)的情况下，以22.6帧/秒(FPS)的速度实现了74.01% mAP。需要注意的是，FPS是一个平均FPS，我们通过计算总推理时间和芯片图像数量(即10 833)得到它。此外，我们使用ResNet101 FPN骨干实现了76.11%的最先进mAP，优于所有两阶段和一阶段方法。在多尺度实验中，我们的S2A-Net使用ResNet-50-FPN和ResNet-101-FPN骨干分别获得79.42%和79.15%的mAP。我们在10/15类中取得了最好的成绩，特别是在一些硬类中(如桥牌、SBF、SP、直升机)。图8显示了基线法(即RetinaNet)和我们的S2A-Net的定性检测结果。与RetinaNet相比，我们的S2A-Net在对分布密集、变化大的目标进行检测时产生的错误预测更少。

2) HRSC2016结果：DRN[35]和CenterMap-Net[6]采用PASCAL VOC2012指标进行评价，其他方法采用PASCAL VOC2007指标进行评价，且在VOC2012指标下的性能优于在VOC2007指标下的性能。如表八所示，我们提出的S2A-Net在VOC2007和VOC2012指标下的mAP分别达到90.17%和95.01%，优于其他所有方法。HRSC2016中的对象具有较大的纵横比和任意的方向，而之前的方法通常会设置更多的锚点以获得更好的性能，例如RoI Trans中的20。和21在R3Det。与R3Det的89.26% (VOC2007)和CenterMapNet的92.8% (VOC2012)的最佳结果相比，仅使用一个锚点的mAP分别提高了0.91%和2.21%，有效地摆脱了启发式定义锚点。一些定性结果如图9所示。

图9所示。提出的S2A-Net在HRSC2016上的一些检测结果.

5. 结论

本文提出了一种简单有效的单镜头对准网络(S2A-Net)，用于航空图像中的定向目标检测。通过提出的FAM和ODM，我们的S2A-Net实现了完全的特征对齐，缓解了回归和分类之间的不一致性。此外，我们还探索了在大尺寸图像上进行检测的方法，以获得更好的速度-精度平衡。大量实验表明，我们的S2A-Net可以在DOTA和HRSC2016上实现最先进的性能。

阅读感受：感觉有难度，手写公式理解，手写思维导图梳理会好很多。

金金同学的思维导图

我的手写笔记

字丑了点，用作自己复习

【论文阅读】S2A-Net

摘要