【论文】DARDet: A Dense Anchor-free Rotated Object Detector in Aerial Images

目录

摘要

一、引言

二、算法

​1.总体结构

(1) 特征提取模块

(2)DarDet head

2.对齐卷积模块

3.PIoU损失

三、实验部分

1. 数据集

2. 环境设置

3. 消融试验

4. 与SOTA的对比

 


摘要

 DARDet:Dense anchor-free rotated object detector

  • 直接在特征图的每个前景像素上预测出旋转边界框的五个参数;
  • 使用新的对齐卷积模块提取对齐特征;
  • 引入PIoU损失

一、引言

(1) 当航空影像的目标具有不同的尺度和长宽比,并且方向任意且密集分布,导致检测任务存在巨大挑战。

(2) 现存的anchor-based方法都是在矩形边界框的基础上引入了额外的角度维度的信息,并使用距离损失进行优化。这种anchor-based模型对anchor超参数敏感,并且容易产生因边界不连续而导致性能退化的问题。

(3)现存的anchor-free算法都是基于关键点的检测器,每个OBB值对应一个训练样本,导致训练时间很长,且难以解决边界不连续的问题。此外,这类方法的特征与旋转边界框往往是不对齐的。

(4)本研究在VarifocalNet的基础上提出了一个密集的anchor-free的旋转目标检测器:

  • 直接预测一个用于OBB编码的五维向量(x', y', w', h',\theta ')
DARDet直接预测的五维向量
  •  使用对齐卷积模块(ACM)将特征与OBB对齐
  • 引入PIoU损失解决边界不连续问题

二、算法



1.总体结构

(1) 特征提取模块

  • 由Backbone和FPN组成

(2)DarDet head

  定位子网络:

  • 输入特征金字塔的每一层特征图,使用1个3×3的卷积生成一个256通道的特征图;
  • 在初始化和优化阶段分别进行OBB的回归和精炼
  • 在初始化阶段,使用一个卷积层在每个空间位置上生成一个5D向量(x', y', w', h',\theta '),并利用ACM模块提取对齐特征
  • 在优化阶段,利用对齐特征图生成一个5D的偏差向量(\Delta x, \Delta y, \Delta w, \Delta h,\Delta \theta),然后与初始的OBB位置向量相加,得到优化后的OBB(x, y, w, h,\theta)
  • PIoU损失用来优化OBB

  分类子网络

  • 与定位子网络的优化阶段结构相似,用于估计IACS(IoU-aware classification scores)
  • 输出的IACS是一个具有C(类别数)通道的向量,代表分类置信度和定位精度
  • 使用Varifocal loss对密集旋转目标检测器进行训练,输出预测的IACS

2.对齐卷积模块

主要用于捕捉OBB的几何信息和背景上下文信息,有利于预测OBB与真实目标框的对齐。

该模块使用可变性卷积(deformable convolution)来对齐OBB和特征,具体来说:

  • 给定特征图的一个采样位置(i,j),首先回归得到初始的OBB向量(x', y', w', h',\theta ')
  • 根据初始的OBB,选择九个采样点(OBB的4个顶点和4个边的中点,以及采样位置),如图1所示;
  • 将这9个定位点映射到特征图上,通过可变形卷积对投影点上的特征进行卷积,以提取对齐特征,如图3所示;
  • 这些定位点是手动选择的,计算量可以忽略不计

对齐卷积模块

3.PIoU损失

边界不连续是指由于边缘的角度周期性和边的可交换性,边界处的损失急剧增加。

角度的定义是长边和y轴的夹角

PIoU (Pixels-IoU loss)联合OBB的5个参数,检查每个像元的位置,解决边界不连续问题。

角度周期性和边可交换性导致的边界不连续问题
PIoU的计算方式

如上图5所示,给定OBB b(蓝色编码为(x, y, w, h,\theta)的旋转边界框)和影像中的像元p_{i,j},使用定义的二值函数来判断二者的相对位置:

 公式(1)是不连续不可微分的,可以通过两个核函数相乘近似表示这个二值函数:

核函数K(d,s)定义为 :

 b{b}'面积的交集和并集可以近似计算为:

 PIoU的计算方式为:

三、实验部分

1. 数据集

(1) DOTA:15个类别,随机翻转和数据增广,单尺度训练和测试

(2) HRSC2016:航空影像的舰船检测

(3) UCAS-AOD:飞机和汽车的检测

2. 环境设置

(1) 超参数

  • 迭代次数:12epoches
  • batch-size:6
  • backbone:ResNet50
  • 优化器:SGD
  • 初始学习率:0.01
  • momentum:0.9
  • weight decay:0.0001

(2) 在backbone的最后阶段,使用可变形卷积替代普通卷积层,以扩大感受野,并训练模型24epoches

3. 消融试验(DOTA数据集)

(1) 将修改后的VarifocalNet作为基准:mAP为63.19%

(2) 对齐卷积模块ACM的有效性:与基准模型相比,mAP提高了3.8%

(3) PIoU 损失函数的有效性:mAP从66.98%提升到了72.44%

4. 与SOTA的对比

(1) DOTA数据集上的结果:单尺度ResNet50的DARDet能够获得77.61%的mAP,旋转增强后能够获得所有单尺度算法里最优的检测精度,检测速度仅次于S2A-Net

(2) HRSC2016数据集上的结果:DARDet表现最好,精度90.37%

(3) UCAS-AOD数据集上的结果:DARDet表现最好,mAP为90.37%


猜你喜欢

转载自blog.csdn.net/MLH7M/article/details/121314761