RFLA: Gaussian Receptive Field based Label Assignment for Tiny Object Detection

原文:https://arxiv.org/pdf/2208.08738.pdf
代码:https://github.com/Chasel-Tsui/mmdet-rfla
微小物体检测是阻碍目标检测发展的主要障碍之一。在微小物体检测任务中,通用物体检测器的性能往往会急剧下降。本文指出,无论是基于锚的检测器中的锚框先验还是无锚检测器中的点先验,对于微小物体都是次优的。当前基于锚框或无锚框的标签分配范式将导致许多微小真实样本脱离检测范围,导致探测器对微小物体施加较少的关注。为此,作者提出了一种基于高斯接感受野的标签分配(RFLA)策略用于微小目标检测。RFLA首先利用特征感受野场服从高斯分布的先验信息。然后,本文提出了一种新的感受野距离(RFD)来直接度量高斯感受野与真实值之间的相似性,而不是使用IoU或中心抽样策略来分配样本。考虑到基于iou阈值和中心抽样策略向大对象倾斜的问题,进一步设计了基于RFD的层次标签分配(HLA)模块,实现对小对象的均衡学习。在四个数据集上的大量实验证明了所提方法的有效性。

一、前言

微小物体以其极其有限的像素(小于AI-TOD中定义的16×16像素)为特征,一直是计算机视觉界的难题。微小物体检测(TOD)是最具挑战性的技术之一。而对于TOD任务,一般的物体检测器通常不能实现满意的结果,这是由于微小物体缺乏鉴别特征。针对微小物体的特殊性,提出了几种定制化的TOD基准(如AI-TOD、TinyPerson、AI-TOD-v2),可用于辅助驾驶、交通管理、海上救援等一系列下游任务。近年来,TOD逐渐成为独立于一般目标检测的热门但又具有挑战性的方向。
通用对象检测器可以分为两类:基于锚框的检测器和无锚框检测器。对于基于锚框的探测器,离散位置、比例和纵横比的先验框是启发式预设的。然后,主要基于IoU构建标签分配策略(如Max IoU Strategy, ATSS),寻找锚点与ground truth (gt)的合适匹配关系。无锚探测器将先验从锚框变为点。通常将gt覆盖之前的点作为正样本(中心在FCOS[46]),省去锚箱微调的工作量。
尽管上述两类人在一般的目标检测任务上表现出色,但他们在TOD任务上的表现通常会大幅下降。本文认为,当前的先验方框和先验点及其对应的测量策略对于微小物体是次优的,这将进一步阻碍标签分配的过程。将单个的先验框和点作为实例,并分布的角度重新考虑它们:
在这里插入图片描述
在这里插入图片描述
不同标签分配方案检测结果的比较。检测结果列在第一行。绿色、蓝色和红色框表示真阳性(TP)、假阳性(FP)和假阴性(FN)预测。第二行为不同先验的示意图,绿色区域为gt,灰色、红色和黄色区域分别表示方框、点和高斯先验。

其中 p ( v ∣ x , y ) p(v|x, y) p(vx,y)是先验信息的概率密度函数, ( x , y ) (x, y) (x,y)是图像上的位置坐标, v v v是对应位置的权值, ε ( ⋅ ) ε(·) ε()是阶跃函数,当输入大于0时, ε ( ⋅ ) ε(·) ε()等于1,否则等于0。 [ ( x 1 , y 1 ) , ( x 2 , y 2 ) ] [(x1, y1),(x2, y2)] [(x1,y1)(x2,y2)]为先验信息区域,对于锚定探测器 x 2 − x 1 = 宽度 x_2-x_1 =宽度 x2x1=宽度 y 2 − y 1 = 高度 y_2-y_1 =高度 y2y1=高度,对于无锚探测器 x 2 − x 1 x_2- x_1 x2x1 = 1, y 2 − y 1 = 1 y_2-y_1 = 1 y2y1=1。不同先验示意图如图1第二行所示,现有先验信息结合其对应的测量策略,对于微小物体存在以下问题。

第一,单个框先验和点先验都有一个有限先验域(其中 p ( v ∣ x , y ) > 0 p(v|x, y) >0 p(vx,y)>0),而现有的标签分配指标高度依赖于域的重叠。也就是说,当一个特定的gt与一个特定的先验没有重叠时,它们的位置关系不能用IoU或中心度来解决。对于微小物体,通常gt box与几乎所有的定位点box都没有重叠(即IoU = 0),或者不包含任何定位点,导致微小物体缺乏正样本。为此,通常采用启发式方法来保证微小物体有更多的正样本。然而,对于微小物体,分配器往往不能基于zero-valued IoU或中心值对正样本进行补偿。因此,网络对微小物体学习的关注较少。关于这一点的细节将在第4.5节中进行分析。第二,当前先验区域主要遵循均匀分布,对先验区域内的每个位置都是相等的(v =常数)。然而,先验信息本质上是用来辅助标签分配或特征点分配流程的。在这个过程中,一个隐式规则是将具有适当感受野的特征点分配给gt。正如前文理论分析的那样,将特征点的感受野重新映射回输入图像时,有效感受野实际上是高斯分布的。均匀分布的先验和高斯分布的感受野之间的差距会导致gt与分配给它的特征点的感受野不匹配。
为了缓解上述问题,作者引入了一种新的基于高斯分布的先验,并建立了一种基于高斯感受野的标签分配(RFLA)策略,该策略更有利于微小物体的处理。本文提出了一种新设计的感受野距离(RFD),直接测量高斯感受野与gt区域之间的相似性。利用高斯感受野作为先验信息可以优雅地解决由框和点先验引起的问题。一方面,高斯分布没有阶跃变化;每个个体先验的域是整个图像,每个位置的权值从中心到外围逐渐衰减,值大于0。因此,在整个图像上对任意特征点与任意gt之间的位置关系进行建模是可行的,从而可以对不同大小的物体获得均衡的正样本。另一方面高斯先验可以更好地拟合高斯有效感受野的特性,从而缓解感受野不匹配的问题,特别是对于微小物体。
此外,由于IoU和RFD不在同一个维度上,将新的度量值直接应用于现有的基于阈值的标签分配结构是不合理的。相反,作者引入了将每个特征点的优先级按照其RFD分数进行排序,并在此基础上进一步设计了一个层次标签赋值器(HLA),该赋值器逐步减少了异常值gt样本,并获得了对微小物体的充分训练。
本文的贡献总结如下:
(1)、实验表明,基于锚框和无锚框的检测器在微小物体标签分配中存在尺度样本不平衡问题。
(2)、为了缓解上述问题,作者引入了一种简单而有效的基于接收字段的标签分配(RFLA)策略。RFLA可以很容易地取代主流检测器中基于锚框和基于点的标签分配策略,提高了它们在TOD上的性能。

二、小目标检测

现有的大部分微小目标检测方法大致可以分为以下四类:数据增强、多尺度学习、针对微小目标的自定义训练策略和特征增强策略。
数据增强:一种简单而有效的方法是收集更多微小对象数据。另一种方法是使用简单的数据增强,包括旋转、图像翻转和上采样。Krisantal等人试图通过对包含微小物体的图像进行过采样和复制粘贴来提高TOD性能。
多尺度学习:多分辨率图像金字塔是多尺度学习的一种基本方法。为了降低计算成本,学者提出了构造特征层金字塔的方法。在此之后,许多方法尝试进一步改进FPN,其中包括PANet, BiFPN, RecursiveFPN。此外,TridentNet构造了不同感受野的多分支检测头,生成尺度特征图。多尺度学习策略通常通过额外的计算来提高TOD性能。
针对微小物体的定制训练策略:物体检测器通常不能同时对微小物体和大物体进行检测。受此启发,设计了SNIP和SNIPER,用于选择性训练一定尺度范围内的物体。此外,Kim等人引入了尺度感知网络(SAN),并将不同空间的特征映射到尺度不变子空间上,使检测器对尺度变化更稳健。
特性增强策略:一些研究提出通过超分辨率或GAN增强小物体的特征表示。PGAN首次尝试将GAN应用于小目标检测。此外,Bai等人提出了一种MT-GAN,它训练一个图像级超分辨率模型来增强小RoI特征。提出了特征级超分辨率,以提高基于提议式检测器的小目标检测性能。
大多数用于TOD的方法都会带来额外的注释或计算成本。相比之下,本文提出的方法试图从标签分配的角度推进TOD,并且提出的策略在推断阶段不会带来任何额外的成本。

三、标签分配策略

由ATSS可知,无锚检测器和基于锚检测器的本质区别在于定义训练样本的方式。阳性和阴性(pos/ negative)训练样本的选择将显著影响检测器的性能。近年来,人们提出了许多在通用目标检测任务中更好地分配标签的方法。FreeAnchor基于检测定制的可能性来决定正锚点。PAA提出使用GMM对锚点分布进行建模,并根据GMM的中心来划分pos/neg样本。OTA将标签分配过程建模为一个最优传输问题,并寻求解决最优分配策略。ATSS自适应调整pos/ negative样本的统计特征。AutoAssign和IQDet根据预测的IoU和置信度对高质量区域进行加权和采样。
与上述通用目标检测策略不同,本文重点研究TOD的先验信息设计及其对应的标签分配策略。

四、实现方法

(一)、感受野建模

主流的目标检测器遵循的一个基本原则是分治,即在FPN的不同层上检测不同尺度的物体。具体来说,基于锚点的检测器在FPN的不同层上覆盖不同尺度的先验框,以辅助标签分配,从而在FPN的不同层上检测不同尺度的物体。对于无锚检测器,它们将不同尺度范围的对象(如P3)分组到不同的FPN水平上进行检测。尽管标签分配策略各不相同,但基于锚和无锚检测器的一个共同点是将适当感受野的特征点分配给不同尺度的对象。因此,无需设计启发式定位点盒预设或尺度分组,感受野就可以直接作为一个建立和令人信服的标签分配先验。
在本文中,作者提出直接度量有效感受野(Effective generative Field, ERF)与gt区域的匹配程度进行标签分配,去除影响TOD的box或先验点。以前的工作已经指出,ERF可以从理论上推导为高斯分布。在这项工作中,我们遵循这一范式,试图将每个特征点的ERF建模为高斯分布,我们首先推导了标准卷积神经网络上第n层的理论接收场(TRF),公式为 t r n tr_n trn:
在这里插入图片描述
式中, t r n tr_n trn为第n层卷积运算中每个点的TRF, k n k_n kn s n s_n sn为第n层卷积运算的核大小和步长。
ERF和TRF具有相同的中心点,但每个特征点的ERF只占整个TRF的一部分。因此,我们使用每个特征点 ( x n , y n ) (x_n, y_n) (xn,yn)的位置作为标准二维高斯分布的均值向量。由于难以得到精确的ERF,我们采用ERF的半径 e r n er_n ern来近似ERF半径。 e r n er_n ern的平方作为标准的类平方卷积核的二维高斯分布的协方差。综上所述,我们将ERF的范围模拟为二维高斯分布 N e ( µ e , Σ e ) N_e(µ_e, Σ_e) Ne(µeΣe)
在这里插入图片描述

(二)、感受野距离

获取高斯ERF,接下来的关键步骤是测量特征点的ERF与某个gt的匹配程度。正如在介绍中所讨论的,步长变化的均匀分布不利于微小物体,还需要将gt建模为另一种分布。
观察到物体主体聚集在锚框的中心,将gt框 ( x g , y g , w g , h g ) (x_g, y_g, w_g, h_g) (xg,yg,wg,hg)建模为一个标准的二维高斯分布 N g ( µ g , Σ g ) N_g(µ_g, Σ_g) Ng(µg,Σg),其中每个标注框的中心点作为高斯的均值向量,半边长的平方作为协方差矩阵,即:
在这里插入图片描述

在本文中,作者研究了三种典型的高斯分布之间的距离作为感受野距离候选(RFDC)。这些距离测量包括Wasserstein距离,K-L散度和J-S散度。高斯分布之间的J-S散度没有闭合解,在逼近其解时会引入大量的计算量,因此没有使用J-S散度。在这里,作者将首先分析他们在任务中的封闭形式解决方案,然后讨论他们在TOD任务中的利弊。

(1)、Wasserstein distance

Wasserstein距离来自最优输运理论。给定高斯ERF n e = N e ( µ e , Σ e ) n_e = N_e(µ_e, Σ_e) ne=Ne(µe,Σe)和高斯gt n g = N g ( µ g , Σ g ) n_g = N_g(µ_g, Σ_g) ng=Ng(µg,Σg),第二个Wasserstein距离可以简化为下式:
在这里插入图片描述
Wasserstein 距离的主要优点是它可以测量两个非重叠分布。通常情况下,真值框与大多数先验框和点没有重叠,赋值器无法对这些锚框和点进行优先级排序。Wasserstein距离的特征有利于TOD,它可以一致地反映所有特征点与某个gt box的匹配程度,使赋值器可以按照合理的优先级对更多的微小物体的正样本进行补偿。然而,Wasserstein距离不是尺度不变的,当数据集包含大规模方差的对象时,可能是次优的。

(2)、Kullback-Leibler divergence

Kullback-Leibler Divergence (KLD)是一个经典的统计距离,它衡量了一个概率分布与另一个概率分布的差异。两个高斯分布之间的KLD也有一个闭合解, E R F n e ERF_{n_e} ERFne与gt区域 n g n_g ng之间的KLD为:
在这里插入图片描述
上式可以简化为:
在这里插入图片描述
KLD在两个二维高斯分布之间具有尺度不变性,而尺度不变性对于检测至关重要。而KLD的主要缺点是,当两个分布的重叠可以忽略时,它不能一致地反映两个分布之间的距离。因此,本文选择ERF与gt之间的KLD作为另一个RFDC。
综上所述,本文研究了三种经典的概率分布测量方法,并选择Wasserstein距离和KLD作为RFDC。然后对RFDC进行非线性变换,得到归一化取值范围为(0,1)的RFD如下:
在这里插入图片描述

(三)、等级标签分配

一些基于锚框的检测器基于IoU设置阈值来决定pos/neg样本,而无锚的检测器主要通过先验点和gt区域之间的空间位置来划分pos/neg样本。由于小对象在基于阈值的策略和基于gt区域的策略中通常效果不好,我们建议通过分数排名分层地给小对象分配标签。
为了保证任意特征点与任意gt之间的位置关系能够求解,在RFD的基础上建立了层次标签分配(HLA)策略。在赋值前,根据上述方法计算特征点与gt之间的RFD得分矩阵。在第一阶段,以一定的gt对每个特征点的RFD得分进行排序。然后,以一定的gt对RFD得分最高的k个特征点分配正标签。最后,得到已分配特征的分配结果 r 1 r_1 r1和对应的掩码m,其中m为二值(0/1)。第二阶段,为了提高整体召回率,减少异常值,作者对有效值进行了轻微的衰减。
将阶段因子β乘以半径 e r n er_n ern,然后重复上述排序策略,对每个gt补充一个正样本,得到分配结果 r 2 r_2 r2。可以通过以下规则获得最终的赋值结果r:
在这里插入图片描述
其中采用掩码操作m,避免给那些已经分配了足够样本的gt引入过多的低质量样本。这并不是说被遮挡的样本会被分配到更小的gt中。将RFD与HLA策略相结合,可以得到完整的基于感受野的标签分配(RFLA)策略。

(四)、应用于探测器

提出的RFLA策略可以很容易地应用于基于锚框和无锚框的框架。在不失一般性的前提下,以经典的Faster R-CNN和FCOS为例。具体来说,对于Faster R-CNN,可以使用RFLA代替标准的锚平铺和MaxIoU锚分配过程。对于FCOS,取消了真值框内部限制特征点的约束,因为小锚框只覆盖了一个非常有限的区域,通常比大物体包含的特征点要少得多。然后,可以很容易地用RFLA代替基于点的分配来实现平衡学习。注意,为了避免梯度爆炸,将中心损失修改为以下公式:
在这里插入图片描述
其中 l ∗ 、 t ∗ 、 r ∗ 、 b ∗ l^*、t^*、r^*、b^* ltrb为FCOS中定义的回归目标, ε ( ⋅ ) ε(·) ε()为与公式1相同的阶跃函数,c为为避免回归目标中心点在gt框外时的梯度消失问题而设为0.01的因子。在接下来的部分中,大量的实验将证明RFLA对TOD具有出色的鲁棒性。

四、实验

(一)、实验设置

所有实验均在1块NVIDIA RTX 3090 GPU的计算机上进行,模型训练基于PyTorch,构建了核心代码在MMdetection。ImageNet预训练模型用作骨干。所有模型都使用随机梯度下降(SGD)优化器训练,为12个周期,动量为0.9,权重衰减为0.0001,批大小为2。初始学习率设置为0.005,在第8和11个epoch衰减。设置RPN提案的数量为3000。在推理阶段,将置信度评分设置为0.05以过滤背景边框,并将NMS IoU阈值设置为0.5,且边框数量达到3000个。其他参数设置与MMdetection默认值相同。除了在TinyPerson上的实验外,评价指标遵循AI-TOD基准。除另有说明外,所有实验均采用上述参数。

(二)、消融实验

(1)、不同RFD的有效性

在这一部分中,分别使用Wasserstein距离(WD)和Kullback-Leibler散度(KLD)来测量高斯ERF和gt区域之间的距离。我们还通过将先验设置为ERF大小的框来测试GIoU的性能。注意,由于RFD和HLA是相互依赖的,所以所有的实验都是基于Faster R-CNN w/ HLA进行的。由下表1可以看出,GIoU不如RFD,因为它不能区分相互包含的盒子的位置,而WD和KLD的性能是可以比较的。在 A P v t AP_{vt} APvt中KLD超过WD,而在 A P t AP_t APt度量下KLD略低于WD。KLD是尺度不变的,因此它更适合于非常微小的物体。注意,在接下来的实验中,我们使用KLD作为默认RFD。
在这里插入图片描述

(2)、单个成分的有效性

本文的核心设计相互依赖,可分为两部分:层次标签分配策略(HLA)和接收场距离(RFD)在HLA。需要注意的是,RFD的验证需要使用HLA的第一阶段,本文不根据RFD的阈值来分配标签,因为基线检测器中的原始阈值是为IoU设计的,与RFD不在同一个维度上。逐步将RFD和HLA应用到Faster RCNN中。结果如下表所示,AP逐步改善,验证了个体的有效性。将基于IOU的分配策略转换为基于射频识别的分配策略,显著提高了9.6 AP分。这可以解释为先验点的有限域导致锚与gt之间的IoU非常低,很多gt无法与任何锚匹配。利用高斯先验和RFD,赋值器能够将所有特征点的优先级(RFD分数)测量到一个特定的gt。因此,即使gt与任何一个盒子先验没有重叠,也可以用一个合理的接受域对gt进行一些正样本补偿,从而使微小物体得到充分的训练。
在这里插入图片描述

(3)、不同衰减因子β的性能

作者为ERF设计了一个阶段因子β,以减轻异常值的影响。在下表中,保持其他参数不变,实验表明0.9为最佳选择。设置较低的β值会引入太多低质量的样品。
在这里插入图片描述

(4)、性能k不同

在HLA中,超参数k被设计用来调整分配给每个实例的正性样本数量。这里,保持所有其他参数不变,并将k设为1 ~ 4。他们的表现分别20.7,21.1,21.1, and 20.9 AP。当k设置为2或3时,可以获得最佳性能。因此建议将3作为默认设置。此外,AP在测试k下只波动很小的幅度。将不同k下的AP与锚定尺寸调整的结果进行比较,如下图所示。在TOD任务中,基于锚框先验的检测器的性能对锚框大小非常敏感,性能对k的选择是相当稳健的,始终保持在锚框先验的高水平。
在这里插入图片描述

(5)、高斯锚框和感受锚框

直接将锚点建模为高斯分布,计算gt之间的RFD评分,然后用HLA分配标签。结果如下表所示。结果表明高斯先验及其与HLA的结合具有很大的优越性。高斯先验具有更广泛的领域,使样本补偿成为可能。此外,作者将锚定尺度改为ERF尺度,然后使用MaxIoU策略分配标签。与基线相比的改进进一步表明了锚框的灵敏度高于TOD的检测性能。它还揭示了当前的锚框可能会引入感受野不匹配的问题为微小的对象。
在这里插入图片描述

(6)、主要结果

作者在AI-TOD基准上将本文的方法与其他最先进的检测器进行了比较。如下表所示,带RFLA的detector可以达到24.8 AP,比最先进的竞争对手高出4.0 AP。值得注意的是,多级锚基探测器对RFLA的改进尤其显著。认为这主要归功于多看多想的多阶段检测机制。第一阶段,将RFLA与RPN相结合,可以在很大程度上提高微小物体的召回率。在第二阶段,对提案进行细化,进行精确定位和分类。此外,单级基于锚或无锚检测器也有改进,其中APvt的改进更为明显,RetinaNet为1.7分,FCOS为1.3分。对于TOD来说,单级和多级探测器之间的间隙是常见的。这主要是由于缺乏对TOD至关重要的多阶段回归。
在这里插入图片描述

(6)、实验分析

本文进行了一组分析实验,以深入研究微小物体的不同先验设计和赋值器。在第一步中,我们分别在Faster R-CNN、FCOS和RFLA中部署了先验平铺的方式。第二步,我们在图像的不同位置随机生成不同的gt,模拟统计的标签分配过程。具体来说,gt尺度从0到64是随机选取的。之后,我们将尺度范围划分为16个区间,如下图所示,并计算每个gt在不同尺度范围内分配的正样本的平均数量。观察结果表明,现有探测器存在严重的尺度样品不平衡问题。对于基于锚的探测器,微小尺度的物体和锚框尺度之间的间隔成为异常值。无锚检测器在一定程度上缓解了这个问题。然而,微小物体仍然是异常值,因为微小物体覆盖的区域非常有限。gt内部的先验点数量比大型对象要少得多。尺度样本不平衡问题会误导网络走向不平衡优化,从而减少对离群样本的关注。与RFLA相比,gt在不同尺度范围内的正样本数量得到了很大的协调,实现了对微小物体的均衡优化。
在这里插入图片描述
在这里插入图片描述
Results on TinyPerson.
在这里插入图片描述
左:VisDrone2019。训练、val集用于训练和验证。FR, DR表示Faster R-CNN, detector,DetectoRS,*表示RFLA。
右:结果DOTA-v2.0。训练、val合用于训练和验证。FR, DR表示Faster R-CNN,DetectoRS探测器,*表示与RFLA
在这里插入图片描述
AI-TOD可视化结果。第一行是Faster R-CNN的结果,第二行是Faster R-CNN w/ RFLA的结果。

猜你喜欢

转载自blog.csdn.net/qq_52302919/article/details/126531432