原文链接：https://arxiv.org/pdf/2201.09396.pdf
源码： https://github.com/ZTX-100/DLA-Combined-IoUs
标签分配在现代目标检测模型中起着重要作用。使用不同的标签分配策略，检测模型可能会产生完全不同的性能。对于anchor-based的检测模型，锚框与其对应的真值边界框之间的IoU阈值是关键因素，因为正样本和负样本被IoU阈值分割。早期的目标检测器只是对所有训练样本使用一个固定的阈值，而最近的检测算法侧重于基于IOU到真值分布的自适应阈值。在本文中，作者介绍了一种简单有效的方法，根据训练状态和预测动态执行标签分配。通过在标签分配中引入预测，选择更多与真值对象具有更高IoU的高质量样本作为正样本，这可以减少分类分数与IoU分数之间的差异，并生成更多高质量的边界框。使用自适应标签分配算法的检测模型的性能得到了改善，并且这些正样本的下界框丢失也得到了改善，这表明选择了更多具有更高质量预测框的样本作为正样本。

一、文章简介

标签分配是将样本分为正样本和负样本，这对目标检测模型的成功至关重要。对于anchor-based的模型，标签分配的核心元素是划分正样本和负样本的阈值。在计算了锚框和真相（GT）边界框之间的交并比（IoU）后，正样本是那些IoU大于阈值的锚框，而其他样本是负样本的或被忽略的。早期检测模型利用固定阈值来区分正负样本。然而，使用固定阈值划分正负样本的算法忽略了各种真值边界框在形状和大小上的差异。近年来，人们提出了几种自适应标签分配策略来自适应计算阈值。这些算法基于锚框和真值边界框之间的IoU分布自适应地选择正样本和负样本，以便具有更多高质量锚框的真值边界框将具有更高的IoU阈值，并且具有最低质量锚框的真值边界框将具有较低的IoU阈值。然而，自适应分配方法不会根据更准确地表示训练状态的预测来分配正和负。由于分类和定位之间的差异，分类分数不能精确地对应定位质量，而NMS（非最大抑制）假设分类分数代表定位质量，并过滤重复项，以便只保留分类分数较高的样本。然而，如果分类分数不能准确表示本地化质量，则可能会删除高质量的边界框，并保留一些低质量的边界框。而固定的锚框无法保证预测边界框的质量。因此，引入预测来指导标签分配是一种有效的方法，这可以将能够生成高质量预测的锚框作为积极因素。在早期训练阶段，预测存在不确定性，因此不能直接用预测的边界框替换锚框。在一些利用预测对正样本进行加权的算法中，提出了将距离与真值中心相加的方法。而预测（分类分数或IoU分数）和距离是两个不同的“领域”，它们不能自然地结合在一起。Autoassign设计了一个中心权重模块来解决这个问题，但该模块可能是次优的，因为假设靠近GT中心的样本将具有更多权重。“All-to-Top-1”基于迭代而非预测来进一步减少bag中锚框的数量。因此，训练可能不是最优的，因为bag中锚的数量不受预测控制，并且可能不满足训练状态。本文将预测边界框和真值边界框之间的预测IOU，以及锚框和真值边界框之间的锚IOU直接结合起来。根据自适应模型，提出了自适应阈值算法，根据候选锚框和真值边界框之间IOU的统计特性，获得阈值。而本文的方法分别计算预测框的IOU和锚框的IOU的分布，然后通过简单地相加它们来获得组合参数。最后，根据组合分布参数计算组合阈值。由于每个迭代中的预测都涉及到标签分配，软目标（预测边界框和真值框之间的预测IOU）比硬目标（标签1）更适合分类损失中的正目标。QFL和VFL是常用的软目标分类损失。这两种方法都可以进一步提高本文提出的方法的性能。此外，将中心度分支替换为IoU分支以提高精度。

一、Label Assignment

标签分配是检测模型性能的核心因素，如何划分正样本和负样本将决定网络如何学习和收敛。早期检测模型，如 Faster RCNN、SSD和RetinaNet利用传统的标签分配方法，使用固定阈值来划分正负。尽管那些具有固定阈值的检测模型对于标签分配仍然有效，但它们忽略了不同对象样本之间在形状、大小和相应正锚框数量方面的差异。近年来，研究人员致力于设计自适应阈值，并逐渐摒弃标签分配的固定阈值。ATSS通过根据候选锚框和真值对象之间IOU的分布计算平均值和标准偏差来计算自适应阈值。PAA将候选锚点拟合到高斯混合模型中，并按概率将其分离。使用预测来指导标签分配可能更准确，因为预定义的锚可能无法准确反映实际的训练状态。然而，早期培训阶段的预测不准确，不合理，无法指导标签分配。FreeAnchor利用最大似然估计（MLE）对训练过程进行建模，以便每个真相可以至少有一个具有高分类分数和本地化分数的对应锚框。MAL采用分类和定位预测作为锚框评估的联合置信度。为了缓解次优锚点选择问题，MAL基于关节置信度对所选锚点的特征进行扰动，并提出了“All-to-Top-
1”的锚点选择策略。Autoassign引入了中心权重，作为在早期训练阶段解决不合理预测的先验方法，这表明更接近真值中心的样本将具有更多权重。

（一）、Revisit Adaptive Label Assignment

自适应标签分配策略经常通过基于候选锚框或anchor bags计算统计参数（例如平均值和标准偏差）来划分正样本和负样本，候选锚框或anchor bags是根据锚框中心点到真值边界框中心之间的欧式距离选择的。根据候选锚在真值框中的位置选择候选锚框后，根据其IOU在相应地真值框中的分布计算自适应阈值。
标签分配的自适应算法根据GT边界框的形状和大小自适应计算阈值。如果GT框是大的或方形的，则阈值会更高，因为有更多与之相对应的高质量锚框。如果GT盒细长或形状较小，则由于与之相对应的大多数低质量锚，阈值将较低。然而，大多数自适应方法仅根据锚框和真值框之间的关系计算自适应阈值。在训练过程中，它们仅仅依赖于预定义的锚定框，而忽略了预测的边界框。换句话说，对GT框具有最高IoU的锚点不能保证其预测的边界框在所有正锚点中也具有对GT的最高IoU。因此，一些具有高质量预测边界框的样本可能被定义为分类目标为0的负样本。因此，高质量边界框的性能会受到影响。由于预测可以反映每个样本的真实训练状态，因此使用预测信息可以提高定义正负的准确性。然而，直接使用预测可能不合适，因为早期训练阶段的预测不合理，无法指导正面和负面定义。因此，本文提出了一种简单有效的方法来解决这一问题，方法是将预测的IOU与每个训练样本的真值相结合，并将预定义的锚框IOU与真值相结合

（二）、Dynamic Label Assignment

本文提出了一种简单有效的动态标签分配策略，该策略将预测引入到标签分配的锚框中。在早期训练阶段，由于随机初始化，预测不准确。因此，锚定将在指示标签定义之前起作用。预测逐渐占据组合IOU的主导地位，随着培训的训练和预测的改进，将引导标签分配。网络结构如下所示。使用ATSS作为基础网络，它有一个CNN主干、一个FPN颈部和一个共享头，该头分别有两个用于分类和回归的分支。该方法提取回归结果，并将回归偏移量解码到边界框的坐标，最后计算解码边界框和GTs之间的IOU。如下图所示，预测的IOU将与锚IOU相结合，以选择正样本。
在这里插入图片描述
为什么利用预测对指导标签分配如此重要？由于我们选择最终结果，并基于预测结果而不是锚框实现NMS算法，因此预测比预定义的锚更准确，可以定义积极和消极因素。我们经常基于这样的假设来设计检测模型，即预定义框与真值框具有高IOU的样本适合被选为正样本，或者中心靠近真值对象中心的样本是正样本的良好候选。一旦为每个图像选择了正样本，则在训练过程中不会对其进行修改，因为预定义的锚定框或锚点是固定的，并且不会根据训练状态进行更改。然而，具有高质量预测的样本可能并不经常是具有高质量锚框或锚点的样本，尽管它们生成高质量预测框的概率较高。
如果在整个训练过程中强制具有高质量锚框或锚点的样本为正，则网络将专注于学习这些样本，即使它们的预测不够好，并忽略可能产生更好预测结果但由于锚框或锚点质量相对较低而可能被指定为负的样本。如果在每次迭代中引入预测来帮助定义正样本和负样本，我们可以选择更多具有高质量预测的样本作为正样本，并进一步改进这些样本。将预测IOU添加到锚定IOU可以产生更好的结果并生成更高质量的预测。由于网络的随机初始化，锚框IOU对于我们的方法也是必要的，并且它们可以作为优先级。在本文的方法中，预测和先验都是基于真值边界框，因此它们可以通过加法自然组合在一起，而无需任何特殊设计。

（三）、Soft Targets for Classification Loss

随着focal loss的出现，大多数现代目标检测模型利用focal loss来学习类别标签。focal loss解决了训练过程中正样本和负样本之间的极端不平衡问题，并抑制了大多数容易的负样本，因为这些容易的负样本数量非常多，因此可能会主导训练的 loss。
由于引入了标签分配预测，使用Soft Targets（预测IOU到真值框）更适合将高预测IOU值排在其他低预测IOU值之上，这在GFL和VFNet中使用。GFL由QFL和DFL组成，分别用于分类和回归。在模型中使用QFL进行分类。由于软目标Soft Targets不等于1，QFL的交叉熵损失被转换为正的一般形式。此外，还根据Soft Targets修改了 focal loss。
当分类预测接近QFL中使用的Soft Targets时，VFNet利用VFL对正损失与分配正损失的软目标进行加权，而不是降低损失的权重。通过将权重更改为正样本的IoU目标，具有更高IoU值目标的正样本的损失也会更高，以便网络可以专注于学习这些高质量的正样本。

二、实验结果

在这里插入图片描述

从表一可以看出，ATSS与本文提出的CIOU（组合IOU）相结合，超过了具有分类损失soft targets（QFL和VFL）的相同模型。这种简单的修改可以将MS COCO val2017数据集上的原始ATSS算法提高约0.7 AP，这表明使用预测可以更好地指导正负样本的定义，锚定框对于指示标签分配也是必要的。通过简单地将它们结合在一起，该模型可以产生更好的精度改进。简单地将CIOU引入ATSS，标记的目标仍然是硬目标（1表示正样本）。
在这里插入图片描述
在表2中，AIOU表示预定义锚定框和真值边界框之间的IOU。如果仅选择了AIOU，则执行原始ATSS。PIoUs表示预测边界框和真值之间的IoUs。如果同时选择了AIoUs和PIoUs，则通过将计算出的AIoUs和PIoUs求和来实现组合IOU。可以明显地注意到，仅使用PIoUs进行标签分配会显著降低模型的性能，从39.06 AP到29.39 AP，而简单地将PIoUs添加到AIoUs来定义正样本和负样本，可以产生大约0.7 AP的改进，并且所有指标（AP、AP50、AP75、APs、APm、APl）都会得到改进。

Dynamic Label Assignment for Object Detection by Combining Predicted and Anchor IoUs