CVPR2023 超高分论文 | Consistent-Teacher: 高效目标检测超强 SOTA!

Title:Consistent-Teacher: Towards Reducing Inconsistent Pseudo-targets in Semi-supervised Object Detection
Paper:https://arxiv.org/abs/2209.01589
Code:https://github.com/Adamdad/ConsistentTeacher
Project:https://adamdad.github.io/consistentteacher/

导读

TLDR:本文通过分析现有半监督目标检测伪标签的偏移问题与不稳定性(Inconsistancy),提出了一种新的半监督目标检测器Consistent-Teacher。本文被CVPR2023评为Highlight(占提交总数的2.5%)。

目标检测是计算机视觉领域的核心问题之一,其重要性不可忽视。然而,要实现准确的目标检测,需要大量标记的数据,这也是该领域的一个关键问题。换句话说,数据标注是目标检测算法的基础,缺乏足够的标记数据将会极大地限制算法的性能和应用范围。因此,解决数据标注问题是实现准确、高效目标检测的必要条件。

近日,商汤和上海 AILab 的研究团队在计算机视觉领域的顶级会议 CVPR 2023 上发表了一篇题为《Consistent-Teacher: Towards Reducing Inconsistent Pseudo-labels in Semi-supervised Object Detection》的文章,获得了 455 的超高得分。该研究探讨了半监督目标检测中伪标签不一致性的问题,并提出了一个名为Consistent-Teacher的新解决方案。研究团队发现,不一致的伪标签边界框会严重影响半监督检测器的训练。因此,他们提出了一种系统性的方法来减少这种不一致的伪标签问题。

在一系列半监督目标检测评估中,研究团队测试了Consistent-Teacher,并取得了显著优于SOTA的表现。例如,在仅有 10% 的标注MS-COCO数据的情况下,Consistent-Teacher使用ResNet-50 backbone网络实现了 40.0mAP ,超过了之前的SOTA约3个mAP。当在完全标注的MS-COCO数据以及另外未标注的MS-COCO数据上进行训练时,其性能进一步提高到惊人的 47.7mAP,显著超越现有模型。本文被CVPR2023评为Highlight,文章源码已经开源!

半监督目标检测的现状总结

半监督学习SSL是一种利用少量有标签数据和大量无标签数据进行训练以提高模型性能的机器学习方法。在图像分类、目标检测等领域,SSL 已经被广泛应用。在目标检测领域,半监督目标检测SSOD能够有效利用大量无标注数据进行训练,具有重要的应用价值。SSOD 的基本模式是Teacher-Student模式 [4][5][6][7]。该方法首先利用少量已标注数据对初始模型进行训练,同时使用教师模型对大量未标注数据进行推断,并将推断结果作为伪标签加入训练集。期望学生模型能够准确检测这些伪标签,并对增强后的输入样本做出一致的预测。我们首先介绍这篇论文的基线模型Mean-Teacher,方便读者对这篇论文有更好的理解。

如图所示,Mean-Teacher[1] 是一种半监督目标检测框架。它利用有标签数据和无标签数据进行训练,其中Teacher模型生成伪标签,并给Student模型作为监督信号。Teacher 模型的参数由是 Student 模型参数的指数滑动平均Exponential Moving Average得到。相对应,Student 模型在进行过增强的未标注样本上进行训练,利用 Teacher 模型推断得到的伪标签进行监督。通过这种方式,Mean-teacher 实现多视角一致的自监督训练。

在 Mean-Teacher 的基础上,现有半监督目标检测方法通过各种方法提高伪标签的准确性,但由于缺乏足够的标注数据,训练过程中常常出现伪标签边界框质量较差的问题,这会导致模型的不稳定性和性能的下降。本文对伪标签质量较差的原因进行系统性的分析,发现关键问题在于伪标签的不稳定性不一致性,从而给予 student 模型不稳定以及不一致的伪监督信号。

伪标签的不稳定性:SSOD 的阿喀琉斯之踵

在半监督目标检测中,生成的伪标签存在不稳定(Inconsistency)的问题,这不仅影响伪标签的准确性,也会导致模型训练的不稳定和性能下降。主流的半监督目标检测器生成伪标签时是基于当前时刻的Teacher模型的预测。与全监督训练时的静态标签(在训练过程中不会变化)不同,一个无标签图像中一个物体的伪标签可能在训练过程中某个时间点出现,不断变化,直至最后稳定或消失。在使用这种极不稳定的伪标签监督下进行训练会导致一系列问题,如模型性能下降,难以达到理想效果等。我们列举了三种不稳定性产生的原因如下:

分配不一致: 当前主流的两阶段(Two-stage)或者单阶段(Single-stage)目标检测网络都使用基于IoU阈值的静态anchor分配方法,这种方法对于伪标签框中的噪声非常敏感。即使伪标签框中只有微小的噪声,伪标签的不稳定性也会导致anchor分配的不同。本文通过下图来说明在Mean-Teacher框架下RetinaNet[2]检测器中,伪标签不稳定性会导致的问题。绿色红色的边界框是北极熊的实际边界框和伪边界框。红点是伪标签的锚定框。热图显示了教师模型预测的密集置信度得分。在Mean-Teacher中,由于Teacher生成伪标签的不稳定性,在利用伪标签对Student进行伪监督训练时,Student会不时的将anchor assign到旁边的木板上。由于这种不一致的标签,Student模型最终会过拟合噪声并导致附近的木板被检测到并错误地分类为北极熊。

本文同时展示了一个 anchor box 在训练过程中动态变化的动图。如下图(a)为 Mean-Teacher,使用基于 IOU 阈值的静态 anchor 分配方法,可以看到随着训练进行,由于 Teacher 生成伪标签的不稳定性,在利用伪标签对 Student 进行伪监督训练时,Student 会不时的将 anchor assign 到旁边的木板上。而本文提出的 Consistent-Teacher,如下图(b)则可以稳定持续的定位到正确的前景物体并分配正确的分配 anchor。

这种对噪声的过拟合同样可以在分类损失图中看到,不一致的伪目标会导致分类分支过拟合,而回归损失则难以收敛(如下图)。

任务不一致:在主流的半监督目标检测方法中,分类与回归任务的不一致也是导致不稳定性的一个重要原因。为了筛选高质量的伪标签,通常会使用分类置信度作为指标,并设置阈值来筛除低置信度的伪标签框。然而,一个伪标签框的分类置信度好坏并不一定能反映其定位准确度的高低。因此,利用分类置信度进行伪标签筛选的方法会进一步加剧伪标签在训练过程中的不稳定性。如下图(a)所示,可以看到Mean-Teacher中存在大量分类置信度高但是回归不准确(与GT的IOU较低)的定位框。

时序不一致: 固定阈值筛选伪标签的方法同样会导致不一致性。在半监督目标检测中,为了筛选高质量的伪标签进行训练,常常采用一个固定的阈值对分类的置信度进行筛选。然而,这种方法会导致在训练不同阶段的不一致性。在训练初期,由于模型对预测结果不够自信,固定的阈值会导致过少的伪标签框被筛选,而随着模型的不断训练,每张图的伪标签框数量会逐渐增多,直到训练后期过多。这种伪标签框数量的不一致同样会导致 Student 网络训练的不一致。如上图(b)可以看到,不同 threshold 的 Mean-Teacher 均会出现“伪标签框数量随着训练逐渐增多”的不一致现象。

Consistent Teacher

在分析现有半监督目标检测伪标签的偏移问题与不稳定性后,本文提出了一种新的半监督目标检测方法 Consistent-Teacher,整体如下图。Consistent-Teacher 设计了三种模块来解决上述问题,包括自适应的标签分配(ASA),3D特征对齐(FAM-3D)和基于高斯混合模型的自适应阈值(GMM-based Threshold)

Consistent-Teacher 包含一个Teacher模型和一个Student模型,其中教师模型的参数是学生模型参数的指数滑动平均(EMA)。在训练的每一个iteration,学生模型一方面在有标签数据上进行有监督训练;另一方面,教师模型对无标签数据进行标注,得到伪标签框,并在对无标签数据进行了强数据增强后,训练学生模型。

在这个教师-学生模型的基础上,本文提出三种模块来解决上述伪标签不一致问题。上文提到静态anchor分配由于使用IoU阈值分割来分配anchor,略微变化就会导致分配的不同。本文则提出采用自适应的标签分配 (ASA),与静态anchor分配不同,ASA为每一对anchor-真实值边界框计算一个匹配损失,然后选择匹配损失最小的若干对anchor-真实值边界框作为最终的anchor分配。

其次,为了解决上文提到的分类与回归任务之间存在的不一致问题,本文提出3D特征对齐模块 (FAM-3D),通过使分类特征自适应地检索到最佳回归特征,以执行回归任务。以此,FAM-3D成功地将分类和回归特征进行了对齐。具体而言,FAM-3D在检测头中额外增加一个分支,用于预测最优回归特征位置的偏移量。FAM-3D中的“3D”意味着这个位置偏移量不仅在x和y维度上预测回归特征的偏移量,同时还预测特征金字塔中进行跨层的偏移量预测。我们使用计算出偏移量对分类特征进行重拍,即可得到与分类特征对齐的最优回归特征。这个偏移量是通过端到端优化回归特征位置头获得的,而不需要手工标注的监督。最后模型利用分类特征进行分类,并利用对齐的回归特征回归检测框。

最后,为了解决硬阈值选择伪标签带来的不一致问题,本文提出使用动态的阈值。它随着训练过程中的模型能力变化,调整伪标签的阈值。为了动态的调整伪标签框筛选的阈值,Consistent-Teacher将伪标签框筛选的过程看作是一个二分类过程,即正样本类为筛选得到的高质量伪标签框,负样本类为要筛除的低质量标签框。本文采用高斯混合模型(GMM)对这个二分类进行建模。将正样本类别和负样本类别分别看作两个高斯分布,通过Expectation-Maximum(EM)算法迭代求解高斯混合模型的最优参数,通过高斯混合模型得到分类阈值(区分正样本和负样本)。在训练中,Consistent-Teacher维持一个class-wise的队列存储用于建模GMM的的样本,并在训练过程中不断通过GMM获得动态更新的阈值进行自适应的筛选样本。

验证SSOD的不一致性

首先本文画出了伪标签的准确性,以及伪标签一致性随着训练不断进行的变化图。本文通过伪标签与真实标签的mAP来衡量伪标签的准确性,并通过两个连续的checkpoint对同一个样本预测的一致性作为伪标签的一致性衡量标准。
如下图可以看到,Mean-Teacher的伪标签不一致性远高于 Consistent-Teacher ;随着训练进行不断增加,Mean-Teacher的伪标签的mAP也远低于Consistent-Teacher。

下左图和中间的图可以看到,随着训练的进行,Mean-Teacher的伪标签框数量逐渐增多,会导致训练的不一致性。而本文提出的Consistent-Teacher通过GMM动态的调整并缓慢提高阈值,可以维持不同训练阶段中,伪标签框数量相对稳定。

在上右图中,Mean-Teacher预测了很多分类置信读高但是定位不准确的伪标签框(左边红色框)。而本文提出的Consistent-Teacher预测的大多数是分类置信读高且定位准确的伪标签框,这说明本文提出的方法可以很好的对齐分类与回归的特征并且预测更为准确的伪标签框。

实验

与SOTA的比较

本文在MS-COCO 2017以及PASCAL VOC数据集上进行实验。
在MS-COCO 2017不同比例的有标签的数据上,Consistent-Teacher均获得了远超SOTA的结果。如下图可见,Consistent-Teacher在1%,2%,5%以及10%的比例(有标注数据的比例)上分别获得了25.30, 30.40, 36.10以及40.00的mAP,这个结果稳定地比之前的SOTA Dense Teacher[3]高出3个mAP。

在COCO-Addition(利用全部的MS-COCO 2017作为有标注数据,并使用额外的COCO未标注数据)上本文同样获得了惊人的效果。如下图Table2,可以看到Consistent-Teacher获得了47.70的超强performance,比SOTA高1个mAP。在VOC的实验上本文提出的Consistent-Teacher同样获得了SOTA的结果。

以上实验很好的说明了,通过解决不一致问题,本文提出的Consistent-Teacher可以有效的提升半监督检测模型的性能。

消融实验

本文进一步进行消融实验说明本文提出的三个模块的有效性。

在上图Table 5中可以看到FAM-2D可以带来0.6的提升,而FAM-3D可以进一步带来0.4个点的提升。在Figure 7和8中,通过在不同比例的有标签数据上进行训练,以及对比不同固定阈值的模型可以看到GMM可以带来稳定的0.5个点的提升。

招聘信息

本团队深耕不同场景的视觉落地项目,致力提升数据的有效性,并长期招聘CV方向实习生与研究员,如有兴趣请联系 [email protected]

[1] Tarvainen A, Valpola H. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results[J]. Advances in neural information processing systems, 2017, 30.
[2] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988.
[3] Zhou H, Ge Z, Liu S, et al. Dense teacher: Dense pseudo-labels for semi-supervised object detection[C]//Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part IX. Cham: Springer Nature Switzerland, 2022: 35-50.
[4] Xu M, Zhang Z, Hu H, et al. End-to-end semi-supervised object detection with soft teacher[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 3060-3069.
[5] Jeong J, Lee S, Kim J, et al. Consistency-based semi-supervised learning for object detection[J]. Advances in neural information processing systems, 2019, 32.
[6] Sohn K, Zhang Z, Li C L, et al. A simple semi-supervised learning framework for object detection[J]. arXiv preprint arXiv:2005.04757, 2020.
[7] Liu Y C, Ma C Y, He Z, et al. Unbiased teacher for semi-supervised object detection[J]. arXiv preprint arXiv:2102.09480, 2021.


如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!欢迎添加小编微信号: cv_huber,备注"CSDN",加入 CVHub 官方学术&技术交流群,一起探讨更多有趣的话题!

猜你喜欢

转载自blog.csdn.net/CVHub/article/details/130304098