最新综述!五大方向逐一梳理半监督目标检测进展

导读

监督学习领域的目标检测算法已经比较成熟了,但是标签成本过高,存在一定的局限性。因而,半监督目标检测(SSOD)受到广泛关注,旨在通过使用少量标记数据和大量未标记数据来学习信息。本文从五个方面对其进行总结:首先简单介绍一下数据增强的几种方法。然后,将主流的半监督策略分为伪标签、一致正则化、基于图和基于迁移学习的方法,并介绍了一些具有困难环境中的方法。此外,介绍了相关损失函数,概述了常见的基准数据集并比较了不同代表性方法的准确性。

背景知识

我们可以把半监督学习看作监督学习与无监督学习相结合的方法,其主要研究点在于如何在训练过程中合理利用有标签和无标签样本,可以通过应用一些假设来建立预测样本和学习目标之间的关系:
(1)平滑假设
假设当两个样本靠近位于高密度区域时,它们更有可能具有相同的类标签
(2)聚类假设
假设当两个样本在同一个聚类中时,它们可能属于类别相同
(3)流形假设
假设两个样本位于低维流形的一个小局部邻域内时具有相似的类标签
基于以上的假设,一些用于图像分类的半监督学习方法可以分为以下几类:生成方法;基于图的方法;一致性正则化方法;伪标签方法和混合方法。本篇论文就开始对半监督目标检测进行总结。
在这里插入图片描述

流程角度对 SSOD的分类

数据增强

数据增强对于提高模型泛化性和鲁棒性至关重要,这是 SSOD 的第一步。为了提高模型的鲁棒性,合理利用无标签数据信息,采用一致性正则化对增广数据进行约束,以保证输出标签的一致性。由于不同方式之间的差异,增强的方式也有很大不同。
(1)强增强
强增强方式可以丰富数据集并轻松提高模型性能。一些方法利用颜色抖动、灰度、高斯模糊和剪切块来增强数据。并且,cutout 的正则化效果很弱。
(2)弱增强
弱增强弱增强通常使用简单的图形变换。随机水平翻转、随机调整大小和多尺度是一些常规的弱增强方式。Mixmatch 通过随机混合不同类别的图像来扩展训练数据集。Mix up存在背景和物体混合的类模糊问题。
(3)混合增强
混合增强为了避免上述问题,弱增强和强增强都应用于MUM方法中的小批量未标记图像。此外,即时教学将马赛克直接应用到基于伪标签的SSOD框架中。STAC探索了变换操作的不同变体,并确定了一组有效的组合:1)全局颜色变换;2)全局几何变换;3)盒级变换。

半监督策略

在数据增强之后,下一步是设计一个训练框架来集成来自标记和未标记图像的信息。目前,SSOD 方法遵循四种策略:
1. 伪标签
通过使用预训练模型来估计未标记图像的伪标签,然后在增强后使用标记数据和未标记数据联合训练模型。其中大多数基于两阶段基于anchor的检测器,例如 Faster-RCNN。
在这里插入图片描述

(1)Self-training
自训练使用标签训练教师模型,该模型用于预测无标签数据,最后用所有数据来训练学生模型。许多SSOD方法通过自训练利用无标签样本的信息进行伪标签预测,通过在训练过程中利用带有伪标签的高置信度样本来提高模型性能。典型的如STAC(pipeline如下图),是基于硬伪标签的算法。标签数据用于训练可以预测未标记数据的教师模型,使用阈值来选择高置信度伪标签。此外,使用强增强无标签数据的无监督损失和强增强无标签数据的监督损失来计算伪标签。标记数据。我们需要注意的是,STAC仅生成一次性伪标签,然后使用伪标签的初始预测将限制模型精度的提高。
在这里插入图片描述

STAC

ISTM(如下图)为了避免忽略同一图像在不同训练迭代时检测结果的差异而对未标记数据进行过拟合,提出了一种交互式自我训练模型。一方面,它利用非极大值抑制(NMS)融合不同迭代中的目标检测结果,另一方面,它使用两个具有不同结构的感兴趣区域(ROI)头来估计彼此的伪标签。
在这里插入图片描述

ISTM

(2)Optimized pseudo labels
为了缓解确认偏差问题并提高伪标签的质量,大多数方法都会在训练阶段纠正伪标签。Unbiased Teacher采用了两阶段框架(如下图),该方法通过使用伪标签来训练区域提议网络(RPN)和RoI头来减轻过拟合问题,解决了伪标签偏差问题并通过使用指数移动平均(EMA)和焦点损失来提高伪标签的质量。分类的置信度用于筛选检测框的虚假标签,不能反映定位的准确性。就有一些方法将分类置信度平均值与原始检测分类置信度相乘作为指标,用于反映分类精度和定位精度。为了细化伪标签质量,Cross Rectify利用检测器之间的差异来识别自错误同时使用交叉校正机制。
在这里插入图片描述

Unbiased Teacher

(3)Mean teacher
Mean teacher包含一个权重从学生模型的EMA获得的教师模型和一个需要学习教师生成的对象的学生模型。如Soft Teacher就提出了一种端到端的半监督目标检测方法,为了充分利用教师模型的信息,无标记的边界框分类损失由无标记边界框产生的分类分数进行加权教师网。此外,通过选择框回归方差小于阈值的候选框作为伪标签来更好地学习框回归。
在这里插入图片描述

同样的,Instant-teaching 提出了一种核心纠正方案,该方案使用即时伪标签和扩展的弱强数据增强在每次训练迭代期间进行教学。
在这里插入图片描述

Instant-teaching

(4)Soft labels
与采用硬标签的 STAC 不同,Humble Teacher 应用了软标签,当head执行依赖于类的边界框回归时,它从类概率的预测分布和所有可能类的偏移中获取软标签目标。为了提供更多的信息,Humble Teacher 使用了大量的区域建议和软伪标签作为学生模型的训练目标。
在这里插入图片描述

Humble Teacher

(5)Dense guidance-based
Dense Learning提出自适应过滤策略和聚合教师来产生稳定和精确的伪标签,此外,在尺度和混洗补丁之间采用不确定性一致性正则化项来提高检测器的泛化能力。
在这里插入图片描述

Dense Learning

这类方法还有Dense teacher通过引入了一种区域选择技术来突出关键信息,抑制密集标签携带的噪声。为了用信息更丰富的密集监督取代稀疏的伪标签, dense teacher guidance(DTG)提出了一种新颖的“密集到密集”范式,将 DTG 集成到学生训练中。它还引入了逆NMS聚类和排名匹配,使学生能够从老师那里得到充分、信息丰富和密集的指导,以提高模型性能。
(6)Point labeling
点标注可以提供实例的位置信息,节省标注时间。Omni-DETR 通过基于二分匹配的过滤机制,利用不同类型的弱标签来生成准确的伪标签。Point DETR通过添加点编码器来扩展 DETR。Group R-CNN基于经典的R-CNN架构,通过实例感知特征增强和实例感知提出实例级提议分组和实例级表示学习参数生成,旨在提高 RPN 召回率并实现从实例组到实例框的一一对应,其框架如下所示:
在这里插入图片描述

Group R-CNN

(7)Uncertainty quantification
伪标签中固有地存在标签噪声,给SSOD训练带来不确定性。一些方法通过引入区域不确定性量化并提升多峰概率分布输出来实现抗噪声学习。还有通过利用所提出的不确定性量化作为软目标并促进多峰概率分布,将对抗噪声的不确定性引入半监督学习。
在这里插入图片描述

Combating noise

为了改进预测边界框的过滤并获得更高的学生训练质量,NOTE-RCNN 引入了一种用于边界框定位的附加分类模型 IL-Net ,利用轻量级分支来预测并集上的边界框交集(IoU ) 质量。如下图所示,在大量图像级别标签和少量种子框级别注释的情况下,检测器使用两个分类头和一个蒸馏头来提高挖掘精度,掩盖负样本损失并仅训练框回归头种子注释,以消除不准确信息的危害。
在这里插入图片描述

(8)Data distillation
有些SSOD方法提出基于提示学习和地面真值有界知识蒸馏的自蒸馏算法来利用纯化的数据,通过单个模型集成来自未标记数据的多次转换的预测,还在手动标记数据和自动标记数据的联合上重新训练模型。
(9)Visual and language model-based
大多数先前工作仅利用一小组标记数据来生成伪标签,而CV和NLP能够为已知和未知类别生成伪标签。VL-PLM 从使用未标记数据的对象检测器的通用训练策略开始。为了提高伪标签定位,它使用了与类别无关的提议分数和RoI头的重复应用,此外,通过视觉和语言模型判断裁剪区域的分数来提供更好的伪标签。
在这里插入图片描述

VL-PLM

Prompt Det 能够检测新类别,无需任何手动注释。如下图,Prompt Det分为3个阶段,在第三阶段,将基本类别和新颖类别发送到自训练网络中,使用区域提示学习来生成更准确的伪标签。
在这里插入图片描述

Prompt Det

2. 一致正则化
第二种策略是基于一致性正则化,如下图所示,这些方法对不同形式的数据增强下相同未标记图像的输出的一致性进行正则化。
在这里插入图片描述

CSD就是一种典型的基于均匀正则化的半监督目标检测方法,可以在单级和两级检测器上工作。在第一阶段,根据两幅图像的空间位置计算分类和定位的一致性损失。第二阶段,通过相同的RPN为两幅图像生成相同的一组RoI来提取特征,然后计算一致性损失。
在这里插入图片描述

CSD

在一致性训练中,PseCo提出了一种包括标签级和特征级一致性机制的多视图尺度不变学习,通过在内容相同但尺度不同的两幅图像之间对齐和移动特征金字塔来实现特征一致性。
3. 基于图的方法
第三种策略是基于图的方法。标记和未标记的数据点可以被视为图的节点,目标是利用两个节点的相似性将标签从标记的节点传播到未标记的节点,这通过两个节点之间的边的强度来反映节点。这类方法是目标跟踪任务中重要的半监督学习分支,可以有效地利用标记和未标记样本的综合信息。它通过在每个图上独立运行基于图的半监督分类方法来提高跟踪精度,从而利用包含标记和未标记样本的样本集的内在结构特征。
4. 迁移学习
获得目标级注释(带有类别注释和边界框注释)总是比图像级注释(带有类别注释)更难。因此,如何将具有图像注释和对象注释的现有类别的知识迁移到没有对象级别注释的类别是值得探索的。第四种策略是基于迁移学习,如下图,它学习两个任务之间的差异,并将没有边界框注释的数据知识从分类器迁移到检测器。
在这里插入图片描述

下图是一种大规模自适应检测(LSDA)框架,该算法使用具有图像级注释的数据和具有对象级注释的数据来学习分类器,然后将分类器转换为分类器。利用第二种数据将网络构建为检测网络,最后将所有数据放入网络得到适配网络。
在这里插入图片描述 LSDA framework
在此基础上,还有些方法发现视觉相似性和语义相关性对于检测任务是互补的。如下图所示,提出了基于相似性的知识转移模型,它展示了如何转移来自视觉和语义域的对象相似性的知识,以使图像分类器适应半监督设置中的对象检测器。

在这里插入图片描述

损失函数

设计的损失对于 SSOD 可以从数据中学到什么有很大的影响。在大多数SSOD方法中,总体损失被定义为监督损失和无监督损失的加权和,可以表述如下:
在这里插入图片描述

其中 和 分别表示标记图像的监督损失和未标记图像的无监督损失,控制无监督损失的贡献。两者都包括分类损失和回归损失。分类和定位的损失通常被实例化为标准交叉熵损失和平滑 L1 损失的加权和。

实验结果

作者首先是总结了MS-COCO数据集上 SOTA 方法的 AP 指标,0.01、0.02、0.05、0.1分别表示标签数据的百分比
在这里插入图片描述

然后在VOC数据集上做评估

在这里插入图片描述

总结

监督算法和半监督算法都可以应用于目标检测任务。有监督算法能够取得良好的性能,但是有一定的局限性,需要学习大量的标签数据,对数据质量要求较高。本文引入的半监督算法只需要少量的标记数据和大量的未标记数据就可以提高模型的质量,在实践中节省了标记成本。本文对文献中新提出的半监督目标检测方法进行了完整的回顾。根据相关方法的基本原理对其进行分类,并描述其优点和缺点。但是,半监督目标检测方法仍然面临许多挑战:
(1)伪标签是否准确
基于自我训练的方法为解决目标检测的半监督学习的进一步发展提供了灵活性。自训练模型使用单个自训练模型来学习未标记数据的表示并构建中间标签系统来处理半监督领域的标记不足问题的可能性。但是确认偏差和过度使用伪标签的问题却被忽视了。后续的改进方法需要探索如何更有效地利用无标签数据,缓解确认偏差问题并提高伪标签的质量。
(2)标签形式
伪标签已被证明在 SSOD 中有效,并且在 MSCOCO 和 Pascal VOC 等基准测试中取得了SOTA。但是生成伪标签的过程需要几个额外的步骤,如 NMS、阈值处理和标签分配。基于密集引导的方法是一项开创性的工作,它朝着更简单、更有效的伪标签形式迈出了第一步。软标签加上均衡数量的教师区域提案是取得卓越表现的关键。基于点标签的方法还可以实现更好的成本精度权衡。因此,设置多种标签形式对于获得样品的更多详细信息是有用的。
(3)类别平衡
目前的SSOD方法有助于有效提高平衡数据下的检测精度和对噪声样本的鲁棒性。但是,训练阶段需要大量平衡的标记数据,很难应用于现实场景。未来考虑无标签图像中的类别平衡问题,并开发更多新的资源友好的半监督目标检测方法也是很有意义的。

猜你喜欢

转载自blog.csdn.net/limingmin2020/article/details/132422257