【论文笔记】Weakly Supervised Discriminative Feature Learning with State Information for Person ...


Weakly Supervised Discriminative Feature Learning with State Information for Person Identification
arXiv:2002.11939v1 [cs.CV] 27 Feb 2020
注:限于作者水平,本笔记难免存在不妥之处,欢迎批评指正

摘要

问题:不同的相机视图和姿势,这种视觉上的差异导致了在无监督判别性学习中的巨大困难。

思想:将摄像机视图标签用于行人重识别,而将面部姿势标签用于面部识别。利用状态信息作为弱监督,以解决由不同状态引起的视觉差异。

制定了一个简单的伪标签模型,并利用状态信息来尝试通过弱监督的决策边界校正和弱监督的特征漂移正则化来优化分配的伪标签。
在无监督行人重识别和姿势不变的面部识别中评估模型。运用一个标准的ResNet-50 backbone可以在Duke-reID,MultiPIE和CFP数据集上胜过state-of-art,模型还可以在三个数据集上与标准监督微调(standard supervised fine-tuning)方法起到相近的效果。

1.简介

深度判别特征学习在很多视觉工作中取得很大成功,但高度依赖大量带有人工标签的视觉数据。因此,无需人工标签的身份判别特征学习愈发引起注意。
在这里插入图片描述
由不同状态引起的这种视觉差异在无监督的判别学习中引起很大的困难。
幸运的是,在现实世界中的判别任务中,我们通常可以在没有人工标注的情况下获得一些状态信息。 例如在行人重识别中,很容易知道从哪个摄像机视图中拍摄了图像,而在面部识别中,可以通过现成的估计器来估计姿势和面部表情。 本文旨在利用状态信息作为弱监督,以解决无监督判别学习中的视觉差异。 本文将此任务称为弱监督的判别特征学习。
提出了一种新的伪标签模型,用于弱监督的判别特征学习。将每个未标记的图像示例分配给一个替代类(即人工创建的伪类),该替代类期望在未标记的训练集中表示未知身份,并将替代类构建为一个简单的基本模型。然而,无监督的分配通常是不正确的,因为相同的身份的图像特征由于上述视觉差异而失真。当视觉差异适度时,在特征空间中,一个未标记的示例会从正确的决策区域“滑出”,并越过决策边界到达附近代理类别的决策区域,将此效果称为特征失真。我们开发了弱监督的决策边界修正来解决此问题。想法是修正决策边界,以鼓励未标记的示例返回正确的决策区域。
但是,当特征失真明显时,可以将未标记的示例推离正确的决策区域。 幸运的是,由状态引起的特征失真通常遵循特定的失真模式。 总体而言,这导致特定的全局特征漂移。 因此,通过抵消全局尺度特征漂移,我们将显著的特征失真减轻到了适度水平,以便可以通过决策边界校正来解决。 这将通过引入弱监督的特征漂移正则化来实现。

2.相关工作

带有状态信息的学习

状态信息已在识别任务中单独进行了研究。在RE-ID中,一些工作利用相机视图标签来帮助学习视图不变特征和距离度量。
但是,大多数现有方法都是基于监督学习的,因此标签成本过高会极大地限制其可扩展性。因此,无监督RE-ID和跨域迁移学习RE-ID越来受到关注。
这些方法通常会合并摄像机视图标签,以学习特定于摄像机视图的特征变换,学习软多标签,提供视频RE-ID轨迹之间的关联或生成增强图像。 本文工作与跨域迁移学习RE-ID方法的不同之处在于,在训练阶段不需要任何标记数据。 关于无监督的RE-ID方法,提出了非对称聚类,其中利用摄像机视图标签来学习一组特定于视图的投影。 但是,他们需要通过解决代价高昂的特征问题来学习与摄像机视图一样多的投影,这限制了它们的可扩展性。 相反,我们学习了适用于所有状态(相机视图)的通用功能。

弱监督学习

我们的方法是用状态信息迭代地完善被视为弱监督的伪标签。状态信息用于指导伪标签分配以及改善针对分散状态的特征不变性。
典型的弱监督包括图像级的粗糙标签,用于更精细的任务如检测和分割。 与本文工作更相关的另一项研究是利用大规模不准确的标签(通常在网上或从Instagram或Flickr等数据库中收集)来学习总体特征。 与现有工作不同,本文目标是学习无需进行有监督微调就可直接应用于识别任务的识别身份特征。

无监督深度学习

典型的研究方向包括基于聚类的方法,该方法在未标记的数据中发现聚类结构并利用聚类标签;基于生成的方法,可学习对生成识别或重构有效的低维特征。
近来,自我监督学习是一种很有前途的无监督学习范式,已经非常流行。自我监督方法通常构造一些预先设计的任务(pretext tasks),其中监督来自数据。典型预先设计的任务的包括预测相对片(patch)位置,预测未来的片,解决拼图游戏,图像修补,图像着色和预测图像旋转。通过解决这些预先设计的任务,旨在学习对后续(downstream)实际任务中有用的功能。
本文目标不同于这些作品。由于它们旨在学习各种对后续任务的有用功能,因此它们被设计为与后续任务无关,并且需要对其进行监督的微调。相反,本文实际上专注于“微调”步骤,目的是减少手动标记的需求。

3.带有状态信息的弱监督判别学习

表示未标记的训练集,其中ui是未标记的图像示例。我们还知道状态
,例如,ui的照明是暗的,正常的或明亮的。我们的目标是学习一个深层网络f,以提取以x = f(i;θ)表示的身份区分特征。一个简单的想法是假设在特征空间中每个x都属于一个由代理分类器μ建模的代理类。预计将使用一个替代类来对未标记的训练集中的潜在未知身份进行建模。判别学习可以通过代理分类来完成:
在这里插入图片描述
其中yˆ表示x的代理类别标签,K表示代理类别的数量。替代类分配的一种直观方法是:
在这里插入图片描述
但是,由状态引起的视觉差异会导致错误的分配。当特征失真适度时,就会在局部发生错误的分配,即x错误地越过了决策边界进入附近代理类别的决策区域。我们开发了弱监督决策边界校正(WDBR)来解决这个问题。但是,对于明显的特征失真,当将x推离正确的决策区域很远时,它极具挑战性。为了解决这个问题,我们引入了弱监督特征漂移正则化,以将明显的特征失真降低到WDBR可以解决的中等水平。
在这里插入图片描述
弱监督是人员重新识别的摄像机视图的说明。在决策边界校正中,每个彩色边框均表示一个身份(身份标签未知;此处仅出于说明目的使用它们)。每个彩色区域表示代理类别的决策区域。在特征漂移正则化中,我们通过暗摄像机视图1来说明视觉主导状态。

3.1弱监督决策边界修正(WDBR)

我们首先考虑适度的视觉特征失真。它“微调”图像特征x以错误地越过决策边界进入附近的代理类。例如,当两个穿着深色衣服的人都出现在深色相机视图中时,甚至更难区分。因此,这些人图像被分配到相同的代理类。在这种情况下,直接观察到的是,该替代类别的大多数成员都是从相同的暗摄像机视图(即相同的状态)拍摄的。因此,我们量化了一个代用类被一种状态影响的程度。我们将决策边界推向一个被高度支配的代理类,甚至将其取消,以尝试修正这些局部跨越边界的错误分配。
我们通过最大优势指数(MPI)来量化范围。 MPI定义为代理类中最常见状态的比例。形式上,第k个代理类Rk的MPI由以下项定义:
在这里插入图片描述
其中分母是代理类别中成员的数量,由第k个代理类别Mk的成员集的基数表示:
在这里插入图片描述
分子是Mk中最常见状态的存在数。我们用Mk和对应于第j个状态Qj的状态子集的交集来表示:
在这里插入图片描述
如上所述,较高的Rk表示由于特征失真,某些示例更有可能错误地越过决策边界进入到替代类μk。因此,我们缩小替代类的决策边界,以清除其决策区域中可能跨越边界的示例。开发弱监督的修正任务:
在这里插入图片描述
其中p(k)是随Rk单调递减的修正函数:
在这里插入图片描述
是修正强度是修正阈值,通常设置为0.95
特别地,设置
这样得到:在这里插入图片描述
这意味着,当MPI超过阈值b时,我们通过将其决策边界缩小到单个点来使其无效。
在这里插入图片描述
对于任何两个相邻的替代类μ1和μ2,决策边界为:
在这里插入图片描述
讨论
为了更好地了解WDBR,让我们首先考虑一下硬修正函数。当代理类别的MPI超过阈值b(通常将b设置为0.95)时,决策区域就会消失,并且不会为该代理类别分配任何示例(即,该类别将完全无效)。因此,WDBR可以防止那些受严重影响的代课类误导无监督的学习。例如,如果分配给一个代理类别的超过95%的行人图像来自同一黑暗的相机视图,则很可能是因为太暗而无法区分它们,而不是因为它们是同一个人。因此,WDBR使此表现不佳的代理类无效。

当我们使用软修正函数时,WDBR不会直接使超出阈值的代理类别无效,而是倾向于移动决策边界使用MPI较低的代理类别(因为它们不太可能出现边界交叉问题)。从某种意义上说,软WDBR倾向于状态平衡的代理类。这种特性可以进一步改善无监督学习,特别是如果对于大多数身份而言,未标记的训练集确实处于状态平衡的情况下。但是,如果我们没有状态平衡的先验知识,则使用硬修正函数可能会更理想,因为硬修正函数不倾向于状态平衡的代理类。

3.2弱监督特征漂移正则化

视觉上占优势的状态可能会导致明显的特征失真,从而使示例偏离正确的替代类别。仅考虑局部邻域中的一些替代类别,就很难解决这个问题。但是,这种明显的特征失真很可能会遵循特定的模式。例如,极低的照明可能会抑制各种视觉特征:暗淡的颜色,难以区分的纹理等。总的来说,我们可以在全局范围内捕获明显的特征失真模式。换句话说,这种特定于状态的特征失真将导致状态子集中的许多实例x向特定方向漂移。我们通过状态子分布来捕获这一点,并引入弱监督特征漂移正则化(WFDR)来解决该问题并补充WDBR。
特别地,我们将状态子分布定义为。例如,所有未标记的人图像都是从黑暗的相机视图中捕获的。我们进一步将整个未标记训练集的分布记为,其中。显然,状态特定的特征失真将导致特定的子分布漂移,即P(Qj)偏离P(X)。例如,来自暗摄像机视图的所有人的图像在许多特征维度上可能都是极低值的,这形成了特定的分布特征。我们的想法很简单:我们通过将状态子分布P(Qj)与总体总分布P(X)对齐来抵消这种“集体漂移力”,以抑制明显的特征失真。我们将此想法表述为弱监督特征漂移正则化(WFDR):
在这里插入图片描述
在这里插入图片描述
simplified 2-Wasserstein distance
理想情况下,WFDR可以将WDBR解决的显著特征失真降低到适度的水平(即x被正则化为正确的决策区域)或中等的水平(即x被正规化为正确的替代类别的邻域)。因此,它与WDBR相互补充。我们注意到WFDR在数学上类似于软多标签学习损失,但是它们用于不同的目的。软多标签学习损失是使未标记目标图像和已标记源图像之间的交叉视图关联对齐,而我们的目标是使未标记图像的特征分布对齐,并且不需要源数据集。在这里插入图片描述
为超参数。

4.实验

4.1数据库

在这里插入图片描述
在旨在跨非重叠摄像机视图匹配行人的RE-ID中,状态信息是摄像机视图标签。每个摄像机视图都有其特定条件,包括照明,视点和遮挡。在旨在识别不同姿势中的面孔的PIFR中,状态信息是姿势。在这两个任务上,训练身份都与测试身份完全不同。因此,这些任务适合评估学习特征的可分辨性和通用性。

应当指出,在诸如RE-ID和PIFR的细粒度判别任务中,预训练对于无监督模型非常重要,因为基于类别的视觉线索并不通用,而是高度依赖任务,因此,一定程度的领域特定知识对于成功的无监督学习是必要的。我们将图像的大小调整为384×128。在无人监督的情况下,训练类别(行人)P(即Market-1501 / DukeMTMC-reID的750/700)的准确数量应该是未知的。由于我们的方法能够自动丢弃过多的替代类,因此“上限”估计可能是合理的。我们为两个数据集设置K = 2000。

4.2模型评估和分析

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
对于所有数据集,我们设置λ = 10且b = 0.95(Multi-PIE除外),后者具有更多连续的姿势,因此我们减小到λ = 1,b = 0.5。我们评估了软版本a = 5和硬版本a = 1。

4.3与state-of-art的比较

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.4可视化

在训练过程中看不到所显示的身份,因此定性结果中反映的特征是可以概括的。
在这里插入图片描述

解决相同身份视觉特征差异

让我们比较图5(a)和图5(b)的图解。图5(a)说明同一个人(见突出显示的褐色点)在两个具有不同视点和背景的相机视图中出现的方式不同。这种视觉差异导致身份的重大特征失真。显然,如果除了特征相似性以外没有提供其他有效的机制,解决这个问题将非常困难。从图5(b)中,我们观察到当配备WDBR和WFDR时,特征失真得到了明显缓解。这种观察表明,我们的模型利用状态信息来有效缓解相同身份视觉差异,从而更好地进行特征识别学习。

解决身份间的视觉特征纠缠

在图5(c)所示的更复杂的情况下,我们观察到在基本模型学习的特征空间中,一些视觉上相似的面部图像(戴眼镜的男性)相互纠缠。特别是一些深红色,红色和深绿色的点彼此高度重叠。这表明,如果我们仅使用特征相似性,也很难解决身份之间的视觉特征纠缠。然而,如图5(d)所示,我们的完整模型可以使用WDBR和WFDR解决此问题。学习的特征空间是非常可取的,并且身份之间的重叠点现在彼此远离。换句话说,我们的模型可以利用状态信息通过减轻身份之间的视觉特征纠缠来帮助无监督学习。

4.5多种类型的状态信息

我们的方法很容易扩展以合并多种状态信息。我们在状态信息为表情,照明和姿势的Multi-PIE上进行了实验。我们使用了所有6种表情,20种照明和9种姿势。我们用p(k)= pp(k)·pi(k)·pe(k)修正函数,其中下标p / i / e分别代表姿势/照明/表情。因此,我们在损失函数中也使用了三个均等加权的特征漂移正则项。我们使用硬WDBR来具有规则形状的修正函数。我们在表7中显示了结果。利用姿势标签产生的效果比照明和表情要好得多,这表明姿势在Multi-PIE上最具干扰性。利用所有三种状态信息,性能进一步提高到95.9%,接近监督结果96.6%。这种比较表明,当可以获得更多有价值的状态信息时,我们的模型可以得到进一步改进。
在这里插入图片描述

5.总结与讨论

在这项工作中,我们提出了一种具有状态信息的新型伪标签方法。我们发现,一些适当的状态信息可以帮助解决由这些分散状态引起的视觉差异。具体而言,我们调查了行人重识别和面部识别中的状态信息,并发现相机视图标签和姿势标签有效。我们的结果表明,在无人监督的行人重识别和面部识别中利用自由状态信息是合理的。由于弱监督特征漂移正则化(WFDR)是一个简单的无模型损失项,因此可以将其插入不同于我们提出的伪标记方法的其他方法中。
但是,我们应该指出,我们带有状态信息的方法适用于视觉分散状态。至于更一般的状态信息,有效地利用它仍然是一个悬而未决的问题。

猜你喜欢

转载自blog.csdn.net/weixin_43359312/article/details/107841739