【论文阅读】Semi-Supervised Group Emotion Recognition Based on Contrastive Learning

【论文阅读】Semi-Supervised Group Emotion Recognition Based on Contrastive Learning

摘要

本篇博客参考MDPI electronics 2022年收录的Semi-Supervised Group Emotion Recognition Based on Contrastive Learning,对其主要内容进行总结,以便加深理解和记忆。

1.介绍

1)GER

除了群体图像中的人脸遮挡和低分辨率等问题外,GER的表现还受到个体与群体之间以及环境与群体之间存在的相互作用的影响。这些原因使得GER与个体情绪识别相比更具挑战性。社会心理学的研究工作表明,群体情绪包含**“自下而上”“自上而下”两种成分,其中自下而上的成分是指个体情绪的结合**,如人的表情和行为,自上而下的成分是指群体或场景层面对个体的影响[1]。如何提取和融合这些成分的特征,提高识别精度是GER研究的主要问题。

近年来,GER开始在许多重要的应用场景中得到应用,包括图像检索[2]、人的抑郁检测[3]、图像记忆预测[4,5]、公共安全[6]、人机交互[7]等。

2)半监督

手工标注情感标签是一项劳动密集型且成本高昂的过程。通常,标注过程通常需要每组图像由三到五名注释者进行评估,并且标签在发布之前还需要另一轮校对。

半监督学习已被证明是一种很有前途的方法,可以利用大量未标记数据来提高基于学习的网络的性能[8-11]。然而,学习特征的质量或可靠性可能会受到半监督学习策略效率的影响。设计一种有效的半监督学习策略并提高学习特征的可靠性仍然是一项具有挑战性的任务。

2.相关工作

1)群体情绪识别

许多GER研究关注面部特征和场景特征,因为它们是影响群体情绪的最重要因素。一些GER研究还介绍了其他因素的影响,如物体[12]和人体骨骼[13]。

  • Dhall等人提出了一个GER框架,从面部动作单元中提取面部特征,并使用GIST和CENTRIST描述符来表征来自场景的情绪线索。
  • Tan等[15]分别从对齐的人脸未对齐的人脸整幅图像中构建了三个CNN模型来学习情绪特征,由于群体情绪被视为个体情绪的叠加,因此使用平均融合策略将这三个模型的输出组合起来。
  • surface等人提出了一种由神经网络和贝叶斯分类器组成的GER方法,其中神经网络基于自下而上的方法对个体情绪进行分析贝叶斯分类器基于自上而下的方法对场景表情进行估计

在众多提高模型性能的融合方法中,注意机制是最受欢迎的融合技术之一。

  • Fujii等人[17]使用视觉注意机制将注意力集中在组内的主要面部特征上,而抑制其他被试的面部特征
  • Khan等人提出了一种区域关注机制,以关注更重要的人

为了提高特征融合的效率还提出了一些新的方法。

  • 长短期记忆(LSTM)被用来聚合场景和人脸的特征[18-20]
  • 图神经网络还被用于融合不同的情绪线索,并挖掘情绪线索之间的潜在关系和相互作用[21]

2)对比学习

对比学习是一种很有前景的深度模型预训练方法。它有助于骨干网络从未标记的样本中学习有效的表示,并为下游任务提供服务

  • Chen等人[22]提出了一种对比学习框架来捕捉配对输入图像的相似特征,并为图像分类任务的预训练网络提供了便利。
  • He等人[23]提出了一种动量对比方法,以最小化从同一图像的不同增强视图中学习的特征之间的距离,并最大化从不同图像的相同增强视图学习的特征间的距离
  • 得益于梯度停止,还提出了一种名为SimSiam[24]的简单对比方法,与现有方法相比,该方法可以显著减少批量大小和训练轮数。SimSiam方法也显示了在没有语义信息的情况下学习视觉表示的效果。
  • 对比学习也被用于人脸识别[25]和人脸生成[26]任务,并取得了令人印象深刻的性能。

3)半监督学习

GER最广泛使用的数据集的大小仍然有限,远小于一些经典的图像分类数据集的大小

半监督学习技术是一种利用未标记样本信息和提高基于学习的识别模型性能的方法。半监督学习使用大量未标记数据,借助有限数量的标记数据来提高基于学习的网络的性能。在半监督学习中,用伪标签标记未标记的数据进行训练是最流行的策略之一。这些基于伪标签的方法首先使用有限的标记数据来训练标注器,该标注器为未标记的数据提供伪标签[32]。然后,将具有真实标签和伪标签的数据一起用于更新所提出的网络的参数。基于伪标签的方法已被广泛应用于学习过程中,以提高识别网络的性能。

  • Xie等人[8]提出了一种迭代方法来为未标记的数据生成伪标签,并使用它们来提高ImageNet模型的准确性和鲁棒性。
  • Sohn等人[9]提出了一种集成分类器,用伪标签给出未标记的图像,并用它们来提高模型在图像分类任务上的性能。
  • Hao等人[33]通过基于图的标签传播推断出未标记数据的伪标签,并提高了图像变化检测的能力。

除了分类,半监督学习还用于许多其他应用,例如,目标检测[10,11]、运动分析[34]和多视图模型[35]。通过在没有标签的样本上标记伪标签,上述所有方法[8-11,32-35]都利用未标记的数据来帮助更新基于学习的网络,提高识别性能。然而,标记的伪标签的可靠性或不确定性可能影响基于学习的网络的效率。如何补偿伪标签的不确定性仍然是半监督学习方法的一个悬而未决的问题。

3.方法

SSGER的框架由两个网络组成:SFNet、FusionNet。

  • 向SFNet提供两个输入,即从群组图像中裁剪的人脸图像从群组图像获得的场景图像。SFNet从人脸和场景图像中提取初步的情绪信息。
  • 使用FusionNet融合从人脸和场景图像中提取的情感特征,生成更全面的群体情感特征

1)SFNet

使用ResNet-50网络作为SFNet的骨干,从人脸图像和场景图像中捕捉特征,作为群体的语义情感特征[36,37]。从组图中分割出所有人脸区域,并将其命名为人脸图像,从Group Image随机裁剪出一个区域,将其表示为场景图像每个人脸图像和场景图像形成图像对。然后我们将图像对输入到SFNet中。特征提取的操作可以由等式(1)和(2)来表示:
x i s = φ ( I i s ) x i j f = φ ( I i j f ) x_i^s = φ(I_i^s) \\ x_{ij}^f = φ(I_{ij}^f) xis=φ(Iis)xijf=φ(Iijf)
其中φ是SFNet的过程, I i s I_i^s Iis是第i个图像的场景图像, I i j f I_{ij}^f Iijf是第i个图像的场景对应的第j个人脸

2)FusionNet

FusionNet来融合从人脸图像和场景图像中提取的情感特征,由注意力机制模块预测融合模块组成。FusionNet将场景和面部特征作为输入。

FusionNet的结构和训练流程:a为SFNet和FusionNet的训练流程;b为FusionNet中的注意力机制模块

  • 在注意力机制模块中,将场景特征与每个人脸特征分别连接起来,将连接的特征输入到一个全连接的层中,并使用Sigmoid函数来学习注意力权重

σ i j = S i g m o i d ( W f x i j c + b f )          σ i j 为对第 i 个图像中第 j 个面部特征的关注权重 σ_{ij} = Sigmoid(W_fx_{ij}^c+b_f) \;\;\;\;σ_{ij}为对第i个图像中第j个面部特征的关注权重 σij=Sigmoid(Wfxijc+bf)σij为对第i个图像中第j个面部特征的关注权重

  • 聚合面部特征:

x i f = ∑ j = 1 N σ i j x i j f ∑ j = 1 N σ i j            x i f 表示第 i 个图像面部特征聚合后的面部特征 x_i^f = \frac {\sum^N_{j=1} σ_{ij} x_{ij}^f} {\sum^N_{j=1} σ_{ij} } \;\;\;\;\;x_i^f表示第i个图像面部特征聚合后的面部特征 xif=j=1Nσijj=1Nσijxijfxif表示第i个图像面部特征聚合后的面部特征

  • 将聚合的面部特征和场景特征输入到全连接层中,并分别从面部情绪信息和场景情绪信息中获得群体情绪的预测 y i f y^f_i yif y i s y^s_i yis。通过FusionNet融合预测模块对人脸和场景信息进行融合:

y i ′ = σ i f y i f + σ i s y i s y'_i =σ_{i}^fy_i^f + σ_{i}^sy_i^s yi=σifyif+σisyis

σ i f σ_{i}^f σif σ i s σ_{i}^s σis分别是人脸特征和场景特征的融合权重,融合权重需要满足 σ i f ≥ 0 、 σ i s ≥ 0 、 σ i f + σ i s ≤ 1 σ_{i}^f ≥ 0 、σ_{i}^s ≥ 0、σ_{i}^f + σ_{i}^s≤1 σif0σis0σif+σis1的约束。融合权重是基于学习的方式生成的,学习方式如下:
[ σ i f , σ i s ] = S o f t m a x ( W g x i g + b g ) [σ_{i}^f,σ_{i}^s] = Softmax(W_gx_i^g + b_g) [σif,σis]=Softmax(Wgxig+bg)

3)训练过程(具体过程与公式见原文)

  • 使用对比学习方法对SFNet进行预训练,从未标记数据的场景和人脸图像中提取语义情感信息
  • 使用有限的标记图像来训练SFNet和FusionNet
  • 冻结SFNet和FusionNet的参数,并使用它们为未标记的图像提供伪标签
  • 使用具有伪标签的图像和具有真实标签的图像来进一步训练SFNet和FusionNet

为了抑制来自具有不可靠伪标签的样本的影响,作者在第4阶段提出了用于反向传播过程的加权交叉熵损失LWCE

4.实验

1)数据集:GAF2、GAF3、GroupEmoW

2)数据预处理

为了评估所提出的方法在半监督场景中的有效性,作者随机选择具有给定标记率(标记样本数量与训练样本总数的比率)的标记样本,并将训练集中的其余样本视为未标记数据。

将从图像中提取的最大人脸数量设置为16。将裁剪后的人脸大小调整为224×224像素。对调整大小的人脸执行数据增强操作,包括随机水平翻转和高斯模糊。

整个图像也被视为场景输入,被裁剪并调整大小为224×224像素。在整个图像上进行了与在人脸图像上进行的数据增强相同的数据增强。

3)在GroupEmoW上的性能度量

4)消融实验

用于SFNet预训练的对比学习、用伪标签标记未标记样本的过程、引入WCE损失来补偿伪标签的不确定性

猜你喜欢

转载自blog.csdn.net/qq_44930244/article/details/130304755