【论文阅读】ConGNN:Context-consistent cross-graph neural network for group emotion recognition in the wild

【论文阅读】ConGNN: Context-consistent cross-graph neural network for group emotion recognition in the wild

1.摘要

本篇博客对Information Sciences 2022年收录的论文ConGNN: Context-consistent cross-graph neural network for group emotion recognition in the wild进行总结,以便加深理解和记忆。

2.群体情感识别

1)介绍

群体情感识别(GER)是户外情感识别挑战赛中的一个子挑战,是情感计算计算机视觉领域近年来备受关注的研究方向。有效且健壮的GER在理解人类情感和分析人类意图方面具有重要作用。

2)应用

GER可用于多种应用领域,如人机交互、行为与事件预测、智慧城市建设等。

3)与个人情感识别的区别(挑战)

GER不是识别单个人脸的表情,而是关注一群人在复杂场景中的情绪状态,旨在将一群人的整体情绪分类积极、中性和消极三类。这不仅需要对个人的面部表情有透彻的理解,还需要对图像内容和场景的上下文信息有透彻的理解

下图显示了传统面部表情识别(FER)与野外GER的差异和挑战。与传统的FER任务相比,户外的GER面临着额外的挑战,如未定义的多重情绪线索复杂的面部表情人群关系以及不同情绪线索之间的情绪偏见

4)相关工作(现有解决方案)

①基于面部表情的方法

基于面部表情的方法仅通过图像中个体的面部表情来识别群体层面的情绪,而不考虑背景

  • 由于在人群中进行多人表情识别具有相当大的挑战,早期的GER方法只分析积极情绪,即快乐的强度。Hernández et al[20]计算并平均每个人在人群中的微笑强度,以获得群体层面的幸福感。
  • 考虑到人类行为的影响,Dhall等[21]基于群体结构和局部属性(如遮挡)估计了幸福强度,并在HAPPEI数据集上实现了0.379的平均绝对误差(MAE)。
  • Vonikakis et al[15]使用几何面部特征,100个个体表情的分布,以及每张脸在人群中的重要性来进行群体水平的情绪预测。

然而,上述研究仅考虑了GER的人脸相关信息,忽略了丰富的场景信息,不足以有效地分析和识别群体情绪。

②基于多线索的方法

近年来,由于深度学习和群体情绪数据集的发展,许多研究开始将面部表情信息与场景上下文信息相结合,用于GER。

  • 在[22]中,通过面部表情和整体图像语义特征来估计群体情绪。
  • Ghosh等[23]利用面部表情信息、场景信息和高级面部视觉属性进行GER。
  • 最近,Guo等[24]利用人脸和全场景特征加上深度CNN进行群体级情绪预测。
  • Huang等[25]提11出了一种信息聚合方法,用于生成户外GER的面部、上身和场景特征描述。
  • Guo等[4]提出了一种基于GNN的模型,用于提取和融合多种情感信息,包括场景、面部和物体特征。

然而,尽管多线索策略取得了积极的效果,但对户外多线索提取与融合以及多线索间的情感偏向的研究仍在进行中。

③关系学习

关系学习框架在计算机视觉和图像识别中得到了广泛的应用,如图片重排序[26]和情感分类[27,28],它可以有效地表示对象和模型之间的关系[29,30]。

目前常用的关系学习模型可分为两类,即基于注意的方法基于图的方法[31]。

  • Wang等[32]提出了一种级联注意网络,利用图像中每个人脸的重要性来生成GER的全局表示。由于图可以对节点之间的关系进行建模,基于GNN的关系学习受到越来越多的关注[33,34]。
  • 近年来,越来越多的基于GNN的方法被用于提高GER的性能。
  • Guo等[4]使用GNN来理解基于多个线索的图像情感。由于对面部、物体和场景的情绪之间的关系进行了建模,该GNN获得了良好的GER性能。

虽然上述方法可以帮助建模和学习多个特征之间的关系,但它们主要集中在分支内的特征关系上。如何充分了解分支间和分支内的关系,仍然是一个有待研究的问题。

5)数据集

为了发展GER技术,近年来提出并构建了许多户外群体情绪数据集,如HAPPEI[13]GAF[18]GAF 2.0[7]GAF 3.0[2]、**GroupEmoW[4]**等。

这些数据集来自谷歌,百度,Bing, Flickr网站,通过一些情感关键词进行抓取。由于标注和获取困难,这些数据集大多没有考虑地理位置和场景差异。这可能会极大地限制GER技术的实际应用。因此,创建一个新的具有地理差异和户外信息的GER数据集,并开发一个更健壮和更有利的基准,对于GER任务是非常必要的。

3.ConGNN

1)利用MFE从不同的信息分支中提取多线索情感特征

为了从人群场景中获取多线索情感信息,我们引入了三个并行特征提取分支,分别提取多人脸、局部物体(包括场景中的身体和物品)和全局场景特征。采用三个预先训练好的DNNs Resnet50[36]、LSTM[37]和SE-Resnet50[38]作为面部特征、物体特征和场景特征提取器。

  • 面部特征提取

在面部特征提取分支中,首先使用标准面部检测器RetinaFace[39]检测和裁剪面部区域,以构建面部流输入。然后,我们通过预训练的Resnet50[36]运行这些面部区域,并在相应的GroupEmoW和SiteGroEmo数据集中对其进行微调,以提取大小为112 × 112. 并进一步利用两层LSTM网络学习人脸之间的依赖关系。形式上,假设图像为p,检测到的面部区域数为 N 1 N_1 N1,我们可以得到提取的面部表情特征 X 1 ∈ R L 1 × N 1 X_1 ∈ R^{L_1× N_1} X1RL1×N1,可以由: X 1 = [ x 11 , x 12 , . . . , x 1 N 1 ] X_1 = [x_{11},x_{12},...,x_{1N_1}] X1=[x11,x12,...,x1N1]表示,其中 L 1 L_1 L1是每个面部表情特征的维数。

  • 物品特征提取

对于局部物体提取,首先使用自下而上的注意力模型,即Resnet50-FPN检测器[40]提取每张图像,以获得与群体情绪最相关的显著物体(如人体、鲜花和杯子)。然后,使用SE-ResNet50提取局部对象特征,SE-ResNet50在ImageNet-1 K数据库上进行预训练,并在相应的GroupEmoW和SiteGroEmo数据集上进行微调。形式上,给定一张图像p作为输入,检测到的物体数量为 N 2 N_2 N2,物体情感特征为 X 2 ∈ R L 2 × N 2 X_2 ∈ R^{L_2 × N_2} X2RL2×N2可以写成: X 2 = [ x 21 , x 22 , . . . , x 2 N 2 ] X_2 = [x_{21},x_{22},...,x_{2N_2}] X2=[x21,x22,...,x2N2],其中 L 2 L_2 L2是每个物品特征的维数。

  • 场景特征提取

在全局场景提取分支中,我们使用预先训练好的SE-ResNet50[38]来提取整个场景语义特征。预训练的模型还在相应的GroupEmoW和SiteGroEmo数据集上进行了微调。我们可以得到提取的全局场景特征 X 3 ∈ R L 3 × 1 X_3 ∈ R^{L_3 × 1} X3RL3×1,其中 L 3 L_3 L3为场景语义特征的维度。

多线索特征提取后,多线索情感表征 X = { X 1 , X 2 , X 3 } X = \{X_1,X_2,X_3\} X={ X1,X2,X3}可以传递给下面的C-GNN进行分支内和分支间的情感关系建模。

2)C-GNN用于情感关系学习

在多线索情感表示X的基础上,提出C-GNN进行情感关系学习,实现健壮的综合情感表示。C-GNN由跨分支图构建群体关系学习两个阶段组成。

  • 交叉分支图的构造

利用多线索情感特征X,我们初步构建了用于情感关系学习的三个完整的交叉分支图,即人脸图(用于学习人脸之间的关系)、对象-上下文图(用于建立局部对象与全局场景之间的关系)和场景-上下文图(学习场景中所有线索之间的关系和相互作用,包括人脸、物体和场景)。

跨分支图构造包括三个步骤,即节点张量定义消息聚合初始化图构造

Ⅰ.节点张量定义:给定每个特征向量 x i j ∈ X x_{ij} ∈ X xijX作为输入,我们首先使用一个ReLU函数将输入归一化并投影到一个初始化的节点向量 h i j 0 h^0_{ij} hij0中,然后将第 i i i个分支的所有节点向量串联起来,形成一个节点张量 H i 0 H^0_i Hi0。它们可以写成,
h i j 0 = R e L U ( W i x i j + b i ) H i 0 = [ h i 1 0 , h i 2 0 , . . . , h i N 1 0 ] ∈ R L h × N i , i = 1 , 2 , 3 , h^0_{ij} = ReLU(W_ix_{ij} + b_i) \\ H^0_{i} = [h^0_{i1},h^0_{i2},...,h^0_{iN_1}] ∈ R^{L_h×N_i},i = 1,2,3, hij0=ReLU(Wixij+bi)Hi0=[hi10,hi20,...,hiN10]RLh×Ni,i=1,2,3,
值得注意的是,Wi和bi在同一提示类型的节点之间共享

Ⅱ.消息聚合初始化

对于节点张量,将任意节点a、b之间的消息传递(单向边)表示为: r ( a , b ) = { r a ⬅ b 0 , r a ➡ b 0 } r(a,b) = \{r^0_{a⬅b},r^0_{a➡b}\} r(a,b)={ rab0,rab0},其中a,b ∈ {j},且a ≠ b,可计算为:
r a ⬅ b 0 = W b h i b 0 , r b ⬅ a 0 = W a h i a 0 r^0 _{a ⬅ b} = W_b h^0_{ib}, \\ r^0_{b⬅a} = W_ah^0_{ia} rab0=Wbhib0,rba0=Wahia0
然后,将所有邻近节点传递到某个节点的消息聚合为 m i j 0 m^0_{ij} mij0,从而形成初始化的消息聚合张量 M i 0 = { m i j 0 } , m i j 0 = ∑ l r j ⬅ l 0 M^0_i = \{m^0_{ij}\},m^0_{ij}=\sum_l r^0_{j⬅l} Mi0={ mij0}mij0=lrjl0,其中l代表图中节点j的所有邻居节点

Ⅲ.交叉分支图的构造

基于节点张量和消息聚合以交叉的方式构建人脸图、对象-上下文图、场景-上下文图:

人脸图:使用人脸节点张量 H 1 0 H^0_1 H10和信息聚合张量 M 1 0 M^0_1 M10来构造具有 N 1 N_1 N1个节点的人脸图 G ( H f 0 , M f 0 ) ,其中 H f 0 = H 1 0 , M f 0 = M 1 0 G(H^0_f,M^0_f),其中H^0_f=H^0_1,M^0_f=M^0_1 G(Hf0,Mf0),其中Hf0=H10,Mf0=M10

对象-上下文图:考虑到全局场景和局部对象特征的整合有助于抑制不同情绪线索之间的情绪偏向,将局部对象的节点张量 H 2 0 H^0_2 H20与全局场景的节点张量 H 3 0 H^0_3 H30相结合,构建丰富的对象-上下文节点张量 H c 0 = { H 2 0 , H 3 0 } H^0_c = \{H^0_2,H^0_3\} Hc0={ H20,H30}。通过消息聚合,将对象节点张量和全局场景的节点张量聚合为 M c 0 M^0_c Mc0,由此构造具有 N 2 + N 3 N_2+N_3 N2+N3个节点的对象-上下文图 G ( H c 0 , M c 0 ) G(H^0_c,M^0_c) G(Hc0,Mc0)

场景-上下文图:将三个分支的节点张量结合为 H w 0 = { H 1 0 , H 2 0 , H 3 0 } H^0_w = \{H^0_1,H^0_2,H^0_3\} Hw0={ H10,H20,H30},通过消息聚合得到 M w 0 M^0_w Mw0,由此构建 N 1 + N 2 + N 3 N_1+N_2+N_3 N1+N2+N3个节点的场景-上下文图 G ( H w 0 , M w 0 ) G(H^0_w,M^0_w) G(Hw0,Mw0)

  • 群体关系学习

视觉关系已被证明是许多计算机视觉任务的关键[41]。为了获得多变复杂场景中的群体情感关系,必须通过对图像中不同情感线索之间关系的解读和建模,实现大场景中更全面的情感表征。在这一目标的激励下,我们通过C-GNN捕获并模拟一个群体中不同情绪线索的内部和相互关系。

①首先,使用k层GRU对图节点之间的关系进行建模,更新跨分支情感图的每个图中的每个节点特征,直到学习收敛。在GRU中进行K次迭代后(根据经验,将GRU的迭代层数设置为K = 4),我们得到更新后的图节点特征 H f K , H c K , H w K H^K_f, H^K_c, H^K_w HfK,HcK,HwK

②然后,用3个并行的MLP从更新后的图节点特征中学习综合的情绪特征 O = { O f , O c , O w } O=\{O_f,O_c,O_w\} O={ Of,Oc,Ow}

首选,通过拼接操作将人脸图和对象-上下文图的节点特征整合到整个场景-上下文图中,即 H w k = C o n c a t e n a t e ( H f k , H c k ) H^k_w = Concatenate(H^k_f,H^k_c) Hwk=Concatenate(Hfk,Hck)

然后,采用 M L P f MLP_f MLPf M L P c MLP_c MLPc M L P w MLP_w MLPw三种多层感知作为跨分支情绪编码器。

我们将提取的面部分支、上下文分支和融合的跨分支情感表征分别表示为 O f = M L P f ( H f K ) O_f=MLP_f(H_f^K) Of=MLPf(HfK) O c = M L P c ( H c K ) O_c=MLP_c(H_c^K) Oc=MLPc(HcK) O w = M L P w ( H w K ) O_w=MLP_w(H_w^K) Ow=MLPw(HwK)

③此外,我们引入了带BPF(反向传播)的ECL(Emotion Collection Learning)来进一步跨分支交互这些图,帮助C-GNN减轻情绪偏差并实现情绪一致学习。

利用多线索特征X和C-GNN,我们可以估计户外群体的情绪。然而,我们观察到C-GNN可以专注于对分支之间的关系进行建模,获得全面的情绪表征,但忽略了不同分支之间的情绪偏向,例如,同一图像中的面部表情和场景上下文情绪可能具有相反的情绪极性。这种忽视很容易导致GER中情绪分类的错误。

为此,我们提出了一种新的ECL机制及其相应的情感BPF,进一步交互这些分支,帮助网络实现一致学习,从而缓解情感偏差对GER的影响。带有情绪BPF的ECL包含三种图损失:

  • 人脸图损失: L f = − 1 N f ∑ i = 1 N f ∑ c = 1 c 1 [ c = y i ] l o g P f i , c L_f = - \frac {1} {N_f} \sum^{N_f}_{i=1} \sum^c_{c=1} 1[c=y_i]logP_{f_i,c} Lf=Nf1i=1Nfc=1c1[c=yi]logPfi,c
  • 对象-上下文图损失: L c = − 1 N c ∑ i = 1 N c ∑ c = 1 c 1 [ c = y i ] l o g P c i , c L_c= - \frac {1} {N_c} \sum^{N_c}_{i=1} \sum^c_{c=1} 1[c=y_i]logP_{c_i,c} Lc=Nc1i=1Ncc=1c1[c=yi]logPci,c
  • 整个场景-上下文图损失: L w = − 1 N w ∑ i = 1 N w ∑ c = 1 c 1 [ c = y i ] l o g P w i , c L_w = - \frac {1} {N_w} \sum^{N_w}_{i=1} \sum^c_{c=1} 1[c=y_i]logP_{w_i,c} Lw=Nw1i=1Nwc=1c1[c=yi]logPwi,c

其中,C为类别数量(情绪类别、物品类别…),N为检测到的实例数量(人脸、物品…), 1 [ c = y i ] 1[c=y_i] 1[c=yi]是二元指标,P为人脸、物品、场景与群体情绪有关的概率。

为了优化上述三种损失在学习过程中的一致方向,ECL引入了一种情感BPF,约束相反方向的图损失学习,以实现上下文一致学习:
B P F = ( 1 + λ ∗ f ( y i f , y i c ) ) ∗ ( L f + L c + L w ) f ( y i f , y i c ) = { 0      i f      y i f = y i c 1      i f      y i f ≠ y i c BPF = (1 + λ * f(y^f_i,y^c_i))*(L_f + L_c + L_w) \\ f(y^f_i,y^c_i) = \left\{\begin{aligned}0 \;\; if\;\; y^f_i=y^c_i \\ 1 \;\; if\;\; y^f_i≠y^c_i \end{aligned}\right. BPF=(1+λf(yif,yic))(Lf+Lc+Lw)f(yif,yic)={ 0ifyif=yic1ifyif=yic
其中λ为惩罚系数,用于控制学习过程中的惩罚程度。f是惩罚指示函数,指示是否应该增加惩罚。 y i f , y i c y^f_i,y^c_i yifyic是人脸图和上下文图的预测结果(积极、中性、消极)。BPF是一种自适应的一致性学习目标,可以有效地约束和引导人脸、对象-上下文和整个场景-上下文图损失。综上所述,用ECL训练C-GNN识别群体情绪可以帮助确保来自每个图分支的信息得到适当的关注和充分的学习,从而产生一致且健壮的GER。

④预测

在预测方面,我们只使用整个融合的跨分支情绪特征 O w O_w Ow来预测群体情绪。交叉融合融合了所有的情绪线索,可以作为一个群体的综合情绪表征进行预测。我们使用Softmax运算来预测情感类概率:
P c = e W c ⋅ O w + b c ∑ c = 1 c e W c ⋅ O w + b c P_c = \frac {e^{W_c·O_w + b_c}} {\sum^c_{c=1} e^{W_c·O_w+b_c}} Pc=c=1ceWcOw+bceWcOw+bc
其中 P c P_c Pc是情绪类别c的预测概率,c是情绪类别的数量。 W c W_c Wc是网络权重矩阵W的第c行, b c b_c bc是偏置向量b的第c个元素。

4.实验数据集

为了全面评估所提出的ConGNN方法,在两个具有挑战性的群体情绪数据集GroupEmoW[4]和SiteGroEmo上进行了大量实验。SiteGroEmo是本文作者收集和标记的一个新的、更真实的基准。

1)SiteGroEmo:新的GER数据集

新成立的SiteGroEmo是一个群体层面的情感数据集,包含从世界各地不同的旅游景点收集的10034张户外图像。该数据集包含丰富的地理信息和变化,可用于多个下游任务和现实应用,如GER、地点情感提取和旅行推荐。数据集中的每张图像都被标记为消极、中性和积极情绪类别之一。消极、中性和积极情绪类别的数量分别为1019种、4355种和4660种。

  • 数据收集

为了建立野外群体层面的情感数据集,我们从社交网站,即Flickr和微博平台上收集了大量用户生成的图像。这些描绘了各种人类情感的图片来自中国、日本、韩国、泰国、美国等地的旅游目的地。我们还开发了一个爬虫程序,用于从互联网上收集这些高清图像,作为野外面部表情的样本来源。在抓取数据后,我们手动删除了少于两人的图像,保留了全球数百个景点的群体情感图像。最后,我们从数百个旅游网站收集了大约1.5万张图片,包括来自不同地点、社会环境和事件的图片。

  • 数据标注

在SiteGroEmo数据集中,每张照片都由五个注释器标记为负、中性或正价态。我们开发了一款名为表达式标签工具(ExpreLabelTool)的软件来帮助标注人员高效地标注。为了保证标注的专业性,我们选择了5名经过情感知识培训的标注员,对收集到的图像进行标注。如果有三个以上的注释器对一个图像给出相同的情感注释,则具有该情感注释的图像将被保留。否则,图像将被消除。最后,数据集包含10034张图像。为了进行评估,SiteGroEmo数据集分为训练集、验证集和测试集,分别有6,096、1,972和1966张图像。图7(a)显示了SiteGroEmo数据集中不同旅游网站的一些例子。

2)GroupEmoW数据库

GroupEmoW[4]是一个公共的GER数据集,包含15,894张图像。它分为训练集、验证集和测试集,每个集分别有11127、3178和1589张图像。这些照片是从谷歌、百度、Bing和Flickr网站上通过搜索与葬礼、生日、抗议、会议、婚礼等社会事件相关的关键词收集的。图像的集体情绪也被标记为消极、中性或积极的价态。

5.实验和结果分析

猜你喜欢

转载自blog.csdn.net/qq_44930244/article/details/130056680