【论文阅读】Dual-branch Cross-Patch Attention Learning for Group Affect Recognition

【论文阅读】Dual-branch Cross-Patch Attention Learning for Group Affect Recognition

摘要

本篇博客参考IEEE 2022年收录的论文Dual-branch Cross-Patch Attention Learning for Group Affect Recognition,对其主要内容进行总结。

1.介绍

1)群体情绪识别

群体情感(Group affect)是指群体中外部刺激所引起的主观情绪,是影响群体行为和结果的重要因素

识别群体情绪包括在人群中识别能引起情绪的重要个体显著物体

人类是活跃的社会性生物,使用多模式交互来传达他们的意图、态度和感受。群体内个体之间的这种身体和情感互动可以产生群体层面的影响或群体层面的情感[2],[3]。因此,群体情感受到群体情感情境(如葬礼、聚会中的突出对象)和情感构成(即群体成员的状态和特质情感的结合)的综合影响[4]。

通过提供群体层面的信息,群体影响预测在现实世界中有多种应用,如工作团队结果预测[5]、社会关系识别[6]、人机交互系统[7]。因此,围绕群体情感的研究课题多种多样,包括类别分析,如群体情绪(积极、消极、中性)预测,持续强度估计,如群体凝聚力预测。

2)现有工作与问题

最近组织了一些关于群体层面影响识别解决方案[8],[9]的学术比赛,但仍有两个挑战尚未解决:

首先,大多数方法都是利用来自独立预训练检测器[10],[11],[12],[13]的多线索,例如个体的面部表情,物体和场景特征(如图1中a所示)。然而,这种情感区域的启发式选择忽略了群体语境中语义的重要性,将模型限制在预训练对象类中,容易受到预训练检测器中不完美的人脸和物体的影响

此外,群体级别图像中的人脸和物体通常与上下文相关。关于人脸和物体的交互作用有多重要,仍然是一个悬而未决的问题

3)作者的解决方案

为了解决以上两个问题,我们引入了一个重要的心理学概念,即最重要的人(MIP)[4]。一个形象的MIP往往是能够影响一个群体情绪的群体领导者[14],[15]。

例如,在下图的a中,即使在右侧的大群体中,MIP的表达也是清晰且符合群体情绪的。但是,仅考虑MIP进行群体情感识别是不够的,因为它可能存在面部遮挡,难以检测他们的情绪(如下图b左侧所示,MIP被遮挡)。在某些情况下,MIP的表达可能并不总是与群体情绪相对应(如图2b右侧所示,MIP检测到的情绪(积极)与群体情绪(消极)不一致)。

2.相关工作

1)群体情绪识别方法

目前的群体影响识别方法主要是分析群体中的个体成员,然后通过考虑各种线索,如面孔、突出物体和场景,评估他们对群体整体情绪的贡献。

  • Fujii等[10]提出了两阶段分类方法,第一阶段对面部表情进行分类,第二阶段考虑场景特征,通过光谱聚类融合人脸和场景,进一步进行群体影响识别。
  • Khan等人[13]考虑了多线索,包括所有的面部、物体和场景信息。为了实现这样的架构,需要额外的人脸检测和物体建议检测器。
  • 类似地,Guo等[12]也使用图神经网络研究了多组,其中图的拓扑结构随着实体数量的变化而变化。

目前的群体影响识别方法通常依赖于启发式特征提取器(多个预训练的人脸/物体检测器)和对表情数据集的预训练,效率较低在较大的群体中,在聚合前单独考虑所有人脸的表情是不可行的,导致效率和准确性较低。如[10]所示,需要考虑主体估计的性能,而我们的工作填补了这一空白。

2)最重要人物(MIP)检测

MIP检测模型通过理解社会事件图像中的高级模式来识别最重要的人物

  • Ramanathan等[16]使用RNN学习随时间变化的注意力权重,可用于事件检测和分类。不需要任何显式注释,出席率最高的人可以被识别为MIP。
  • 为了克服人体姿势固有的可变性,PersonRank[17]制作了一个多重超交互图(multiple Hyper-Interaction Graph),将每个个体作为一个节点。可以使用四种类型的边缘消息函数来识别最活跃的节点。
  • POINT[18]提出了两种交互模块,即人-人交互模块和事件-人交互模块。然后将关系特征和人物特征进行聚合,形成重要特征。
  • 为了减少标注工作量,Hong等[19]提出了一种基于point的迭代学习方法用于半监督重要人物检测。

因此,在这项工作中,我们将人们意识纳入全局的影响分析。

3)双注意力学习模型

双通道视觉注意力已被广泛用于寻找重要的上下文区域。双重注意力网络[20]是为了推理人与物体的交互而提出的。为了生成注意力图,它预测可以分别给出动作和对象标签,然后使用这些先验来衡量它们的特征

基于视觉转换器在各种视觉任务中的出色性能[21],近年来出现了许多基于自注意的双路径网络:

  • Zhu等人[22]提出了一种全局-局部交叉注意,以增强细粒度识别的空间判别线索。设计了成对交叉注意来建立图像对之间的相互作用。
  • Dual ViT[23]结合了一个压缩的语义路径,该路径在学习更精细的像素级细节时充当先验信息。语义路径和像素路径被整合在一起,并被训练以并行传播增强的自我注意信息。
  • 与我们的工作最相似的架构是CrossViT[24],它是为了有效地学习多尺度特征而提出的。然而,我们在两个主要方面与之不同:

首先,我们的网络使用全局图像和MIP图像在不同尺度上进行划分,而CrossViT使用相同的输入图像在不同规模上进行划分。另一个区别是交叉注意力机制。CrossViT交换类Token,而我们设计了一个基于两个路径的注意查询的跨补丁注意模块。

3.双分支交叉Patch注意力Transformer

1)概览

我们提出的用于群体情感识别的双分支交叉Patch注意力Transformer(DCAT)的架构如下图所示:

该模型包含两个输入,即全局图像和相应的MIP图像。这两个图像首先被标记为Patch,并发送到多尺度Transformer编码器的栈中,该栈由双路径Transformer编码器、Token排名模块和跨Patch注意(CPA)组成。具体而言,在双路径Transformer Encoder中,全局图像被发送到粗级别路径,以捕获长程信息,并进一步细化编码的令牌以获得细粒度细节。另一方面,MIP图像被馈送到精细级路径以获得高级语义Token。接下来,由于全局和MIP特征在概念上是相互依赖的,我们在模型中引入了双路径交互。特别是,我们基于Token排名模块,根据令牌在每条路径中的重要性对其进行排序,然后使用另一条路径的密钥和值向量计算CPA。最后,来自两个分支的类标记被组合并发送到线性层中进行预测。

2)双路径学习

给定输入的全局图像,MIP图像是基于预训练的POINT[18]模型检测的,该模型是一个学习组的相互作用和关系的深度模型。

由于全局图像包含群组的全局信息,并且MIP是基于局部的语义先验,因此我们提出了用于群组影响预测的双路径特征学习。通过双重途径,可以在全局和局部发现空间上的判别线索,并结合自我注意学习。

首先,全局图像和MIP图像都被标记Patch,然后在多尺度Transformer编码器之前将类标记和可学习的位置嵌入添加到两个分支。为了平衡计算成本,受CrossViT[24]的启发,我们在两种路径中的Transformer编码器包括不同的数字(即G=6和M=1)。全局分支是具有粗略补丁大小(即12)、具有更大嵌入大小和更多变换器编码器的大(主)分支。MIP图像是具有细粒度补丁大小(即16)、较少编码器和较小嵌入大小的小(互补)分支的输入。

作为ViT的核心,多头自注意(MHSA)将查询向量映射为一组关键向量和值向量[21]。在两条路径中的第l个Transformer Encoder块中(基本的Transformer Encode上图b所示),输出特征图为 X l ∈ R ( N + 1 ) × d X_l∈R^{(N+1)×d} XlRN+1×d。块中MHSA模块的注意力矩阵 A l ∈ R S × ( N + 1 × ( N + 1 ) A_l∈R^{S×(N+1×(N+1)} AlRS×N+1×N+1计算为:
A l = S o f t m a x ( Q l ∗ K l T d ) A_l = Softmax(\frac {Q_l * K_l^T}{\sqrt{d}}) Al=Softmax(d QlKlT)
其中, Q l ∈ R ( N + 1 ) × d Q_l∈R^{(N+1)×d} QlRN+1×d K l ∈ R K_l∈R KlR。S表示头的数量,T是转置算子,d是嵌入的维数。N是标记化Patch的数量。输入的全局图像和MIP图像被划分为具有不同N的不同补丁数量。除了N个令牌之外,计算还包括1个类令牌。

3)全局和MIP途径的交互

由于组级图像中的信息量很大,仅通过全局或MIP分支提取特征是不够的,并且从两者中交叉关注判别性标记可以提供互补的效果。

在通过Transformer Encoder获得全局和MIP令牌后,我们应该考虑双路径交互。特别地,我们提出了一种跨补丁注意(CPA)机制来建立全局图像和MIP图像之间的空间交互。我们首先基于令牌排名模块,根据令牌在每条路径中的重要性对其进行排序。通过选择最前面的η标记,构建了一个新的查询矩阵。其次,通过新的查询矩阵和来自另一个分支的键值来计算交叉补丁注意力(CPA)。值得注意的是,由于梯度通过两种途径传播,它可以通过全局到局部的交互同时补偿全局特征压缩的信息损失。正如[22]中所验证的那样,这种交叉注意力也可以被视为一种新的正则化方法来正则化注意力学习,特别是对于我们的小数据集。

  • Token排名模型

对于Cross Patch Attention,我们需要从复杂的群像中删除不重要的内容,并只保留相关的令牌。我们的第一步是根据Toekn的重要性对其进行排名。虽然类标记注意力映射 A c l s ∈ R 1 × ( N + 1 ) A_{cls}∈R^{1×(N+1)} AclsR1×N+1反映了特征的重要性[25],[26],但我们通过全局类标记和每个补丁标记之间的相似性得分来表示标记的重要性:
A c l s = S o f t m a x ( q c l s ∗ K T d ) A_{cls} = Softmax(\frac {q_{cls} * K^T} {\sqrt d}) Acls=Softmax(d qclsKT)
其中 q c l s ∈ R 1 × d q_cls∈R^{1×d} qclsR1×d是类令牌的查询向量, K ∈ R ( N + 1 ) × d K∈R^{(N+1)×d} KRN+1×d是密钥向量,d是嵌入的维数。

根据上公式,计算与类令牌相关的每个补丁的权重。通过这种方式, A c l s A_{cls} Acls揭示了每个补丁对最终分类的贡献,因为它捕获了类令牌对所有补丁的全局交互。

  • 交叉补丁注意(CP A)

然后,基于每个令牌的重要性得分,我们通过选择对应于类注意力图中顶部α最高响应的顶部α查询向量,构造新选择的查询矩阵 Q s e l ∈ R ( α + 1 ) × d Q_{sel}∈R^{(α+1)×d} QselRα+1×d,表示注意力局部嵌入。

在每个路径中,交叉补丁注意力(CPA)向量计算如下,
f C P A ( Q , K , V ) = S o f t m a x ( Q s e l ∗ K T d ) V f_{CPA}(Q,K,V) = Softmax(\frac {Q_{sel}*K^T}{\sqrt d})V fCPA(Q,K,V)=Softmax(d QselKT)V
其中 K ∈ R ( N + 1 ) × d K∈R^{(N+1)×d} KRN+1×d是关键向量, V ∈ R ( N + 1 ) x d V∈^R{(N+1)x d} VR(N+1xd是值向量,d是嵌入的维数。

如上图c所示,CPA操作是双向的,两个分支中的每个分支都提供所选的令牌作为查询向量。两个分支融合在一起C次,这意味着在每个CPA中更新所选查询。

最后,在重复L Multi-Scale Transformer Encoder之后,来自两个分支的类标记被组合并发送到线性层中进行预测。交叉熵损失用于最终分类[21],[24]。

4.实验

首先,我们将我们的方法与最先进的群体情感识别以及视觉转换器模型的基线进行了比较。我们在两个具有挑战性的群价预测数据集上进行了实验:GroupEmoW[12]和GAF3.0[27]。其次,我们提出的模型可以转移到群体凝聚力,这是在GAF凝聚力[28]上进行评估的。第三,我们进行消融分析,以检查我们方法的关键组成部分,即双路径学习、令牌排名模块和交叉补丁注意力(CPA)。最后,我们还提供了定性结果来证明所学习的特征图的合理性。

1)实验细节

我们的模型在ImagegNet上使用CrossViT[24]的权重进行了部分预训练。我们在批次大小为64的2个GPU(RTX 3090 Ti)上训练所有模型300个时期(30个预热时期)。对于MIP检测,我们使用在多场景重要人物图像数据集(MS数据集)[17]上预训练的POINT[18]模型。双通道、CPA、多比例变压器编码器中Transformer编码器的数量设置为M=1、G=6、K=3和L=1。更多细节可以在我们的补充材料中找到。

2)数据集

GroupEmoW[12]数据集包含15894张图像,分为“训练”、“验证”和“测试”子集,分别有11127张、3178张和1589张图像。该数据集的图像是通过搜索引擎从网络上收集的,关键词与社会事件有关,如葬礼、生日、抗议、会议、会议等。每张图像都被标记为“中性”、“积极”和“消极”状态之一。注释任务由多个人执行,并就基本事实标签达成共识。

GAF 3.0[27]包含9815张用于训练的图像、4349张用于验证的图像和3011张用于测试的图像。网络爬行是为了创建GAF 3.0而进行的,它使用了各种与社会事件相关的关键词(如世界杯冠军、婚礼、家庭聚会、大笑俱乐部、生日庆祝活动、兄弟姐妹、骚乱、抗议和暴力等)。它还被标记为跨价值轴的三种群体情绪(积极、消极和中立)。

GAF凝聚力[28],[29]基于GAF 3.0数据集进行注释,其中9815张图像用于训练,4349张图像用于验证,3011张图像用于测试。凝聚力得分范围从强烈同意、同意、不同意到强烈不同意,范围为0-3。均方误差(MSE)被用作评估度量。

3)与最先进的群体影响方法和视觉转换器的比较

4)迁移学习用于群体凝聚力评估

5)消融实验

跨Patch注意力模块CPA、Token排序模块中的不同Token选择比率α

6)特征图可视化

5.局限性

在本文中,我们首次将心理学中的MIP应用于群体情感识别,使用经过训练的模型POINT[18]。尽管实验结果表明,我们的框架可以优于其他传统方法或流行的ViT,但原始MIP数据集和群体影响数据集之间可能存在域转移。一个可能的解决方案是将MIP注释添加到组影响数据集或设计专注于领域泛化的算法。

猜你喜欢

转载自blog.csdn.net/qq_44930244/article/details/130235895