【论文阅读】Regional Attention Networks with Context-aware Fusion for Group Emotion Recognition

【论文阅读】Regional Attention Networks with Context-aware Fusion for Group Emotion Recognition

摘要

本篇博客参考WACV于2021年收录的论文Regional Attention Networks with Context-aware Fusion for Group Emotion Recognition,对其主要内容进行总结,以便加深理解和记忆

1.介绍

1)情绪在我们的日常生活中发挥着至关重要的作用,并影响着我们与他人沟通和互动的方式。具有同理心,我们对周围的环境有高度的反应;当我们构成环境时,我们在很大程度上通过我们的互动来影响它。

2)从多个个体中理解群体情绪并不简单,因为图像中的每个人可能不会表现出相同的表情。我们可以观察到所涉及的个体表现出不同的表达,在某些情况下甚至相反的表达:

  • 孩子悲伤的脸对群体情绪产生了主要影响,尽管其中一位女士正在微笑。
  • 女士的笑脸掩盖了绅士愤怒的表情。这张照片中的另一个观察结果是,背景中的人不属于这个群体,因此在GER中应该被忽略。
  • 横幅和海报给团队带来了负面的氛围,而背景中的汽车是无关紧要的,这使得确定信息最多的对象变得很困难。

3)尽管从场景、人脸和对象等多个流中收集信息已被证明可以有效提高GER性能[13,32,18],但将所有流的预测组合到一个决策中仍然具有挑战性,因为不同流的重要性可能因上下文而异

4)GER[12,13,32,18]的最新方法利用了多个信息流的优势,而每个信息流使用一个单独的网络。由于所有的流都是从同一个图像中导出的,因此对每个流使用单独的网络是过度的,并且计算成本很高。在这方面,我们首次提出对所有流使用单个共享骨干网络。

5)困难与解决方案

①GER的挑战:

  • 很难将不同个体的不同情绪组合成一个单一的结论性标签
  • 尽管事实证明,利用人脸以外的信息(如场景和对象)是有帮助的,但有效融合单个来源的预测仍然是一个挑战

②解决方案:

  • 提出了一种区域注意力机制,以找到在群体情绪中发挥关键作用的重要人物或对象,并根据重要性将其组合起来。
  • 提出了一种上下文感知融合机制,从图像上下文中估计权重,以融合不同的信息源
  • 提出使用单个骨干网络从多个来源(即场景、人脸和对象)提取特征,从而降低计算和内存成本

2.相关工作

1)IEG

个人情绪识别(IER)是GER任务的前身,在过去十年中进行了大量研究,并显著提高了计算机理解个人情绪的能力。

最近,基于深度学习的方法在ER方面取得了重大进展[3,25,22,2,9,10,15]。

尽管这些方法中的大多数都明确分析面部区域以确定情绪,但也有几次尝试使用其他来源的信号来提高ER的准确性[29,26,4,19,34,20]:

  • Nicolaou等人[26]使用肩膀的位置
  • Schindler等人[29]使用身体姿势来增强情绪识别

各种其他方法利用了上下文信息[4,19,34,20]:

  • Chen等人[4]使用预先训练的神经网络从事件、对象和场景中生成分数,然后使用这些分数作为特征来训练神经网络
  • Kosti等人[19]从身体姿势和场景中提取特征,并将它们组合起来预测个人的情绪
  • Lee等人[20]使用了人脸编码流和上下文编码流,并将它们与学习的权重融合。

这些方法的成功有力地表明了上下文对IER的重要性,并启发了我们提出的方法。然而,这些方法大多集中在一个人或场景上,并没有明确考虑一个群体中存在多个人。此外,他们预测的是个人的情绪,而不是整个群体的情绪,这需要了解个人对群体的贡献有多大

2)GER

群体情绪识别(GER)是从一组个体中确定情绪的任务。不幸的是,这个问题在过去没有得到很好的研究,主要是由于缺乏数据。

  • Dhall等人[7]提出了一个基于多核学习的混合GER推理模型,并发布了群体情感数据库,该数据库包含一群人在社交活动中的图像,标记为“积极”、“消极”或“中立”。随后,启动了EmotiW组级情绪识别子挑战,以推进GER任务[6,8]。作为挑战的积极成果,已经进行了几次尝试来解决这项任务[30,11,13,32,18,14]。

除了人脸和场景,一些方法还使用了更多的信息来源。

  • Khan等人[18]以注意力热图的形式使用了人脸位置信息
  • Wang等人[32]使用了人体
  • Guo等人[13]利用了骨骼和物体
  • Guo等人进一步开发了一种基于图神经网络的方法[12],考虑了各种节点之间的相互作用,其中节点是从几个流中提取的特征,即人脸、对象、人类补丁和场景

所有这些上述方法都为单个流训练了一个单独的网络,这些流的预测随后被融合以进行最终分类。为了集成不同的流,上述方法已经采用了几种融合方案:

  • Gupta等人[14]使用了来自人脸和场景流的串联特征
  • [18,13,32]中使用了加权平均,其中权重是从验证集上的穷举网格搜索中学习的
  • Guo等人[12]使用多数投票进行最终预测

在所有这些方法中,权重在训练后是固定的,并且不会随着图像的上下文而改变。如前所述,考虑到GER的图像上下文的巨大变化,作者提出了一种上下文感知融合机制来从图像内容中明确地学习权重。

相比之下,考虑到许多优点,作者建议使用单个共享骨干FPN:

  • 首先,由于前几层学习低级别特征[36],这对所有网络来说都是相似的,共享主干可以在不牺牲性能的情况下减少内存使用和计算成本。
  • 其次,由于主干是输入大小不可知的,因此ROI不需要减少到固定的较小大小,因此不会丢失关键信息。
  • 第三,GER任务中的RoIs类人脸具有较大的尺度变化[18]

因此,使用FPN可以明确考虑不同的尺度。最后,可以对单个损失函数进行端到端优化,而不是用不同的损失函数单独训练多个网络。

3)注意力机制
视觉注意力已被广泛使用,并在许多领域取得了巨大成功:包括图像字幕[1,23,28]、视觉问答[33,35]、图像分类[31]和图像生成[37]。注意力可以用来发现一组上下文区域的相对重要性,也可以应用于GER任务[14,32]。

与这些只从外观特征学习注意力的方法不同,作者提出使用ROI的几何信息作为附加信号,以及从同一主干提取的全局场景特征来计算上下文区域的注意力。

3.方法

图像通过基于特征金字塔网络(FPN)[21]的骨干网络,从中生成特征图并由三个流共享。场景流从整个特征图中提取场景特征x s。给定兴趣区域(ROI),即人脸边界框、FPN特征图和场景特征xs,人脸流通过所提出的区域注意力模块提取人脸特征xf。类似地,通过对象流来提取对象特征xo。然后,所提出的上下文感知融合模块对xs、xf和xo进行组合,以获得最终决策得分scc。

  • 首先,分别使用现成的人脸检测器[38]和对象建议网络[1]来检测人脸边界框和对象建议边界框。
  • 然后,输入图像通过共享骨干网络,该网络生成中间特征图。
  • 共享骨干网络产生了三个独立的流。场景流从由 x s x^s xs表示的整个场景中提取特征。人脸流使用所提出的区域注意力模块提取由 x f x^f xf表示的人脸特征。类似地,对象流提取由 x o x^o xo表示的对象特征。
  • 最后,通过所提出的上下文感知融合模块,将来自所有三个流(即xs、xf和xo)的特征进行组合,以确定最终分类得分。

①从共享骨干网络中提取RoI特征

通过MTCNN[38]检测人脸,这是一个用于人脸和地标检测的深度级联多任务框架。检测到的面部边界框被用作面部流的ROI,并且第i个检测到的人脸由b f i表示。对于对象流,ROI是对象建议。在[12]之后,我们使用预先训练的自下而上注意力网络[1]来生成对象建议,并用b o i表示第i个对象RoI。对于场景流,我们使用图像大小与RoI相同的单个边界框,并用Bs表示。

受所有流都来自同一图像这一事实的启发,我们提出使用单个共享骨干网络来提取所有流的中间特征。具体而言,具有特征金字塔[21]的50层深度残差网络(Resnet)[17],即Resnet-50FPN,被用作骨干网络,产生由B表示的特征图。

②区域注意力模块

由于人脸/对象流中存在多个ROI,我们提出了一个区域注意力模块来对人脸/对象进行特征级融合。

③上下文感知融合模块

④调节损失函数

除了独立的人脸检测器和对象建议网络之外,所提出的GER框架可以端到端地训练。在训练过程中,我们有四个损失项:
L o s s = λ c L ( s c c ) + λ s L ( s c s ) + λ f L ( s c f ) + λ o L ( s c o ) Loss = λ_cL(sc^c) + λ_sL(sc^s) +λ_fL(sc^f) + λ_oL(sc^o) Loss=λcL(scc)+λsL(scs)+λfL(scf)+λoL(sco)

4.实验

①数据集:GroupEmoW [12]、Group Affect Database 2.0 [7]

②实验细节

③实验结果

④不同流的消融研究

⑤注意力模块和上下文感知融合模块的可视化研究

猜你喜欢

转载自blog.csdn.net/qq_44930244/article/details/130484453
今日推荐