【论文阅读】Automatic emotion recognition for groups: a review

摘要

本篇博客参考IEEE2021年收录的论文Automatic emotion recognition for groups: a review,对其主要内容进行总结,以便加深理解和记忆。

1.介绍

群体情绪监测的应用:监视、自动图像和视频注释、事件检测[1]、[2]。目前的群体监测方法通常是资源密集型的,依赖于人类的注意力[3]、[4]。情绪是群体行为的基础[4]、[5],监测情绪最好是实时的,可以用来预测并在必要时进行干预[6]。

在定义群体情绪时,一般而言,群体情绪由两个部分组成,自下而上的部分(个人及其情绪)和自上而下的部分[7](环境和群体信息[1]、[8-10]),群体情绪可被定义为群体中的共同条件,这是将两个部分结合在一起的结果[11]。在情感计算中,目标是尽可能真实地对这些群体情绪进行分类。

检测群体情绪比个人情绪更加复杂,因为估计群体的情绪不一定类似于简单地组合该群体中所有个体的情绪[12-14]。在一项用户调查[9]中得知,局部和全局特征都参与了人类注释器的决策过程。因此可以得出结论,除了简单地平均个请情绪之外,还应该考虑其他技术来进行群体层面的情绪检测[15]、[16]。

2.文章选择方法

最初的文章搜索(探索)→ 在找到的文章中进行密集查询提取DQE → 过滤

3.群体类型和情绪模型

1)群体类型

  • 一项调查学生在课堂上情绪的研究[23]

  • 研究[24]结合了这些社交聚会图像和明确非受控环境中的人的图像

  • [25]包含了也显示非受控环境下的群体的视频

与仅使用社交聚会图像(包含许多摆姿势的图像)的研究相比,这不会改变群体成员之间的关系,但引入非受控环境可能会导致更动态的环境,具有更明确的互动。

  • [26]考虑室外视频,[27]同时考虑室外和室内视频片段。这些视频包括自然环境中的人,例如在街上行走或锻炼
  • [4]中研究了拳击比赛后发生踩踏事件时的情绪
  • [28]和[29]着眼于体育赛事以及其他聚集群众的赛事,如骚乱
  • [30]调查不同的城市事件,从骚乱到庆祝活动

2)情绪模型

①离散情绪标签[31]

  • 1971年,Ekman和Friesen描述了六种基本的、普遍的情绪[31],即快乐、悲伤、愤怒、惊讶、厌恶和恐惧
  • [4]选择了四种,即愤怒、恐惧、幸福和悲伤。他们参考[33]来证实省略了厌恶和惊讶
  • [26]中,惊讶和厌恶也被省略了,取而代之的是兴奋和中性,MED数据集
  • [23]使用Ekman的分类,省略了厌恶,添加中性类别
  • [20]考虑了微笑、惊讶和中性
  • [28]考虑了喜悦、愤怒和中立
  • [29]考虑了赞成、反对和中立
  • [16]考虑了兴趣(以及间接的无聊,被认为是兴趣的反面)

②唤醒效价情绪平面[32]

  • 唤醒效价(A-V)情绪平面最早由Russell于1980年提出,情绪状态由沿着两个轴的连续值表示。激发态的范围从低到高,中间有中性,化合价的范围从负到正,中间也有中性。
  • [34]预测唤醒和效价,每一个都离散为三个值。唤醒可以取高、中、低的值,而化合价可以取正、中性和负的值
  • [27]还考虑了唤醒和效价,并使用全唤醒效价平面(每个轴上有10个步骤)绘制人群情绪曲线
  • [21]和[22]中,只考虑了唤醒,忽略了价态维度。这可以通过识别他们的方法来解释,该方法考虑了观众对(视听)刺激的身体反应。GAFF
  • [30]和[25]是两项使用化合价维度但不适用于GAFF数据集的研究

一种情绪的度量(幸福度)

该研究预测了幸福强度得分,从0(中性)到5(激动)不等

4.数据集

1)群体情绪数据集

2)单人表情识别数据集

3)视频数据集

4)其他模态数据集

5.方法

在[7]中,Barsade和Gibson将自下而上和自上而下(有时分别被称为局部上下文和全局上下文)描述为群体情绪的组成部分。我们将首先考虑自下而上的研究方法,然后是自上而下的方法和结合自下而上和自上而下方法的方法,称为混合方法。

1)自下而上的方法

  • Huang等人[62]提出了基于Riesz的体局部二元模式作为人脸描述符(RVLBP),用连续条件随机场建模群体情绪,同时结合人脸的大小及其相对距离
  • 个人面部特征都被直接输入分类器以预测群体情绪,而不是首先预测个人情绪。所采用的这些分类器要么是非神经分类器的组合[63],要么是长短期记忆(LSTM)和密集层的组合[64]
  • 在[65]中,神经网络用于个体人脸的情绪预测,融合个体预测形成群体预测。
  • 在[67]中,个体人脸被馈送到多个细胞神经网络,用于个体情绪预测。然后,这些预测被组合在热图图像中(每个人脸包含一个热图),这些热图图像再次被馈送到CNN用于最终的群体情绪预测

2)自上而下的方法

  • [43]的研究给出了EmotiW 2016的GReco子通道的基线。使用CENTRIST描述符从图像中提取特征,然后通过支持向量回归将其用于分类。
  • [26]中使用了视频数据。他们提出了一种3D CNN,用于学习情绪检测的高级时空特征。第三个维度,形成了CNN的时间维度,隐含地捕捉运动

3)混合方法

大多数研究将人脸层次分析与场景层次分析相结合。

  • [9]针对人脸和场景的传统方法的研究
  • Rassadin等人[71]结合了基于CNN的经典人脸特征提取,并结合CNN进行场景级分析。
  • Surace等人[72]使用场景描述符作为贝叶斯网络中的节点,此外还有用于人脸的CNN(也用作贝叶斯网络的输入)
  • [73]的一项研究对人脸和场景都使用了CNN,但当没有检测到人脸时,为整个图像添加了两个经典描述符(在CNN旁边)
  • 利用神经网络结合人脸和场景的研究有[1]、[15]、[74]、[75]、[76]和[77]
  • Khan等人[78]将这两个方面(人脸和场景)分布在四个不同的流中。他们在人脸、每张人脸都有注意力热图的图像、人脸模糊的图像以及没有添加的整个图像上训练网络。
  • 在[10]中,针对面部特征和面部表情训练单独的神经网络,然后进行CNN场景分析。
  • 在[79]的工作中,并非所有图像都被馈送到场景级CNN。首先,人脸级别的CNN和SVM区分阳性和非阳性(中性和阴性组合)图像。作者表示,根据对数据集的调查,积极的情绪最容易区分。然后,只有非正面图像被馈送到场景级CNN,以便更仔细地将它们分类为中性、负面和(更难区分)正面。

一些采用混合方法的研究在人脸和场景或代替人脸和场景时纳入了其他信息

  • [35]和[34]的研究中,上身信息也被利用,使用了传统方法
  • [80]中也利用身体的分析,[81]添加了骨架分析,使用了深度学习方法
  • [82]中还使用CNN分析了人脸、场景和骨骼,其中在人脸级别,CNN输出被馈送到LSTM,在场景级别,注意力遮罩被放置在图像上
  • 注意力也应用于[2]中,在人脸、场景和骨骼旁边,通过向CNN和LSTM提供16个显著区域,包括视觉注意力(通过神经注意力机制发现的对情绪检测很重要的显著区域)
  • 在[?]的工作中,考虑了相同的方面,用物体代替了视觉注意力。每个方面首先被馈送到CNN,其中的特征被用作完整图中的节点。然后在一定的时间步长内更新该图,使来自不同方面的功能能够交互。
  • [83]的工作还提出了对群体情绪检测对象的分析(通过CNN)
  • [24]进行了一项比较研究,其中神经网络用于从人脸、场景和地点提取群体情绪。这些结果不是融合的,而是进行比较,以研究基于人脸的方法(人脸、场景)的性能与非人脸方法(用于场景识别的位置)的性能

4)融合方法

①融合不同的方面(面部、场景、骨架…)

  • [79]首先基于图像的个体面部,并基于连续馈送到场景级网络的预测来分析图像
  • Nagarajan和Oruganti[24]旨在比较不同的模式,而不是将它们融合在一起
  • 在[81]、[2]、[78]、[71]和[77]中以加权的方式融合各个预测
  • [34]、[80]和[42]中也使用了个人预测的组合,后者采用多数投票
  • 在[1]、[69]和[10]中采用了一个或多个用于融合各个方面的完全连接层
  • [15]和[70]中采用了用于特征融合的LSTM
  • [83]、[82]和[35]使用了SVM,后者使用了修正的局部多核学习(MKL)
  • [9]中还提出了MKL用于融合(和预测),使用的其他融合方法是级联
  • KNN[75]、融合网络[73]、贝叶斯网络[72],或者加权特征融合(将局部信息与全局信息融合)和随机森林(将来自不同CNN的融合特征融合)的组合[76]
  • 在[74]中,对特征进行了串联,但没有描述导致共同情绪预测的步骤

②融合同一方面的不同实例信息(如人脸之间的融合)

可以在特征级融合决策级融合之间进行粗略的区分。通过特征级融合,不同的特征(在这种情况下是不同的个体)在分类之前被融合,而通过决策级融合,每个特征(在这个情况下是个体)都得到自己的分类,然后将这些结果组合起来。

决策级融合:

一些方法采用所有个体的平均值

  • 如[62],其中对个体加权的幸福强度(每张脸的概率最高的标签)进行平均
  • 在[2]、[72]和[77]中也取了平均值,其中选择具有最高概率的情绪类别作为群体情绪
  • 在[66]中,每张脸都会得到每种情绪的置信度分数

为了得到最终的幸福感预测,每个可能的强度乘以其相应的置信度得分的总和被四舍五入到最接近的强度

  • Ghosh等人[10]在人脸上进行群体级池化
  • Guo等人[42]采用多数投票
  • 其他研究通常根据人脸对整个图像的重要性来衡量人脸,[38]、[81]、[78]、[61]和[65]中使用了加权方案

其他研究采用机器学习融合方法

  • [60]的工作中,他们用不同的融合技术进行实验,将图像中个人情绪的平均值和分布输入MLP,以给出最终的群体情绪,从而获得最佳性能。
  • 在[67]中,为每张脸生成热图,用多个神经网络指示面部大小和情绪强度。对每个人脸进行平均,然后对每个图像进行叠加(每个热图都位于原始人脸位置)。叠加的图像,以及所有个体的热图,被馈送到CNN,用于最终的群体情绪预测。
  • Cerekovic[69]将个体情绪预测以及关于其位置和大小的信息提供给LSTM,用于群体情绪分类。由于LSTM以顺序的方式获取输入,这同时解决了每张图像中个体数量不同的问题。
  • [20]中采用了贝叶斯方法,其中个体情绪(由面部和语音特征组合而成)通过贝叶斯网络影响群体情绪。
  • 通过神经网络进行加权,以使用决策级融合:在[79]、[74]和[80]中,每个情绪都被分配了一个由神经网络给定的权重。在使用社交媒体消息的研究中,特征是在个人层面提取的,因此也必须进行合并才能获得群体情绪。
  • Gong等人[30]没有融合个人情绪,而是计算根据个人情绪估计的群体情绪误差。

特征级融合:

特征在被馈送到分类器之前以某种方式被组合

  • Liu等人[75]使用人脸特征的简单平均值
  • [63]对单个嵌入进行平均以获得一个图像特征
  • 在[21]和[22]中,群体唤醒是根据有反应的个体与所有个体的比率计算的,这类似于取二进制响应变量的平均值(给定某个阈值,个体是否响应)
  • Rassadin等人[71]通过取所有单个人脸特征的中值来构建特征向量
  • [76]则取加权平均值,其权重取决于人脸大小
  • [9]中使用了视觉词汇。用字典中的单词以设定的字典大小表示图像中的每个人脸,解决了每个图像的人脸数量可变的问题
  • Huang等人[35]提出了信息聚合(INFO),以堆叠个人的特征
  • Balaji和Oruganti[83]对VLAD[84]编码和Fisher Vector编码[85]进行了实验
  • 在[36]中,提出了一种SVM用于分类,其具有与人脸数量无关的组合全局对齐核
  • 在[15]中,他们将LSTM用于人脸和场景特征。使用五个最大的人脸,如果检测到的人脸少于五个,则执行零填充。
  • 其他研究利用LSTM的序列性质来获取可变数量的人脸,如[70]、[82]、[64]和[73]

6.表现

1)GAFF

2)一个有趣的发现是,大多数最佳性能(在可能进行比较的情况下)都采用了混合方法。混合方法从2015年开始出现,并在接下来的几年里越来越流行。直到2019年,它们的使用频率高于自下而上和自上而下的方法,但在2019年,他们的使用频率与自下而上的方法一样高。

7.应用的可能性

1)假设现实世界中的一群人有以下特征:

  • 一个群体的组成可能会发生变化,人们会加入或离开被认为是该群体的群体。
  • 一个群体的情绪可能是异质的,包含不同的情绪亚群。
  • 一个群体的情绪会随着时间的推移而变化。
  • 群体成员的行为可能会因情绪原因以外的其他原因而改变。例如,从一个群体中出现的声音可能会出现或消失,而没有情绪原因。

2)用于识别小群体情绪的方法与用于分析大群体的方法不同:

  • 当个体(无论是他们的脸还是他们的声音)在人群中迷失方向时,通过面部或对话分析关注个体的技术可能无法在更大范围内发挥作用。需要考虑的另一个因素是,这种基于个体的方法在应用于大群体时的计算复杂度。

  • 相反,当考虑大型集会时,可能会出现与小团体陷阱相反的情况。一个被训练来识别大型人群的运动或人群发出的声音的模型,很可能无法识别小型集会的运动和声音。

3)Dudzik等人[87]在最近的一篇综述中提出了一个问题:描述了注释者(情绪数据的感知者)如何在解释他人情绪时产生偏见

8.未来的工作

  • 研究中尚未充分解决是现实世界群体特征是对非情绪变化引起的数据变化的稳健性
  • 为了使研究能够朝着更现实的适用框架发展,应该创建数据集,以减少数据收集本身可能产生的任何偏见
  • 探索混合方法的可行性,探索多模态
  • 提高当前方法在现实世界中的适用性。因此,我们建议开发能够应对现实世界群体特征的系统

建议:

  • 改变团队规模:未来工作的挑战在于建立灵活的小组规模分析方法。如自动检测组大小并相应地改变分析的网络
  • 尚未纳入当前研究的现实世界特征是具有不同的情绪亚群。当调查一个真实世界的群体时,该群体可能会被分为几个较小的小组,这些小组共享一种共同的情绪,可能与其他小组的情绪不同。因此,未来的工作可以集中在寻找和分析不同的情绪亚群上。
  • 本综述中只有三项研究分析了情绪随时间的变化。因此,时间分析及其带来的挑战可以在未来的工作中得到解决。时间分析有助于检测无法用单个时间点的数据检测到的模式,这反过来又有助于预测情绪。

猜你喜欢

转载自blog.csdn.net/qq_44930244/article/details/130434640
今日推荐