Geometric-Convolutional Feature Fusion Based on Learning Propagation for FacialExpressionRecognition

Geometric-Convolutional Feature Fusion Based on Learning Propagation for Facial Expression Recognition

(基于学习传播的几何-卷积特征融合在人脸表情识别中的应用)

一、介绍

面部表情识别是将情感标签分配给静止图像或视频的过程。本文提出两种不同的面部特征提取方法,其一是手工制作,另一是利用卷积神经网络自动提取特征。

在本文中提出了三种基于视频的模型:差分几何融合网络(DGFN),深层面部序列网络(DFSN)和DFSN-i,利用面部序列中的时间信息预测六种基本情绪:愤怒,恐惧,厌恶,惊讶,快乐和悲伤。 在DGFN中,设计了一些基于心理学和生理学的几何特征。为了获得更好的性能,采用两种特征提取方法。为了使不同的特征和谐融合,我们在工作中采用了基于神经元之间学习推进(LP)的融合思想。 LP是网络训练中大量神经元之间的前向传播和反向传播过程。

实验结果表明,手工特征和自动提取特征的结合提供了更好的性能。 虽然具有手工制作功能的DGFN在我们的三个模型中提供最低的准确度,但模型训练所花费的时间是DFSN-i的1/60。 对于CK +数据集,DFSN和DFSN-i与文献中基于视频的方法相比几乎达到了最佳性能。此外,DFSN和DFSN-i都优于Oulu-CASIA数据集上的最新方法。

 

二、相关工作:

手工制作的特征提取

基于传统机器学习的特征提取方法有很多种,例如基于几何和基于Gabor小波的[13]。 几何特征是面部外观的一种形式,它包含各种面部器官的几何信息。在DTAN [8]和DTAN(联合)[9]中,所有内表面的地标都被用作几何特征。但是,只有地标的相对距离是不够的。几何特征x∈R22在方法[14]中更加详细的对于地标的一些计算。 但是如果没有整个下颌骨的一些信息,那么22维度的x是不够强大的。

通过上述几何方法的启发,整个人脸的静态几何特征x∈R39是基于心理学和生理学设计的,包括面部器官的全局和局部信息。对于心理学,我们关注其面部关键区域的变化。 对于生理学,考虑面部肌肉或骨骼运动的规则。

基于神经网络的模型

CNN通常用于单个图像,这忽略了时间信息。因此,为了更好地利用时空信息,采用了3D-CNN方法,以获得更好地FERS表现。受3D-CNN的启发,我们为视频中的每一帧构建了DFSN的特征提取(FE)层。

  • 面部表情识别系统

本文提出了三种方法,每一种都包含以下步骤:面部预处理、特征提取和模型训练。

A面部图像预处理

如图所示,包括人脸检测,裁剪,旋转校正,重标等在内的一系列图像预处理技术,所有这些技术都用于提高模型性能。 例如,我们的分类器输入是一个通道的灰度图像。 它不仅可以减少训练样本之间的差异,还可以减少计算存储并加快培训过程。

B DGFN模型

几何特征提取

例如,从中性到惊讶的面部变化中,眉毛和眼睛中心之间的相对距离、上唇下唇的相对距离增加。标准相对距离定义为公式一计算静态几何特征元素。

面部区域的紧凑性可以由其面积形成。例如,脸部从中性变为厌恶,眼睛和面部三角区域面积减少,相当于整体脸部变得更紧凑。在我们的工作中,所有区域都是椭圆或三角形,用Heron公式计算三角形面积,其中长度由公式(1)计算。

而且,我们发现一些面部器官的轮廓类似于二次曲线,曲率代表了目前的面部状态。下颌骨是唯一可以移动的面部骨骼,这也就是为什么我们应该考虑下颌骨。 如图2所示,下颌骨绕枢轴点移动,改变了下颚的曲率。 另外,唇部和鼻子的曲率在面部变化时也有相应的规律。利用二次曲线拟合器官轮廓,二次系数代表器官曲率。二次函数的系数通过求解含有三个面地标的矩阵方程(2)获得,其中x i和y i是地标的坐标。

在这个方程中,只使用了a,它是近似表示曲率大小的二次系数。

最后,我们得到了几何特征中Fi∈R39 i帧包含的相对距离、曲率、面积和紧凑性。

几何特征融合

在人脸序列中使用时间信息可以获得更好的性能。对于整个序列,其特征向量可以表示为:

其中n是视频的总长度,这取决于它的总时间和FPS(每秒传输帧数)。面部序列始于中性情绪,以六种基本情绪其中一个的峰值结束。为了考虑时间信息,我们在提取时序信息时采用了相邻两帧之间的几何特征的差异。融合模型如图3所示。它将每一帧的几何特征转换为F *∈R78。

几何变化D∈R39由每一次变化求和得到。但是D仅是一种代表面部变化趋势的向量。因此,应该考虑当前的面部状态。计算公式在(5)中:

其中Fn和F1分别是峰值态和中性态的静态几何特征。

基于神经网络的模型设计

例如,面积和距离可能代表同一面部区域的相似信息。从某种程度上说,基于传统机器学习技术的手工制作会有不可避免的缺点。在这种情况下,需要通过调整F i中的元素权重来消除一些可能的冗余,以获得更好的性能。所以我们选择ANN通过反向传播算法调整神经元之间的权重,以实现第二次融合。 整个DGFN的模型如图4所示。

对于ANN,我们利用三层神经网络,其中输入是我们的微分几何特征,输出是一个六维softmax层,表示六种基本情绪的预测信心。 中间层与输入和输出层完全连接。

C DFSN模型

本节提出了另一种基于深度学习的面部表情识别方法。与DGFN最大的区别在于特征提取的方式。DFSN是基于CNN中的卷积和池化技术的,在模型性能上对于隐式面部特征更为有效。

手工制作的特性在性能上存在不确定性,实现起来很费时间。 但对于卷积和池化,它是一种比前一个更有效的自动提取特征方法。 所以我们设计了一个由卷积和池化组成的十二层网络来进行特征提取。每个框架的FE层框架如图5所示。

如图所示,FE层的输入是从面部序列中提取的预处理图像。卷积核的大小在我们层中的是3 * 3,5 * 5和7 * 7。我们在FE层前面部分采用了小卷积内核提取详细的面部信息。然后我们使用一些较大的内核来提取抽象特征。池化操作后,图像的大小越来越小,这就是为什么在FE层的末尾使用3 * 3的小内核。

2 * 2的大小应用于最大池化层,这是一种进一步提取功能的方法。它被视为卷积层的子采样。经过子采样,特征图中神经元的数量减少了一半,减轻模型培训的负担。最后,有64个每帧大小为4 * 4的特征图。

然后需要考虑每个帧的特征图的融合。首先,不需要将所有帧都融合,因为训练负担非常大,特别是对于一个FPS高的设备录制的视频来说。最好是从序列中选取一些帧来近似表示其时间信息。

对于数据集中的面部序列,每个样本以中性状态开始,以峰值状态结束。为了简化它,我们使用第一帧,中间帧和最后一帧来表示整个序列的时间信息。受到LP思想的启发,我们将每一帧的特征图完全连接到一个隐藏层。然后,所有这些隐藏层被连接在一起。 DFSN的其余部分如图6所示。

D DFSN-i

在本节中,提出了DFSN-I。 DGFN和DFSN在特征提取上存在不同。一个是基于传统机器学习的手工特征,另一种是基于深度学习的特征自动提取。对于手工制作的功能设计,这是一种具有先验知识但耗时的特定任务。另一方面,遗漏一些有价值的信息是不可避免地,而这些信息是人类观察难以提取的。对于基于FE层的自动提取,如果我们完全依赖它而没有经验,系统可能存在一些缺陷。因此,我们试图通过结合这两种方法的优点来寻求提高性能的方法。受到LP这个想法的启发,手工设计和自动提取的特征通过映射和连接组合成为整体特征。 DFSN-I的模型如图7所示。

如图所示,DFSN-I的输入为视频的三帧,与DFSN模型的输入相同。对于每一帧,特征提取有两种不同的方式,静态几何特征采用公式(5)的融合方法。然后将微分几何特征和卷积特征融合在一起。最后,分类层的输入是2048维的层。DFSN-I的性能将在第4节显示。

E 模型训练

本文提出了三种模型,训练标准几乎相同。对于DFSN和DFSN-I的FE层,根据正态分布随机初始化卷积核的值。每个卷积层后面跟着ReLu(线性单元)函数,ReLu是定义为Relu(x)= max(0,x)的激活函数。该ReLu函数可以加速模型训练的收敛。

梯度爆炸和梯度消失是人工神经网络训练中普遍存在的问题。为了解决这些问题,饱和非线性激活函数tanh(x) =2sigmoid(2x) − 1被应用于倒数第二层,其中sigmoid(x)=(e -x +1)-1。还应用了dropout技术来增强模型训练的鲁棒性。这里的dropout值为0.3,这意味着这层的神经元在模型训练期间不会参与正向传播或反向传播的概率为0.3。

学习率η为0.0001,模型训练的损失函数是交叉熵,定义如下:

Loss= -ylog 2 y’其中y是样本序列的一个热标,而y’是softmax层的预测置信度。

  • 实验和讨论

为了展示我们工作中提出的模型的性能,使用三个基于面部表情识别研究领域公开的视频数据集进行了实验:扩展CK +数据集[26],Oulu-CASIA数据集[27]和MMI数据集 [28]。此外,为了确保与文献中提出的某些方法公平比较,CK +和Oulu-CASIA的相同数据用于十倍交叉验证,而MMI数据集由于抽样方式的不同,仅用于测试性能。

实验是在Python 3.5环境和Windows操作系统中执行的。 Dlib 19.40用于人脸检测和地标检测。OpenCV实现了图像裁剪、灰度处理和大小调整等预处理。所有的神经网络都是基于Tensorflow(1.2.1)实现的。所有实验均在英特尔(R)Core(TM)i7-6700 3.40GHz CPU和GeForce GTX750 Ti上运行,GPU内置2.00GiB内存。每帧的人脸检测和预处理花费近0.04秒。DFSN-I的模型训练需要66.67小时进行十倍交叉验证,而DGFN仅用了1.6小时。

A 数据集

CK +数据集是CK数据集的扩展版本。在我们的实验中使用了CK + 中108个受试者的327个标记序列,每个标记序列都从中性变为情绪峰值。为了更好的显示性能,将327个序列分成10个独立于人的子集,用于十倍交叉验证。每次模型训练用9个子集,其余的用作测试集。在我们的工作中只考虑了6个表达(愤怒,惊讶,厌恶,快乐,恐惧和悲伤)。

Oulu-CASIA数据集包含了2880个序列的80名受试者在6种不同的背景设置。在这些序列中有六中情绪,所有的情绪也都从中性变化到情绪高峰。我们使用480个序列对模型进行评估,这些序列记录在正常的插图条件下(VL强)。它们也被升序分为十个独立于人的子集,以进行十倍交叉验证。

MMI数据集在预处理方面比CK +和Oulu-CASIA更具挑战性。MMI中的某些序列在同一序列中存在serval表达式时更复杂。一些序列以中性开始,并以中立结束。所以有很多不同的方式来做实验。在本文中,采用202个序列进行实验,将其处理成从中性变为峰值状态。对于CK +和Oulu-CASIA也采用同样的方法。

B 指标

我们模型中的预测标签是基于六维softmax层的预测置信度。以这种形式定义:y’= argmax(softmax)其中softmax∈R 6是输出层的矢量。 对于每个褶皱,在模型训练期间,测试褶皱用于在收敛时测试训练模型,第i褶皱的精度τi定义如下:

其中nicorrect是正确的模型预测数量,ni是第i褶皱的总序列数。 最后,数据集的平均精度为:

C 我们的模型比较

图8显示了三种模型的对比结果。正如在直方图中所显示的,DFSN-I在三个数据集中表现最好,其次是DFSN模型。尽管DGFN模型的精度最低,但三层神经网络的输入仅为78维,而DFSN-I是2048维。另一方面,DGFN的培训时间为1.6小时,这是DFSN-I时间成本的1/60。

与DGFN相比,DFSN在CK+、Oulu-CASIA和MMI上有很大的改进。除了该特性的输入之外,它们的分类层是相似的。改进表明,DFSN提取的特性比手工制作的特性要有效得多。

综合考虑这三种模型,结合这两种不同的特征提取方法可以提供更好的性能。对于手工制作特性,它包含了对特定任务的先验知识。另一方面,由卷积和池化自动提取的特征更抽象,很难手工设计。

与DGFN和DFSN的特性相比,结果也表明我们的LP思想在DFSN-I中扮演了重要角色。

D 与基于序列的模型的比较

在这一小节中,我们将近年来提出的基于serval序列的方法作为我们基于CK+包含327个序列和Oulu-CASIA包含480个序列的模型进行比较。如表1和表2所示,每个表包含两个块,其中第一个列出了它们发布的方法。第二部分列出了我们工作中提出的三种方法。为了公平比较,我们的实验中使用了CK+和Oulu-CASIA的相同数据集。

对于CK+(表1),最高精度是98.95%,比我们的DFSN-I高0.22%。他们的模型是基于深度网络的几何特征与局部二叉树(LBP)特征的融合
对于Oulu-CASIA(表2),DFSN和DFSN-I在基于视频的方法中都获得更高的精度。DFSN-I比2017年提出的基于深度进化时空网络的模型高出1.25%。78%的DGFN仅使用78维的几何特征,它比2014年提出的利用时空流形表达要高。我们的DFSN-I超过了9,后者使用几何特征与自动提取特性之间的微调,提高了6.04%。

  • 结论

本文提出了三种面部表情识别的模型。首先,我们考虑传统的机器学习技术,并尝试用不同的几何特征组合勾勒出AUs的特征。因此设计了具有78维微分几何特征的DGFN。然后,考虑到卷积和池化提取特征的优点,在我们的工作中提出了一种包含12层特征提取的模型DFSN。最后,将前两个特征提取方法结合起来设计了DFSN-I。

结果表明,与传统的DGFN算法相比,DFSN的自动提取功能更高效,改进效果显著。此外,与文献中基于视频的方法相比,我们的DFSN-I在CK+上取得了几乎最好的成绩。我们的DFSN和DFSN-I在Oulu-CASIA数据集上获得了最先进的技术。

猜你喜欢

转载自blog.csdn.net/weixin_42705683/article/details/82144686
今日推荐