Facial Expressions Recognition Based on Cognition and Mapped Binary Patterns

Facial Expressions Recognition Based on Cognition and Mapped Binary Patterns

基于认知和映射二值模式的面部表情识别

摘要:

本文提出了一种基于认知和映射二进制模式的表情识别方法。首先,该方法是基于LBP算子来提取面部轮廓。其次,建立伪三维模型,将面部区域划分为六个面部表情子区域。在此背景下,子区域和全局面部表情图像使用映射的LBP方法进行特征提取,然后使用支持向量机和softmax两种分类方法,两种情绪分类模型分别是基本情绪模型和环状情绪模型。最后,我们对Cohn-Kanade(CK +)面部表情数据集和从十名志愿者中收集的测试数据集进行了对比实验。实验结果表明,该方法可以有效去除图像中的混杂因素。采用环形情绪模型的结果明显优于传统情绪模型。通过参考对人类认知的相关研究,我们验证了眼睛和嘴巴表达更多的情感。

索引术语:面部表情识别 局部二元模式 人类认知 情绪模型 机器学习

  • 介绍

传统的电子智能教学存在着师生之间关于教学反馈的互动只能通过语音信息来传递的缺点。基于面部表情的情感计算可以解决传统电子教学的不足。

面部表情识别(FER)系统包括人脸检测、人脸特征提取和表情分类。美国心理学家Ekman和Friesen定义了6种基本的人类面部表情,如快乐、愤怒、惊讶、厌恶等等。他们还开发了基于动作单元(AUs)的面部动作编码系统(FACS)来描述面部表情。近年来,许多面部表情识别的方法被提出,如主成分分析(PCA)、线性判别分析(LDA)、弹性图匹配(EBGM)、独立分量分析(ICA)、二维主成分分析(2D-PCA)、人工神经网络、嵌入式隐马尔可夫模型(EHMM)、Gabor小波等。

虽然这些算法提高了面部表情自动识别准确性和速度,它们也受到光线,姿势,老化,对齐等变化的影响。在面部表情识别过程中,从面部图像中提取的面部表情特征是面部表情的高度抽象表达。主要有两种方法:整体模板匹配系统和基于几何特征的系统。在整个系统中,模板可以是像素或向量。在几何特征系统中,广泛采用主成分分析和多层神经网络来获取人脸的低维表示,并检测图像中的主要特征点和主要部分。一方面,基于特征的方法比基于模板的方法在计算上更大,但是对尺度,大小,头部方向和面部位置不敏感。另一方面,大量的生理和心理研究表明,预注意阶段的人类视觉系统可以检测并处理弹出的特征区域。场景中的这些特征区域与大部分背景区域不同,使视觉细胞更加刺激。然而,现有的方法主要是基于人脸特征点定位的特征提取。为了验证和比较相关的人类认知学科的研究结果。我们使用特征域方法。

在本文中,我们提出了一种基于认知特征区域和多维尺度的方法来减少维度,并比较不同面部区域的面部表情的准确性,从而帮助我们在遮挡条件下实现和提高表情识别的准确性。重要的是,我们验证了眼睛和嘴巴区域能够表达更多的情绪,我们证明了环形情感模型在定义情感时更加准确。

  • 相关工作

随着数据库采集设备和采集技术的发展,采集到的图像像素越来越高,同时图像所能表达的信息也越来越精细。人类面部表情图片可以解释并表达一种更为微妙的心理状态。人类的面部表情图像能够通过分析一系列情绪图像或视频来检测人类的情绪。由于图像或视频中包含的信息量太大,一般的方法是从静态面部表情图像或动态面部表情视频中提取最重要的信息,并在不丢失最重要的信息的情况下减少图像维数。这意味着图像的特征被提取出来。近年来,通过整合情感计算、计算机视觉和机器学习内容,自动表情识别已成为人工智能领域的一个流行方向。然而,以往的工作大多是基于实验室控制条件下的实验,忽略了实验对象的个体差异和对实验结果的影响。一般来说,自动表情识别可以分为两类:一类是基于传统的特征分类方法,包括选择不同特征并匹配不同的分类算法。另一类是基于深度学习方法,重点是如何构建和训练不同的神经网络模型。对于前者,大多数方法可以分为三种类型:主成分分析(PCA)、局部二进制模式(LBP)和Gabor小波。经过几十年的发展,面部表情自动识别已经被总结为一个完整的系统。在面部表情识别中,研究人员希望提取的面部特征信息尽可能完整,因此图像需要在特征提取之前进行预处理,通过预处理和归一化去除复杂的背景。目标检测技术可以很好地解决去除原始图像复杂背景的问题,通常依靠基于分类的训练来处理类内变量。当目标检测技术的正样本或待检测目标样本是人脸,可以很好地解决复杂背景的问题。 Ou提出了一种基于结构化稀疏表示的鲁棒人脸识别分类方法。当人脸被遮挡或照明变化时,这种方法的识别效果优于面部稀疏表示人脸识别方法。由于图像捕获的方式不同,图像的格式和大小也会有所不同。为了便于后续的特征提取和图像分类,通常需要对原始图像进行归一化处理。归一化包括灰度归一化和几何归一化或位置校准。前者主要解决光线不均匀导致的灰度差异较大的问题。后者主要用于解决由于成像距离或面部姿势的变化引起的人脸尺度变化和人脸旋转问题,改变了大小差异和倾斜角度。

人脸特征提取是人脸表情自动识别的重要组成部分。虽然在一些深度学习模型中提出的网络结构可以自学习特性,但超参数的初始化和调整过分依赖于技巧策略。许多优秀的特征提取方法可以去除与面部表情的光、背景、噪声等干扰信息,同时保留面部表情的最基本特征。它可以减少图像的尺寸,并选择合适的数据结构,从而实现正确分类的目的。特征提取可以分为基于几何特征的提取方法和基于外观的提取方法。其中,几何特征提取方法需要与人脸特征点检测技术相结合。特征点检测技术可以准确地标记每个器官特征点的的面部,但这种方法可能忽略了面部纹理的变化。基于外观的方法能够提取面部图像中的像素级的基础信息通过特定的操作,并且可以对局部纹理变化敏感。 LBP运算符计算图像中每个像素与其局部邻域像素之间的灰度顺序关系,然后对二进制序列进行编码,形成局部二进制模式。 LBP纹理特征图如图1所示。最后,利用绘制出各种非重叠块的多区域直方图作为图像的特征描述。

由于LBP在灰度和旋转上的不变性等方面具有许多显著优势,因此它被广泛应用在研究工作[13]。尽管LBP在图像纹理特征提取方面取得了良好的进展,但噪声的干扰也影响了图像分类的准确性。进行纹理分析不仅对噪音干扰具有鲁棒性,而且是许多方法研究的方向。然而,许多现有方法使用LBP纹理特征,忽略了其固有规律的复杂性,没有反映出局部面部特征与不同面部表情之间的关联。

  • 方法

在本节中,将介绍工作的各个部分。首先,我们通过寻求基于局部二值模式(LBP)的最大岛法提取面部轮廓,通过建立伪3D模型来分割面部区域,使图像的灰度值为z轴。 此外,我们使用多维尺度(MDS)和地球移动距离近似(EMD)来减少数据的维度。 再次,我们使用降维特征图像训练卷积神经网络模型预测表达式,并选择不同的特征区域或组合作为参考,找出最佳的区域或组合,并与认知神经学的结论进行比较。最后,对传统的基本情感模式和维度空间模型进行了比较实验。

  1. 面部轮廓提取和特征区域划分

在面部表情识别的相关工作中,输入图像后的第一步是人脸检测,即找到面部的具体位置。在图像中,复杂背景通常会影响算法的准确性。因此,在基于特征区域的表情自动识别中,人脸轮廓区域的提取尤为重要。 LBP算子是描述局部区域纹理变化的有效算子,可以从灰度图像的局部区域提取纹理信息,已被应用于纹理分类、图像检索、人脸识别等领域和应用。由于其对光线变化和灰度变化的鲁棒性,我们使用4邻域LBP来描述图像,选择图像中的一个像素为中心,将周围的像素与中心像素的灰度值作为阈值进行二值化。实验表明,由LBP提取的脸部的轮廓是常规的,特殊的,即前额区域边缘LBP码为(1,0,0,1)在左侧和(1,1,0,0)在右边,但在从颧骨到下巴的部分,LBP码在左边是(0,0,1,1),在右边是(0,1,1,0)。通过搜索四个LBP码最大的岛屿并增加岛屿数量直到它们的曼哈顿距离S总和不能增长,四个面部区域的凸包实际上就是我们想要提取的面部轮廓区域。

删除复杂背景并提取面部轮廓后,下一步是划分面部区域。现有的基于LBP算法的面部区域划分方法是基于相同大小的网格窗口情况划分面部区域。但是,在实验过程中,我们发现这些斑块是机械分割的,面部区域的一些特征不是一对一的良好对应。而在输入的脸部图片中,由于倾斜或移动头部的角度较小,人脸的大小和角度都会有一个变化。用固定大小的patch来分割图像,已经明确证明了这种方法不能反映个体之间的差异。认知心理学研究表明,人类在情感认知过程中,对各个面部区域的关注是不一样的,特别是眼睛和嘴巴的关注程度较高。

因此,基于人类认知的相关知识,通过建立伪3d模型,我们的方法将人脸划分为六个区域。具体划分如下:我们把伪3D模型表面与xy平面平行的平面上从两个方向获得凸面,我们减少了从上到下的鼻子、额头和脸颊区域,在相反的方向,我们得到了眼睛和嘴巴的一部分。在切割过程中,由于人脸伪3d模型与半球相似,所以很明显相应区域的闭合曲线为沿z轴负方向,在闭合曲线的质心不会发生剧烈变化之前,我们可以通过移动平行平面来提取面部特征。图2-3中象征性地展示了这一部分。我们把人脸分成了六个区域,反映了人脸的共性和特征。六个区域是:额头,眼睛,鼻子,嘴巴,左脸颊和右脸颊。

  1. 降低LBP码尺寸

尽管LBP算子对单调灰度变化和计算效率有很强的鲁棒性,但是有一些限制。例如,它对噪声敏感,只考虑中心像素和邻域像素之间的符号特征差异。同时也不考虑差值的幅度。因此,它不可避免的丢失了一些信息。

一方面,除了上述问题外,如果将基于二进制模式的统计直方图以传统的方法作为图像的特征向量,在半径为R的圆形邻域内具有P个采样点的LBP算子将产生2p模式。由于模式的数量随着采样点的数量而增加,太多的模式不利于识别和访问纹理。另一方面,如果我们希望直接处理LBP代码,这意味着我们必须减少LBP代码的尺寸。在高维空间中,我们可以使用某种数学变换方法将原来的高维空间转换为低维空间。这样当数据密度提高时,距离的计算也更方便更容易学习,低维子空间的分布或嵌入与学习任务更密切相关。等距映射是流形学习中的一种经典算法,它的主要思想是MDS,以至于样本在原始空间中的距离可以保持在低维空间中。该方法不仅对样品之间的线性关系进行了消解,而且保留了样品固有的几何性质。

将高维数据映射到低维空间有很多方法,但是考虑到LBP码实际上是无序的,我们使用MDS来减少LBP码的维数。MDS的主要思想是配对样本之间的相似性,以对样本的相似性构建合适的低维空间,在低维空间中样本的距离与在高空间中的距离尽可能一致。目标函数是每一对低维空间中的欧式距离与高维空间相似度之间的平行距离之和。但是,在经典的MDS中,规范是欧式距离,也就是说,当相似距离是欧式距离时,经典的MDS方法的数据减少维度在本质上和PCA方法相同。但广义而言,这个规范可以是任意函数。如果我们使用欧几里得距离,那么在二元LBP空间中,我们会做平移,旋转和翻转。点之间的距离是一样的,这意味着丢失了一些重要信息。因此,我们使用另一种距离测量方法来解决这个问题。

为了科学的测量码间的距离和差值,本文定义LBP码值之间的完全不同矩阵为:

其中δij是LBP码间距离,MDS算法的目的是在(三角形)基础上寻求代码到低维度量空间的映射。我们将三维空间中的码值表示为Z,

在低维空间中任意两个LBP码之间的距离等于原始空间中的距离,其中B为降维后码的内积矩阵,每行和每列的和为零。

因此我们可以使用完全不同的矩阵来得到内积矩阵B:

对矩阵B进行特征分解后,得到了由特征值组成的对角矩阵和特征向量矩阵,最后,给出了上述两个矩阵的结果。

在选择距离时,我们使用地球移动者距离(EMD)。EMD是对一个区域上的两个概率分布之间距离的度量。这里,两个LBP码之间的EMD定义为:

实际上f kl ∈ {0,1}测量的是转换LBP码由在P(P k )中的k比特转换为在Q(Q l )中的l比特的数量,{f kl }是完成从P到Q这些任务的工作量总和。两个位置的地面距离可以被视为工作负载。在实验中,考虑到EMD不方便,我们没有实际计算EMD,而是使用了它的近似:

降维后的图像如图4,我们将降维数据作为现有卷积神经网络的输入,进行表达式分类。

  1. 面部表情分类模型

在以往的表情识别实验中,人类的表情被认为是离散和可分离的。根据维度空间理论,情绪是连续和相关的。所以我们使用了一种复杂的情感分类模式,这是一种由Russell and James提出的维度空间模型。他认为情绪可以分为两个维度:快乐和活跃。快乐分为愉快和不愉快,活跃分为中等强度和高强度。所以它可以被分为四种类型:愉快的高强度是快乐的,愉快的中等强度是好的,不愉快的中等强度是无聊的,不愉快的高强度是恐惧。该分类在中国等不同国家和地区取得了成功和一致的研究成果。这种情绪模型解决了“中性”表情和其他复杂表情的分类问题。面部表情由维度空间理论表示,如图5所示:

  • 实验和结果

面部表情识别可分为特征提取和面部表情分类两个步骤。其中,面部表情特征提取可分为特征训练和特征测试。在这个实验中,我们从每个面部表情取150张图像,并使用CK+数据集作为实验数据集。首先,我们把这个数据集分为两个部分,50张图像作为测试集,其他作为训练集。在面部表情部分,我们使用映射的LBP方法,另一方面,为了减少图像特征的维数,然后使用面部表情的卷积神经网络分类。另一方面,我们使用了两个分类器:支持向量机(SVM)和softmax进行分类和识别。在实验中,首先要对图像进行预处理,CK表情库是由一系列从表情开始到成熟表情的动作图像组成。为了得到更精确的结果,仅选择前向、无遮挡、无大晃动的面部图像。我们从10名志愿者那里收集的图像也应该进行预处理。图6是预处理后的面部表情图像,剔除了头发、耳朵、背景等无关信息。目的是使后续工作更有针对性。仅保留面部特征,排除不必要的干扰。在测试集上分别使用两个分类器SVM和softmax对结果进行总结,具体针对每个类(见图7)。在图7中,我们可以看到softmax的性能优于SVM。并与现有的HMM方法和PCA方法进行了比较。在实验中,我们使用三种LBP表示对结果进行平均,因为不同LBP表示在识别精度上没有太大的差异和影响。实验结果表明,该方法更能准确的测量和表示LBP编码之间的距离。该方法能够使特征更明显,数据维度更小。该方法能够消除光和噪声的双重干扰。此外,该方法使计算更加方便。根据 Shokoohi等人的工作,如果能够准确的识别眼睛和嘴部的动作,就会提高表达的识别率。所以我们用第三节中提到的划分方法把脸分成六个区域。与单块法和多层块法相比,我们的方法更加合理,避免了将整个器官分割成小块的不合理性。我们的方法还解决了小块法忽略局部表达式信息的问题。然后,为了讨论局部区域和面部特征的对应关系,我们选择了不同的表情区域进行实验。在只保留眼睛和嘴部,覆盖其他区域的情况下,具体的识别情况如下表1所示。结果表明,眼睛和嘴巴比其他部位更能辨识表情,尤其是在愤怒和厌恶方面。如表2所示,它详细描述了添加左脸颊区域后每个面部表情的分类数量。同样的,表3显示了前额区域与脸颊区域在表达情绪上的不同。这一结果也支持了人类在认知神经学中主要通过眼睛和嘴巴来识别表情的结论。

最后,我们在从志愿者身上收集的实验数据中,基于传统的基本表情模型和复杂情绪模型进行了对比测试。我们使用P 1 ,P 2 ,P 3 ,P 4和P 5 代表快乐的五个范围,p1表示非常不愉快,p5表示非常愉快。同样, I 1 ,I 2 ,I 3 ,I 4和I 5被用来表示活跃的五个间隔,l1表示非常不活跃,l5表示非常活跃。根据Shi等人的研究,愉快感和活跃强度有明显的正相关。将复杂表情模型应用于面部表情识别中。在传统的基本情绪模型的基础上,对根据传统基本情绪模型进行分类的过程和结果进行了清晰的讨论。本节从复杂情感模型的角度介绍了实验过程和实验结果,并与基本情感模型进行了比较。我们发现,在处理一些无法描述和表达的表情时,环状情绪模型表现的很好。这部分的表情不在七种离散表情中,而志愿者说这些是由各种情绪组成的复杂结果。由于我们收集的表情数据量很小,所以SVM和softmax之间的性能差异不大。实验的准确性如图8所示。

五、结论

在本文中,我们提出了一个模型,主要改进了目前的工作,发现局部面部特征和表情是相关的。我们在认知神经学理论的基础上对面部区域进行划分,以识别和比较该理论。由于遮挡等复杂条件的存在,有利于未来的表情识别。我们使用LBP码来描述图像,并考虑了无法在欧式距离直接测量的二进制空间中图像分布点之间的距离。最后,对基于维度空间理论的基本情感分类模型和复杂情感模型进行了讨论和对比。而复杂情感模型的识别准确率更高,这将有助于我们下一步在复杂表情和微表情识别方面的进展。

 

猜你喜欢

转载自blog.csdn.net/weixin_42705683/article/details/82192012