《基于剪切波变换的人脸表情识别》笔记

【时间】2018.10.16

【题目】《基于剪切波变换的人脸表情识别》笔记

【论文链接】http://www.wanfangdata.com.cn/details/detail.do?_type=degree&id=Y2102266

概述

    本文是阅读论文《基于剪切波变换的人脸表情识别》后的一些笔记。

1 引言

1.1脸表情识别技术的系统框架

    人脸表情识别(Facial Expression Recognition,FER)的方法大致分为两类:基于静态图像的识别和基于图像序列或视频的识别。基于图像序列或视频的识别能够较好的提取面部的动态变化,而基于静态图像的研究多依赖于表情的峰值,很难精确地揭示表情的细微变化。但是,相比较而言基于静态图像的识别方法速度更快而且更为简单。无论哪种方法,基本的人脸表情识别系统都包括以下四个步骤:人脸的检测,图像规范化,特征提取和表情分类。图2.1显示了一个完整的人脸表情识别系统。

    人脸检测是整个人脸表情识别系统的第一步,这一环节实际上已成为一个独立的研究方向:接着,对图像或视频图像序列进行平滑、归一化、旋转及尺寸裁剪等图像规范化处理,其目的是减少光照、旋转和尺寸等对图像的干扰并对人脸达到精确的定位;第三步是从规范化的图像中提取能够表征输入表情本质的有效信息:最后,将提取到的的表情特征向量与训练数据相比,得到分类结果。本文的研究重点放在特征提取和识别方法方面。

1.2表情特征分析

  表情特征分析包括表情特征提取和表情特征表示。在图像处理或者计算机视觉领域,特征提取一般是指从图像或视频图像序列中提取有用数据或信息的过程,可以说是决定识别系统优劣的关键。表情特征提取的方法很多,图2.2给出了计算机视觉领域表情特征提取方法的不同流派。

  先根据面部特征是基于全局还是局部操作可分为基于几何特征的特征提取方法和基于整体的特征提取方法。无论是基于全局的还是局部的方法,表情特征提取方法还可以根据输数据是静态图像还是视频图像序列分为形变特征提取法和运动特征提取法。运动特征一般提取的是视频图像序列中帧之间面部细微的动态变化,主要有光流法its]和3D模型法嗣。形变特征提取的是静态图像中面部的一些形变信息,包括纹理形变和几何形变。而形变特征提取法中又可细分为基于几何特征的方法、基于表观特征的方法和基于2D模型的方法等。几何特征是使用脸部特定位置的点(例如眼角、嘴角等)问的位置关系来表达表情特征;外貌特征则泛指使用一定范围内所有像素的特征提取方式,可以直接使用图像的灰度值作为特征,也可以使用一组滤波器对图像进行滤波,利用所得的结果作为表情特征。基于二维模型的方法大多依赖于主动表观模型(Active Appearance Modd,AAM),AMY使用1 22个基准点和PCA方法生成一个面部形状变换的统计模型。总而言之,特征均以向量的形式表示并用于分类操作,称为特征向量。

1.3表情分类方法(分类器)

   表情分类是表情识别系统的最后环节,目前常用的是各种不同的机器学习算法有:

(1)高斯混合模型(Gaussian Mixture Model,GMM):高斯混合模型就是用概率密度函数(Probability Density.Function,PDF)来量化事物,将事物分解成若干个高斯概率密度函数形成的模型。

(2)K近邻分类器(k-nearest Neighbors,k.NN):对于一个输入向量Y,k-NN算法找到Y在训练数据集中最近的k个邻居(一般都使用欧几里德距离),根据这k个邻居的类别进行投票,确定Y相对应的类别。

(3)神经网络分类器(Neural Network,NN):不同于传统的贝叶斯分类等统计方法,神经网络方法不需要概率分布知识,通过训练样本就可以得到参数、权重和偏差。

(4)Fisher线性分类器(Fisher’s Linear Discriminant Analysis,FLDA):线性判别函数的基本思想是判别函数g(曲是X的线性函数。对于c类别的分类问题,判别函数可表示为,其中wi为投影向量,bi为常数。Fisher线性判别准则要求线性变换后的类间和类内散布矩阵的行列式值之比最大。

(5)支持向量机(SupportVectorMachine,SVM):其中心思想是通过非线性变换将原始数据的非线性问题转换为高维特征空间的线性问题,在高维特征空间中构造最优超平面实现分类。

(6)Adaboost分类器:Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。

(7)基于压缩感知的分类器:基于压缩感知的分类器,也称为稀疏表达分类器,该方法利用所有的训练样本对测试样本进行稀疏表示,并利用压缩感知理论进行此稀疏表示的求解,从而对测试样本分类。

1.4常用的人脸表情数据库介绍

本节将简要的介绍一些公开的表情数据库:

(1)JAFFE人脸表情数据库:该数据库是由日本ART建立的日本女性表情库,其中的图片采集于10名女性志愿者,每个志愿者都表现出7种表情(6种基本表情:高兴、悲伤、惊讶、生气、厌恶、恐惧,以及一种中性状态)。每人每种表情采集2--4张图片,共有213张图片,图像大小为256X256像素,256灰度级。图1.1是JAFFE人脸表情数据库中一个人对应的7种表情。

(2)Cohn.Kanade人脸数据库:该库由CMU基于动作单;元(Action Unit)编码建立,包含了210人的近2000余副灰度图像序列,每种表情均由一系列的动态图像构成,每幅图片大小为640X480或者640X490。

(3)CMU PIE人脸数据库:该库包含了50位男性18位女性共68个人的41368张样本图像,包含13种姿态变化,43种光照条件变化,和4种表情,即中性表情、微笑、眨眼、说话。

(4)ORL人脸数据库:该数据库是由英国剑桥大学Olivetti实验室所创建,采集了40个不同年龄、种族、性别的志愿者,每人10张图片共计400幅灰度图片,图片大小均为为92×112。

(5)Yale人脸表情数据斟:该数据库包括15个研究对象,每个研究对象包括3种光照,6种表情,戴眼镜和不带眼镜共11张,共有165幅样本图像。

(6)加拿大瑞尔森RML人脸表情数据库:该库采集了来自6个不同国家、不同文化背景的人在自然状态下的高兴、沮丧、生气、害怕、惊奇、厌恶和中性等人脸7种基本表情样本,共计450张人脸表情图片和500旬左右的语音信息。

(7)由吴丹等建立的大规模中国人脸表情视频数据岸,共采集了70位志愿者的共计1000段脸部表情视频,从三个不同的视角记录表情变化,是目前我国人脸表情识别研究领域较全面的基础资源数据库。

(8)东北大学的张庆凯等建立的一个小型的人脸表情视频数据库,从三个不同视角采集表情信息,记录了7个人的共计100段面部表情视频。

2 基于离散可分离剪切波变换的人脸表情特征提取

2.1  剪切波的定义及离散算法

      Shearlet【48】是一类新的多尺度几何分析方法,该方法通过对基本函数的缩放、剪切和平移等仿射变换来构造,体现了函数的几何和数学特性,如近几年来许多领域的研究学者所强调的函数的方向性、尺度和振荡等。Shearlet 可以和多分辨率分析关联起来,这样就可以获得像小波-样的迭代算法,并推广到经典的级联算法(49。因此Shearlet变换作为一种新型的多尺度几何分析工具为图像处理领域的研究人员所广泛接受。

 2.1.1  Shear let变换的定义和性质

   连续剪切波变换解决了波前集问题,其平移参数可检测到所有奇异点的位置,而剪切参数则可显示出奇异曲线的方向。

2.1.2.ShearIet变换的离散化

2.2离散可分离剪切波变换及其数值计算

2.2.1 离散可分离剪切波变换(DSST)

    Wang.Q Lim[481在2010年提出了离散可分离剪切波变换(Discrete Shearlet Transform,DSST).

    离散可分离剪切波变换(DSST)的计算方法可通过如下步骤表示:

2.3图像的剪切波分解

          离散剪切变换通过剪切矩阵将原始图像映射到不同的方向上。方向性的实现通常有两种方法:旋转和剪切。在某种意义上,旋转是一个非常方便的工具,它保留了重要的几何信息,如长度、角度和并行性。然而,这种方法不保留整数格,对于数字化有一定的困难。与此相反,剪切矩阵最不但能够提供方向性,当剪切参数k是整数时,还保留了整数格。图2.4显示了一副标准图像“zoneplate"(256X256)经过剪切变换后的结果,有L=6个方向。

     在图2.4中,上行为在水平锥cn内的三个方向,下行为在垂直锥cl内的三个方向。输入原始图像尺寸为256×256,由图可知剪切变换后各个方向分量尺寸仍为256×256。由图2.4可以看出,剪切波具有很强的方向敏感性。

    各向异性小波变换将图像分解为低频子带和高频子带。在各向异性小波变换中,沿水平和垂直方向的变换个数是不相等的,也就是说在同一尺度上,沿水平方向上的变换,l-和垂直方向上的变换%并不需要相等【49】。

  将剪切变换得到的各方向子带进行各向异性离散小波变换完成多分辨率分解,即实现剪切波变换。图2.6显示了标准图像“zoneplate’’经过三尺度6方向剪切波变换后的剪切波系数。

                 

2.4 ShearIet域的图像特征分析

2.4.1 图像在Shear Iet域的能量分布

     图像经过某种离散变换后的能量分布体现了图像的变换特征,从无失真压缩的角度考虑,变换的目的是希望图像经离散变换后能量尽可能的集中在少量的几个系数中,即具有能量聚集性,由此可得到较高的压缩比。图像经过Shearlet变换后,能量的分布会随着变换尺度n的变化呈现出一定的规律。本节通过仿真分析了图像在Shearlet域的能量分布。为了体现结论的普遍性,仿真图像选用标准“lena’’(512X512)灰度图像,如图(2.7)所示,并给出了其在Shearlet域能量峰值最分解尺度变化的曲线。图2.8(a)--2.8(e)给出了“lena’’图像在分解尺度n=l,3,5,7,9时的Shearlet系数的能量分布。

从图2.8(a)~(e)可以清楚的看出:对于的图像,对其进行11尺度二维离散Shearlet变换时,能量主要集中在的区

域内,即低频分量部分;随着分解尺度的增大,图像在Shearlet域的能量分布趋于二维坐标平面的原点。此对于的图像,Shearlet变换的系数为

,定义能量比p为:

  图2.9分别给出了“lena”图像的Shearlet域能量比值P随尺度变化的过程。由图2.9可以看出,随着分解尺度的增大,低频区域包含的总能量却在慢慢减少,尽管如此,在六尺度Shearlet分解时,Shearlet域的能量在此区域内的聚焦度依然达到了90%以上。由以上分析可知,图像的Shearlet变换具有良好的聚焦性。所以当我们利用Shearlct变换提取表情特征时,低频分量应该作为识别的重要特征。

2.4.2图像在ShearIet域的低频与高频特征

     

(1)由图2.10(a)~图2.14(a)可以看出,Shearlet变换后的低频分量主要体现了图像的轮廓信息。在表情识别中,体现的主要是表情的概貌。当分解尺度由小变大时,低频分量含有的信息越来越少,仅由低频部分重构的图像越来越模糊。当分解尺度较少时,相当于经历了截止频率较高的低通滤波器,高频成分浮现出来,还能清晰的看到图像的边缘,如图2.10(a)所示。分解尺度较大时,相当于截止频率较低的低通滤波器,如图2.14(a)所示。

(2)由图2.10(b)~图2.14(b)可以看出,由高频部分重构的图像可以很明显的观察到“lena"的边缘信息。图像的边缘和纹理信息主要包含在含有高频部分的信息中,随着分解尺度的增大,边缘和纹理信息越来越明显,而在表情识别中,人脸面部的边缘和纹理信息在识别过程中发挥着重要的作用。当对图像进行完全分解时,对应于截止频率非常低的高通滤波器,只有小部分低频分量被滤除出,仅由高频信息重构的图像接近原图像,如图2.14(b)所示。

(3)当分解尺度适中时,由低频和高频所重构的图像均既包含了原图像的轮廓信息,也包含了原图像的边缘信息,如图2.1l(a)和2.12(b)所示,这对于表情识别是非常重要的。

2.4.3图像在ShearIet域的各尺度高频特征

    高频部分主要体现了图像的边缘和纹理信息,那么对于刀尺度Shearlet变换来说,研究各尺度高频分量之间的有何区别,又有何相关的性质的有必要的。对图像进行完全分解,分别使用各尺度高频系数做二维离散Shearlet反变换,得到分别由各尺度高频Shearlet系数重构出的图像。

    选用“lena’’(512X512)图像进行仿真,在完全分解尺度,脚下的仿真结果如图2.15(a)~(i)所示,方向数目均为6。

   

     

  

    由图2.15(a)~(i)可以看出,随着尺度的逐渐增大,图像在Shearlct域的各尺度高频信息经过逆变换所得到的图像的边缘经历了一个由模糊到清晰再到模糊的过程,图2.15(b)~(d)重构边缘效果比较好,而且在图2.15(g)一(i)中,边缘信息越来越模糊。因此在本文的识别系统中,并不将表情图像的Shearlet系数全部用做特征,而考虑将低频分量与某一尺度体现边缘效果好的高频分量融合作为表情特征进行提取。

2.5 Shearlet域人脸表情图像特征提取

2.5.1 表情图像的预处理

    本文将采用形态学和几何规范学的方法对检测到的面部区域进行归一化处理,具体流程如图2.16所示。

  需要说明,可分离剪切波的数值计算要求图片的大小必须为,而待处理的图像大小不能满足此要求,因此必须对待处理的图像进行降维预处理。常用的降维方法包括主成分分析法,线性混合模型法和神经网络法等。本文采用最近邻插值法对图像进行降维处理.

    经过上述预处理后的图像如图2.17所示,每张图像的大小为64×64。

2.5.2Shearlet域人脸表情特征提取

在本文中将低频分量与某一尺度高频分量融合作为表情识别过程中所需要提取的特征,既压缩了数据量,又体现了表情的本质特征。

图2.18显示了一副人脸表情图像经过Sharlet分解后的结果,方向数目为6,尺度数目为3。

3基于DSST—SVM的人脸表情识别系统

3.1 系统描述

    Shearlet变换的低频系数集中了原始图像的大部分能量,反应表情的纹理信息,因此在进行表情特征提取时,低频分量应该被选取。同时,高频系数则反应表情的边缘、轮廓等细节信息,所以选取部分高频系数与低频系数进行特征融合,更能体现表情的本质特征,进一步提高识别率。本章提出的基于DSST-SVM的人脸表情识别系统框图如图3.1所示。系统算法描述如下:

(1)为减小运算量并满足DSST对输入图像大小的要求,先对原始图像进行预处理;

(2)对训练样本如进行玎(拧=l,2,3,4,5)尺度的剪切波变换,方向数目L=6。选取所有方向的低频分量砖作为表情特征。

(3)对测试样本以。,重复如上操作,根据实验结果选择识别率最好的尺度。

(4)在此尺度下分析各尺度高频分量碟的识别效果,选取识别率最高的高频分量。

(5)对训练样本k和测试样本如,将低频分量与识别效果最好的高频分量融合作为表情特征。

(6)最后采用“一对一"SVM分类机制进行分类识别。

4 基于DSST一可分性分析的人脸表情识别系统

4.1系统描述

   针对Shearlet变换中的尺度与方向选择问题,本章提出了基于DSST-可分性分析的人脸表情识别系统。在此系统中,通过Shearlet变换,提取各尺度各方向的高频分量,然后通过可分性分析来评价尺度和每个方向所提取特征在分类方面的优劣,以此来选择那些具有最大可分性的尺度和方向,最后利用SVM分类进行分类。本章提出的基于DSST-可分性分析的人脸表情识别系统框图如图4.1所示。系统算法描述如下:

(1)为减小运算量并满足DSST对输入图像大小的要求,先对原始图像进行预处理;

(2)对训练样本k进行5。尺度的剪切波变换,方向数目L-18。提取各尺度各方向的高频分量砝。

(3)利用可分性判决函数计算各尺度各方向高频分量的可分性指标,按照可分性指标确定剪切波变换的分解尺度及所提取高频分量的尺度。

(4)在确定的尺度上,将高频分量各方向的可分性指标从大到小排序,然后使用具有最佳可分性的前k个方向的低频部分与该尺度高频分量作为提取的表情特征

(5)对测试样本k提取同样的表情特征,最后采用“一对一’’SVM分类机制进行分类识别。

---------------------------------------------------------------------未完待续-------------------------------------------------------------------------

猜你喜欢

转载自blog.csdn.net/C_chuxin/article/details/83151513
今日推荐