基于FCBF特征选择和粒子群优化的模糊ARTMAP神经网络视听情感识别翻译

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/as472780551/article/details/85598093

Audio-visual emotion recognition using FCBF feature selection method and particle swarm optimization for fuzzy ARTMAP neural networks

基于FCBF特征选择和粒子群优化的模糊ARTMAP神经网络视听情感识别

摘要:人类使用面部、言语和身体手势等多种方式来表达自己的情感。因此,使情感计算机和人机交互(Hci)更自然地和友好的。最后,计算机应该能够利用语音和视觉信息来理解人类的感受。本文利用模糊ARTMAP神经网络从音视频信息中识别情感。 网络(FAMNN)音频和视觉系统融合在决策和特征级别。最后,利用粒子群优化算法确定了选择参数(α)的最优值、警戒参数(ρ)和学习率(β)。实验结果表明,特征级和决策级融合改善了单峰系统的性能PSO IMP 追踪识别率。采用粒子群优化的FAMNN进行特征级融合,对音频系统的识别率提高了57%左右,对音频系统的识别率提高了4.5%左右。 没有视觉系统。利用优化后的FAMNN,对Savee数据库的最终情感识别率达到98.25%。

关键词:视听情感识别;粒子群优化,模糊ARTMAP神经网络

FAMNN:模糊ARTMAP神经网络

数据集:Savee数据库

优化算法:粒子群优化算法。

FCBF:快速相关滤波器(FCBF)

1 介绍

与计算机相比,人类之间的交流更加自然。人机交互(HCI)系统的主要问题之一是隐式信息的传递.到 让HCI变得更加自然和友好,计算机必须像人类一样享受理解人类情感状态的能力

近年来,情感识别已经发现了许多应用,例如用于检测压力和疼痛的医学紧急领域[15],与机器人的交互[27,41],计算机游戏[26],以及开发。 平人机界面,帮助弱者和老人[36]。

有许多情态,如脸,身体姿态和言语,人们用来表达他们的感情。这些模式的组合取决于它们发生的地点和主体本身; 因此,有各种各样的组合模式[30]。心理学和语言学的一些研究证实了情感表现与特定的视听信号之间的关系[2,17]。 

Mehrabian[33]指出,在任何面对面的交流中,基本上都有三个要素。视觉通道中的面部表情和言语清晰度是最重要的情感线索。 (分别为55%和38%),词汇只占整体印象的7%。

有一些方法可以量化和测量情绪,例如离散类别和维度des。 归属[40]。在这项工作中,我们使用了基本的离散情感类别,包括快乐、恐惧、悲伤、愤怒、惊讶、中立和厌恶,这些都植根于日常生活的语言中。此法 Ekman[16]的跨文化研究特别支持了这一观点。现有的对情绪自动识别的研究大多集中在对这些基本情感的识别上。这些sev 情感状态是常见的,并已被用于大多数以前的作品[5,7,14,21,30,31,37,38,46]。我们的方法是通用的,可以扩展到更多的情绪状态。使用Univer Sal情绪模型,容易识别情绪状态[49]。

文献中采用的两种主要融合方法是特征级融合和决策级融合。本文的目的是通过结合情绪相关的i来模拟人类对情绪的感知。 来自面部表情和音频的信息。因此,我们使用不同的方法融合音频和面部表情信息。分类器类型对情绪识别率也有显著影响。 通常不同的分类器有人工神经网络(ANS)、支持向量机(SVMS)、决策树、最近邻(KNN)、高斯混合模型(GMMS)、隐马尔可夫模型(HMM)等。 和贝叶斯网络已经被用于情感识别。研究人员还提出了混合和多分类器方法[49]。这里,我们使用模糊自适应共振理论映射。 [9]作为分类器,采用粒子群优化算法(PSO)确定了选择参数(α)、警戒参数(ρ)和最优选择参数(ρ)的最优值。 模糊ARTMAP神经网络的学习速率(β)。

本文的其余内容如下:第二节回顾了近年来在这一领域的研究进展。第三节介绍了我们解决这一问题的方法。在本节中,我们首先讨论Abou。 在此工作中使用的Savee数据库,然后是如何提取音频和视频特征,以及特征约简和特征选择程序。另外,FAMNN也是自带的。 作为分类器,本文提出了粒子温优化方法来优化FAMNN,提高分类精度。第四节为实验结果。在第五节,研究了粒子群优化的FAMNN算法对情感识别性能的影响.最后,在第六节中得出结论。

2背景和相关工作

近年来,基于视听的情感识别方法引起了研究界的关注。在对Pantic和Rothkrantz的调查[39]中,只有四项研究的重点是 视听影响识别。此后,利用音像信息进行情感识别一直是众多研究的课题。关于影响识别方法的最新调查 音频、视觉和自发的表达属于曾等人。[49]。本文简要介绍了这一领域的一些主要工作。

De Silva和Pei chi[14]使用了一种基于规则的决策级别方法。 语音和视觉系统的融合。在语音中,提取基音作为特征,并将其应用于最近邻分类方法中。在视频中,他们用光流跟踪面部点, 并将隐马尔可夫模型(HMM)作为分类器进行训练。决策级融合提高了各个系统的融合效果。

宋等人[46]用三倍隐马尔可夫模型(THMM)模拟被试感知到的三个信号的联合动力学:(A)音高和能量作为语音特征;(B)眉毛运动,眼睑运动。 d,脸颊作为面部表情特征,c)嘴唇和下巴作为视觉语音信号。提出的THMM架构测试了七种基本情绪(惊讶、愤怒、喜悦、悲伤、厌恶、恐惧)。 ,其总体性能为85%。

Mansoorizadeh和Moghaddam Charkari[30]比较了语音和人脸信息的特征级和决策级融合。他们提出了一种改进t的异步特征级融合方法。 他是结合的结果。在语音分析中,他们使用了与能量和基音轮廓相关的特征。在人脸分析中,表示人脸区域几何特征的特征为u。 SED。多式联运结果表明,与个别系统相比有了改进。

Hoch等人[24]发展了一种双峰情感识别算法。他们将加权线性组合用于语音和面部表情系统的决策级融合。他们也应用 ED是一个包含840个音像样本的数据库,有7个扬声器和3种情感。他们的系统对3种情绪(积极、消极和中性)进行了分类,平均识别率为90.7%。通过使用fus 基于加权线性组合的离子模型与单峰情感识别相比,性能提高了近4%。

Paleari[38]提出了一种语义情感增强多媒体索引(Sammi),用于从非原型个体独立的面部表情和声乐韵律中提取实时情感评价。丁 用一种新的融合技术NNET对不同的概率融合方法进行了比较和评价。结果表明,nnet能使识别率提高19%左右,并能使Me提高19%左右。 与最佳单峰系统相比,平均精度约为30%。

Haq和Jackson[21]在Savee数据库中将特征和决策级融合用于音像特征。106语音级音频特征(基本频率、能量、持续时间和观众) 该系统使用了240种视觉特征(面部标记位置)。采用高斯分类器对不同层次的信息进行融合。他们使用主成分 分析(PCA)和线性判别分析(LDA)特征选择算法。运用主成分分析和LDA,情绪分类率分别为92.9%和97.5%。据报道,音频特征为50%和56%,视觉特征为91%和95.4%。

贝贾尼等人[5]研究了一种将语音特征(MFCC、音调、能量和Formants)和面部特征(基于itmi和qim)结合起来的多分类器视听系统,eNterface’05。多分类器系统的识别率比基于语音的系统提高了22.7%,比基于表情的系统提高了38%。

近年来,情感识别在更为通用的媒介传播中得到了广泛的应用。Lopez-de-Ipina等人。[28]确定新技术和生物标记物或用于耳的特征 阿尔茨海默病(AD)及其严重程度的Ly检测。基于情感温度和分形的自发语音情感反应自动分析(AAER)。 对试验和生物标志物进行验证,以供今后的诊断使用。AAER在AD的早期诊断中显示出非常有前途的特征定义结果。Harley等人[22]目前 ED一种新的测量和同步情绪数据的方法(自动面部表情识别、自我报告、电真皮活动)及其对LEE的一致性 的情感。他们发现面部识别和自我报告数据之间有很高的一致性(75.6%),但它们与电真皮激活之间的一致性很低,暗示。 一种紧密耦合的关系并不总是存在于情绪反应成分之间。Weisgerber等人[47]精神分裂症患者的面部、声乐情感识别能力测试 IC病人。戴等人[13]提出了一种在声乐社交媒体上进行情绪识别的计算方法,用以估计复杂情绪及其在三维衬垫中的动态变化。 在-唤醒-支配)空间。他们分析了情感在声乐社交网站微信上的传播特征。

近年来,研究者们致力于寻找可靠的信息特征,并结合强大的分类器来提高现实生活中情感识别率。 意见书[37,44]。因此,发展分类优化设计方法是一个非常活跃的研究领域。在此,我们提出了一种粒子群优化的fmn神经网络,提高了情感识别的效果。 S与音频、视觉和视听系统相比较。

很明显,情绪状态会影响一个人的音像特征。换句话说,音频和视觉功能保存了有关情绪状态的信息,这些情绪状态协同地影响着人们的情绪。 识别过程。音频和视觉信息的数据融合方法及序列处理(如特征约简、特征选择、分类和分类器优化)的应用 这是一种精心设计的研究方法。在本文中,我们对视听情感识别系统的各种融合方法进行了研究,并对结果进行了分析,最后提出了最合适的融合方法。 这类系统的原始融合方法。为了减少计算成本和使用最有效的特征,对音视频特征采用了特征约简和特征选择算法。

3 (从事某一活动的)一套方法

在情感识别系统中,通过不同的特征约简和选择方法以及分类器进行不同的音视频信息融合。在这个设置中,音频功能 (主频倒谱系数(Mfcc)、音高、能量和音高)和视觉特征(面部标记位置)被提取出来。采用PCA特征约简算法对特征进行约简。其次,将FCBF特征选择方法应用于约简特征。然后,FAMNN被用于音频的各种设置。 所有的情感识别系统。最后,利用粒子群算法对模糊神经网络进行了优化,提高了实验结果。

本工作的主要目的是量化音频和视觉系统的性能,识别这些系统设置的优缺点,并将所获得的设置与组合进行比较。 e提高系统绩效的这两种方式。

为了将视觉和音频信息结合起来,实现了两种不同的方法:特征级融合(使用一种模式特征的单一分类器)和决策级别(决策级别)。 融合,它为每个模态使用一个单独的分类器,并使用叠加泛化方法将输出组合在一起,其中集合的输出作为元-clas的特征向量。 筛子。我们使用FAMNN作为一个元辅助器来提高泛化性能。图1显示了拟议的识别系统的概述。

FAMNN 1显示音频情感识别的结果,FAMNN 2通过特征约简和选择阶段对视觉特征进行分类。视听功能也混合在一起 然后通过PCA和FCBF阶段,然后将所选的特征融合到FAMNN 3中。

将PCA-约简音视频特征混合在一起,然后将FCBF特征选择应用于混合音视频约简特征。所选择的特征在FAMNN 4中被用于情绪识别阶段。FAMNN 5使用了所选的音频和视觉特征,并对情绪状态进行了相应的分类。

FAMNN 1和FAMNN 2的输出作为FAM的特征向量。 NN 6.本实验是音频和视觉系统的决策级融合。在下面,将详细描述。

3.1 数据库

我们使用萨里视听表达情感(Savee)数据库(http://personal.ee.surrey.ac.uk/Personal/P.Jackson/SAVEE/Database.html)这是从四个本地人那里录下来的

英国萨里大学CVSSP的3D视觉实验室中,男性讲英语的人(年龄从27岁到31岁)脸上涂着60个标记。图2显示了放置在fo上的面部标记的一些示例。 你的主题有着不同的情感。

这些句子被记录在七种情绪状态:愤怒、厌恶、恐惧、快乐、中立、悲伤和惊讶。录音由15个音标组成。 每种情绪分别有3个常见的、2个特定的情绪和10个不同的泛型句子。在“中性e”中记录了3种常见的和2种情绪的句子。 在数据库中产生了30句中性情绪和480句语句。

在录音过程中,在演员面前的监视器上显示了情感和句子提示。3DMD动态人脸捕捉系统[1]提供彩色视频和Beyer动态麦克风信号 一年中不同时期的几个月。音频采样率为44.1kHz,视频采样率为60 fps。用一台彩色摄像机记录演员正面的二维视频。

3.2特征提取

3.2.1音频功能

现有的音频情感识别方法大多采用声学特征作为分类输入。流行的特征是韵律特征(例如,音高相关的特征和能量相关的特征)。 和光谱特征(例如,MFCC和倒谱特征)。因此,本工作采用音高、强度、MFCC和帧级的共振峰特征进行音频情感识别。由于 在相关著作[49]中,作者使用了这些特征。使用汉宁窗口函数,每10 ms分析一次语音信号的5 ms帧。 [6]谈普拉特语音处理软件[6]。由于在框架级别上有大量的特征,所以指定句子的特征的统计值被用于训练和测试。 S系统因此,使用Praat计算了音高的均值、标准差、最大和最小值以及能量。

此外,还使用PRAAT计算了MFCC。MFCC是语音识别领域中一种流行而有力的分析工具。在本工作中,我们将前12个系数作为有用的特性。计算了MFCC特征的均值、标准差、最大值和最小值,共得到48个MFCC特征。

                                         图2  萨维数据库中存在不同情绪的面部标记:KL(愤怒)、JK(快乐)、JE(悲伤)和DC(中性)。 

共振峰频率是声道系统的特性。本文利用Praat计算了前三个共振峰频率及其带宽。平均标准差 计算了共振峰特征的极大值和最小值,共得到24个共振峰特征。总共从语音信号中提取了80个特征,并将其用于情感识别。 cognition认识,认知。

3.2.2视觉特征

视觉特征是通过在演员的脸上画60个正面标记来创造的。这些标记画在额头、眉毛、低垂的眼睛、脸颊、嘴唇和下巴上。数据捕获后,标记符w 对序列的第一帧手动标记,并使用标记跟踪器跟踪其余帧。对跟踪标记的x和y坐标进行了归一化处理。每个标记的平均离散度 从鼻梁上减去。最后,从2D标记坐标中得到480个视觉特征,包括均值、标准差、最大值和最小值。 调整后的标记坐标。

在以往的工作[7,20,21,27]中,面部标记被用于面部表情识别。这些特性的出色表现 人脸表情识别和关注其他任务(分类、优化和融合),我们使用它们。在实际应用中,人脸点的自动检测和提取技术。 例如,主动外观模型(AAM)已经被使用[12]。还有一些软件,如LucandFaceSDK[29],提供了面部特征点的坐标。它允许跟踪和识别人脸。 在现场录像里。

3.3特征约简

用于降维和构造较小的特征空间,采用统计方法最大限度地保留了相关信息。这可以通过应用程序来完成。 G是线性变换,y=Tx,其中y是约简特征空间中的特征向量,x是原始特征向量,T是变换矩阵。PCA[45]被广泛用于提取ES。 高维数据集的特征和丢弃噪声。PCA包括特征中心化、白化、协方差计算和特征分解。我们应用PCA作为线性反式。 特征约简的形成技术。

3.4特征选择

本研究采用快速相关滤波(FCBF)[18]方法进行特征选择.该方法选择了两个弱相关的特征,这些特征分别是信息丰富的和两个弱相关的。据指出,两个向量X和Y,I(X,Y)的相互信息(MI)以下列方式计算它们的统计依赖性:

在FCBF方法中,Y是数据标签的向量,XI是所有数据的ith特征值的向量。也就是说,当特征数为N时,存在N1向量.FCBF选择特性i n两步:

 3.5 分类

本研究采用FAMNN作为情感分类器。Carpenter等人介绍了自适应共振理论(ART)的理论基础。[9]网络有结构 针对二进制或模拟输入向量的随机顺序,设计了增量监督学习识别类别和多维映射。它得到了模糊逻辑和模糊逻辑的综合。 利用模糊方法的计算与艺术范畴的选择、共振和学习之间的形式相似的d ART神经网络。

 FAMNN已成功地应用于遥感、数据挖掘和模式识别等多项任务中。FAMNN在ARTMAP家族成员中被认为是快速的,因为Chea。 p输入和输出之间的映射。F

AMNN网络有两个模糊ART网络,Arta和ARTB,通过一个联想记忆模块(图3)通过一个帧间连接(图3)。跨艺术模块c 通过匹配跟踪和自我调节机制,使网络误差最小化,泛化最大化。

模糊神经网络的性能受到三个网络参数的影响:

1-选择参数α(α>0),它作用于类别选择。

2-基线警戒参数ρ(ρa、ρb和ρab)(ρa) 控制网络共振的∈[0,1]。警戒参数负责形成类别的数量。

3-控制网络适应速度的学习速率(β∈[0,1])。 离子。表1显示了本工作中模拟FAMNN的规格。

3.6 最佳化,最优化

如前所述,采用粒子群算法确定了FAMNN参数的最优值。粒子群算法于1995年由Kennedy和Eberhart首次提出[25]。该算法是一种进化技术。 它的灵感来源于鸟群或鱼群的社会行为,并模拟了群中粒子的性质。图4显示了本质上这些模式的示例。粒子群算法 算法提供了一种基于种群的搜索过程,在该过程中,个体,称为粒子,随时间改变其位置(状态)。在PSO系统中,粒子在多维搜索器周围飞行。 h空间。在飞行过程中,每个粒子根据自己的经验和邻近的粒子来调整自己的位置,利用自己和它的邻居所遇到的最佳位置。在这里 算法,每个粒子都有一个速度和一个位置如下[25]: 

PSO算法类似于进化计算(EC)技术,如遗传算法(GA)。这些技术是基于群体的随机优化技术,并利用了一种适应度。 用于评估人口的函数。他们都更新人口和寻找最优的随机技术。与EC和GA技术不同的是,粒子群算法没有诸如交叉sov这样的遗传算子。 呃和突变。粒子随着内部速度的变化而更新。另外,粒子群算法中的信息共享机制与其他EC算法相比也有很大的不同。在EC中 染色体彼此共享信息,因此,整个种群就像一个群体向一个最优区域移动。但是,在PSO中,只有best^粒子发出向他人提供信息。粒子群算法是一种非常有效的求解实际值全局优化问题的算法,适合于大规模的研究。图5显示了PSO对一个部分的更新 从x(K)到x(K1)。

4 实验

在Savee视听情感数据库上对视听情感识别系统进行了测试.所有的实验都是与人无关的。我们用了大约80%的数据来训练这个班。 和其余的20%来测试它们。情感识别通过单峰音频、单峰视觉、决策级、特征级融合进行。

图6不同系统的情感识别精度。每一组相邻列表示单个类的分类精度。第一组包含平均识别大鼠。 e.垂直轴的识别正确率为:音频、视觉、fl(特征级融合)、fl-fr(特征降阶后特征级融合)、ff-fs(特征级特征后融合)、决策级融合。类标签是由前三个字母缩写而成的。

4.1音频实验

在这些实验中,80个音频特征被应用到PCA中进行特征约简;20个约简特征在下一阶段应用于FCBF特征选择,12个特征被用于FCBF特征选择。 被选中,利用FAMNN对七种情绪状态进行了分类实验。图1使用FAMNN 1演示了这个设置。该分类器的总体性能为53%。

为了显示我们的音频识别系统的良好性能,我们用eNterface05数据库[32]对其进行了测试。系统总体性能为63.1%。结果比我们以前的结果要好。 Ork(55%)[5]。这表明了我们的音频情感识别方法的良好性能。

4.2视觉实验

在这些实验中,480个人脸特征被用于主成分分析以进行特征约简;30个约简特征用于下一阶段的FCBF特征选择,6个特征被用于下一阶段的特征选择。 S被选中。利用FAMNN对七种情绪状态进行了分类实验。图1使用FAMNN 2显示此设置。该分类器的总体性能为93.75%。 在某些状态下(如快乐、中性和悲伤)的识别准确率为100%。不幸的是,Savee数据库是唯一使用面部标记的免费公共数据库。所以我们不能 评估我们的视觉系统的性能。

猜你喜欢

转载自blog.csdn.net/as472780551/article/details/85598093