Recurrent Neural Networks for Emotion Recognition in Video

看这篇文章主要是看它如何融合多重特征,如CNN提取特征、声音特征、时序特征融合一起来识别视频中人脸表情。

Introduction:

在表情类别之间大部分时候有很多重叠,使得识别表情很困难。在这篇论文中提出了建模不同特征并结合到一起来推断表情类别。使用AFEW5.0 dataset ,包含723个训练视频、383验证视频和539测试样本。构建了一个CNN-RNN来对视频中表情的时空变化建模,并且使用基于动作识别的自动编码器来表征人体活动,SVM用来分类。

CNN-RNN,CNN提取底层特征,RNN聚合帧特征生成高层特征:

用两个其他的静态表情图像集训练好的CNN来提供表情特征,数据集为TorontoFace Database (TFD)  with 4,178 images and the Facial Expression Recognition dataset (FER2013)  containing 35,887 images,用直方图均衡化来降低光照条件的影响。

CNN结构使用了三种,+ 数据增强(0.5概率的水平翻转 + 随机剪切 + dropout=0.25):

1.深层结构,3x3卷积核:容易过拟合

2.三层结构,5x5卷积核,卷积层大小分别为64-64-128

3.三层结构,9x9卷积核,卷积层大小分别为32-32-64

RNN通过将来自CNN的每个帧的特征顺序地馈送到网络,使用softmax输出作为类预测来训练视频。 使用Stochastic Gradient Descent(SGD),学习率为0:005,梯度削波为1:0,批量为64个序列。 通过使用CNN的不同层作为输入特征进行了实验,并在最大池化后选择了第二个卷积层的输出,这在验证集上表现最佳。

聚合CNN特征:

k均值聚合:将k均值与SVM一起用于分类,将每帧CNN特征平均为二进制位以生成大小为k的固定长度矢量作为视频representation。我们选择k = 15。并且我们使用CNN的pre-softmax输出作为每帧特征。 对于具有小于k的帧数的视频,帧被局部重复直到序列长度为k。 视频的矢量表示与相应的表情标签一起用于训练RBF核的SVM。 通过网格搜索设置SVM的超参数。 如表1所示,RNN的验证准确率为39.6%,显着高于聚合的CNN。 对每帧概率的简单平均得出的验证准确度仅为23.7%。

                                            表1为每个单独的方法用于表情识别的准确率

                             

                                                 

视频特征 + 声音特征 聚合:

特征层聚合:

                                       

CNN提取的低层特征+声音特征+RNN时序特征融合到一个多层感知器中,每种特征都有独立的隐藏层,如图3所示。这些层的输出被连接并馈送到另一个隐藏层,其后是softmax层,其单位数等于情绪类的数量。这里没有融合Activity这一特征,防止过拟合。融合后在验证集上实现了43.7%的准确率。

决策层聚合(分类结果融合):

将三种特征的分类结果加权融合为最终分类结果,在验证集上迭代搜索找到最佳权重。

对于决策级融合,即分类器的组合,我们使用由三种特征的特定分类器和融合网络估计的类概率的加权和。组合分类器每类具有每种特征的一个权重,并且每个类的结果分数是相应类的所有概率的加权和。组合权重由随机搜索确定,其也用于2013年EmotiW挑战的获胜方法中的模型组合。权重从[0:0; 1:0]然后按类重新缩放,使它们总和为1.然后根据验证性能选择最佳采样权重。请注意,除非另有说明,否则我们始终将数据集分区用于未用于模型训练的随机搜索,即对于在训练集上训练的模型,我们对验证集执行随机搜索,反之亦然。在进行100,000次迭代的初始随机搜索之后,我们围绕到目前为止找到的最佳权重集执行本地随机搜索。该局部随机搜索包括来自高斯的采样权重,其中均值设置为当前最佳权重集,标准偏差σ为0:5。一旦找到新的最佳状态,当前最佳~w就会更新。在每100,000次迭代之后,σ减小因子0:9并且当σ小于0:0001时停止局部搜索。我们还从[~w - r进行了统一的局部搜索; w~ + r],其中~w是当前最佳权重集,r是搜索范围,但它大致达到了相同的性能。我们明确地尝试了模态和融合子集的所有组合。始终如一地,我们发现决策级别融合受益于包括所有模型。

猜你喜欢

转载自blog.csdn.net/zichen7055/article/details/81122417
今日推荐