《动态表情的时空流形上的表示基expressionlet学习》学习总结

         用了将近十天的时间,认认真真的学习了读研以来的第一篇英文文献----《Learning Expressionlets on Spatio-Temporal Manifold for Dynamic Facial  Expression Recognition 》,下面将我的学习心得写下来。

     人的面部表情是一个动态过程,在不同的时间和不同的区域上会有不同的肌肉动作。动态识别不许考虑两个关键问题,时间对齐和语义识别的动态表示。(语义特征是指利用图像的信息特别是高级信息,为研究图像听过一种描述图像方式的名词。语义特征是一个多维向量,每个维度可以表示一种表情。因此语义特征既能描述出该图片这几种基本表情上 的比重,又能反映着几种表情各自的强度。)这篇文章通过一种新型的中层表示expressionlet来解决这两个问题。主要包括三个方面:1、从视频的密集的低层特征中得到时空模型(spatiotemporal manifold (STM));2、在所有低层特征上学习得到广义流形模型UMM,将其作为一个局部时空模型的集合的统计量,来归一所有的STM;3、通过拟合UMM可以实例化每一STM的局部模型,通过对每个局部时空模型变量进行建模建立起相应的Expressionlet。由此,表情视频就能自然的在时间和空间上对齐。为增强判别力,每个基于expressionlet的STM表示将会用判别嵌入进一步处理。实验是在四中人脸表情数据库中进行,CK+, MMI,Oulu-CASIA, and AFEW.下面主要介绍这种expressionlet的构建过程,实验部分会简单提及。

        


        本文的中心思想都凝缩在上面图片和算法上,下面将对每一步简要介绍。

        1、时空流形STM

        提出STM用于对视频辑建模。STM是从视频辑中采样得到的3D块张成的,包含时空的局部变量。使用滤波器提取块的低层特征。

        在训练视频中使用K均值聚类方法。聚类中心用来形成滤波器应用在时空块中。为了获得转换的不变表示,使用3D卷积。提取得到的特征记为axyt, where x, y, t 是在STM上的时空块的指数或者坐标。


        2、UMM--STM的统计模型

        UMM是一个统计模型,如果将UMM学习完成的话,任意给一个视频辑,便能通过与UMM 的拟合,分析出视频的特征。UMM是通过混合高斯模型GMM来实现的。


上面的公式就是用GMM来学习GMM,参数在引文中已经介绍。使用EM算法来估计GMM中的每个参数。训练完UMM之后,每个高斯分量就能建立起不同的STM的每一组块特征之间的联系。

扫描二维码关注公众号,回复: 4706517 查看本文章

        3、Expressionlet Modeling

        这里基本上是本文的最重要步骤。上面学习得到的UMM看做GMM的K个分量的一个容器。给任何一个STM,便能将其作为UMM的一个参数化的实例来计算得到其特征。鉴于此,我们分配一些局部时空特征进K高斯“bucket”,用协方差矩阵对这些局部特征的分布做进一步的处理。由于下面公式居多,所以可能会有大量的截图。

可见,将表情流形表示成块特征集合的形式,各自的表示含义也能得到。

将f根据其概率大小降序排列,选出前T个可能性最大的f对应k个局部模型,表示成F。最后得到的expressionlet其实就是一个协方差矩阵可见。所以流形Mi就能表示成一些expressionlet的集合。

        至此expressionlet的模型建立起来了。

        3、Discriminant Learning with Expressionlets

        由于前面学习得到的expressionlet协方差矩阵是在黎曼流形中,而经典的分类方法svm进行的降维或者分类都是在欧式空间进行的,所以本部分的主要目的是将黎曼空间中的expressionlet投影到欧式空间中。所用到的方法是图嵌入框架(graph embedding framework)。因为公式太多,理解也稍微有些吃力,这里就不写了。

        经过上面的学习,动态表情的时空流形中expressionlet学习大致框架已经得到了,后面就是实验部分。

        4、结论:通过考虑时间对齐和语义识别动态表示,建立起一些在时间和空间上对齐的变化模型expressionlet,这建立起了低层特征(亮度、纹理、区域等)和高层语义特征的关系。实验也证明了这种方法能够得到更好的分类精度。

在这个学习的过程中,我有很多疑问,希望在以后的学习中能得到解决,这里先记下来:

1、图2中的小块各种颜色分别代表什么,是通过什么方法将颜色相同的小方块聚在一起的。

2、时间对齐即temporal aligning是如何实现的,其具体意义又是什么。

3、协方差矩阵在图像处理中起到的作用是什么。

4、第三步将expressionlet从黎曼空间映射到欧式空间的公式推导难以理解。

        感觉学习起来很吃力,任重而道远。

        学习原文是《Learning Expressionlets on Spatio-Temporal Manifold for Dynamic Facial Expression Recognition》,链接 http://ieeexplore.ieee.org/xpl/articleDetails.jsp?tp=&arnumber=6909622&matchBoolean%3Dtrue%26queryText%3DLearning+Expressionlets+on+Spatio-Temporal+Manifold+for+Dynamic+Facial




        

猜你喜欢

转载自blog.csdn.net/xiakejiang/article/details/40514583