《动态表情的时空流形上的表示基expressionlet学习》学习总结

用了将近十天的时间，认认真真的学习了读研以来的第一篇英文文献----《Learning Expressionlets on Spatio-Temporal Manifold for Dynamic Facial Expression Recognition 》，下面将我的学习心得写下来。

人的面部表情是一个动态过程，在不同的时间和不同的区域上会有不同的肌肉动作。动态识别不许考虑两个关键问题，时间对齐和语义识别的动态表示。（语义特征是指利用图像的信息特别是高级信息，为研究图像听过一种描述图像方式的名词。语义特征是一个多维向量，每个维度可以表示一种表情。因此语义特征既能描述出该图片这几种基本表情上的比重，又能反映着几种表情各自的强度。）这篇文章通过一种新型的中层表示expressionlet来解决这两个问题。主要包括三个方面：1、从视频的密集的低层特征中得到时空模型（spatiotemporal manifold (STM)）；2、在所有低层特征上学习得到广义流形模型UMM，将其作为一个局部时空模型的集合的统计量，来归一所有的STM；3、通过拟合UMM可以实例化每一STM的局部模型，通过对每个局部时空模型变量进行建模建立起相应的Expressionlet。由此，表情视频就能自然的在时间和空间上对齐。为增强判别力，每个基于expressionlet的STM表示将会用判别嵌入进一步处理。实验是在四中人脸表情数据库中进行，CK+, MMI,Oulu-CASIA, and AFEW.下面主要介绍这种expressionlet的构建过程，实验部分会简单提及。

本文的中心思想都凝缩在上面图片和算法上，下面将对每一步简要介绍。

1、时空流形STM

提出STM用于对视频辑建模。STM是从视频辑中采样得到的3D块张成的，包含时空的局部变量。使用滤波器提取块的低层特征。

在训练视频中使用K均值聚类方法。聚类中心用来形成滤波器应用在时空块中。为了获得转换的不变表示，使用3D卷积。提取得到的特征记为axyt, where x, y, t 是在STM上的时空块的指数或者坐标。

2、UMM--STM的统计模型

UMM是一个统计模型，如果将UMM学习完成的话，任意给一个视频辑，便能通过与UMM 的拟合，分析出视频的特征。UMM是通过混合高斯模型GMM来实现的。

上面的公式就是用GMM来学习GMM，参数在引文中已经介绍。使用EM算法来估计GMM中的每个参数。训练完UMM之后，每个高斯分量就能建立起不同的STM的每一组块特征之间的联系。

扫描二维码关注公众号，回复： 4706517 查看本文章

3、Expressionlet Modeling

这里基本上是本文的最重要步骤。上面学习得到的UMM看做GMM的K个分量的一个容器。给任何一个STM，便能将其作为UMM的一个参数化的实例来计算得到其特征。鉴于此，我们分配一些局部时空特征进K高斯“bucket”，用协方差矩阵对这些局部特征的分布做进一步的处理。由于下面公式居多，所以可能会有大量的截图。

可见，将表情流形表示成块特征集合的形式，各自的表示含义也能得到。

将f根据其概率大小降序排列，选出前T个可能性最大的f对应k个局部模型，表示成F。最后得到的expressionlet其实就是一个协方差矩阵可见。所以流形Mi就能表示成一些expressionlet的集合。

至此expressionlet的模型建立起来了。

3、Discriminant Learning with Expressionlets

由于前面学习得到的expressionlet协方差矩阵是在黎曼流形中，而经典的分类方法svm进行的降维或者分类都是在欧式空间进行的，所以本部分的主要目的是将黎曼空间中的expressionlet投影到欧式空间中。所用到的方法是图嵌入框架（graph embedding framework）。因为公式太多，理解也稍微有些吃力，这里就不写了。

经过上面的学习，动态表情的时空流形中expressionlet学习大致框架已经得到了，后面就是实验部分。

4、结论：通过考虑时间对齐和语义识别动态表示，建立起一些在时间和空间上对齐的变化模型expressionlet，这建立起了低层特征（亮度、纹理、区域等）和高层语义特征的关系。实验也证明了这种方法能够得到更好的分类精度。

在这个学习的过程中，我有很多疑问，希望在以后的学习中能得到解决，这里先记下来：

1、图2中的小块各种颜色分别代表什么，是通过什么方法将颜色相同的小方块聚在一起的。

2、时间对齐即temporal aligning是如何实现的，其具体意义又是什么。

3、协方差矩阵在图像处理中起到的作用是什么。

4、第三步将expressionlet从黎曼空间映射到欧式空间的公式推导难以理解。

感觉学习起来很吃力，任重而道远。

学习原文是《Learning Expressionlets on Spatio-Temporal Manifold for Dynamic Facial Expression Recognition》，链接 http://ieeexplore.ieee.org/xpl/articleDetails.jsp?tp=&arnumber=6909622&matchBoolean%3Dtrue%26queryText%3DLearning+Expressionlets+on+Spatio-Temporal+Manifold+for+Dynamic+Facial

《动态表情的时空流形上的表示基expressionlet学习》学习总结

猜你喜欢