Facial Expression Intensity Estimation Using Ordinal Information

Abstract

先前工作不足之处：大都关注于基本的表情的识别，只有少部分工作关注连续的表情强度的检测。原因是缺乏有标记的表情强度的数据。
本文工作：将表情的强度检测看成一个回归问题，通过利用面部表情的onset-apex-offset演化模型，本文的方法可以处理不同数量的标注信息，进行基于帧的表情强度识别。提出两种方式:(1)有监督：所有的帧都是有标记的；(2)弱监督：只有挑选的关键帧是有标记的。使用基于Alternating Direction Method of Multipliers(ADMM)的优化算法进行参数的学习。

Introduction

如何衡量表情的强度是比较困难的。有两种方式：

利用AU强度。缺点是：需要专业的人手动进行AU的标记，另外AU强度检测本身也是一个问题；
利用对某一表情在不同阶段的人脸的相对差异。比如，将表情强度定义为距离中性或兴奋表情的相对程度。尽管这些定义简单，但是并不精确，对不同强度的定义需要大量的手工劳作和专业知识。

本文方法：挖掘不同帧，选出的帧的强度标签之间的序列关系(ordinal information)。思路来源于：观察到面部表情的时序变化遵从一个特定的顺序。首先，从中性帧开始，此时没有表情，表情强度处于最低的水平(onset)；接下来，观察到表情强度会达到一个峰值(apex)；最后，表情强度会开始下降，直到回归中性(offset)。如下图-所示：

这里写图片描述

本文贡献：

提出了一种表情强度检测的回归方法，挖掘了同一表情序列中不同帧的序列关系以及同时也充分利用了有强度标签的信息(如果是有标签的情况下)；
引入一个统一的最大边界学习框架可以同时挖掘两个来源的信息(two source of information)；
根据有标记的表情强度标签的可得性，本文的方法可以扩展到不同的情况。

Problem Statement

目标是使用有标记的或者无标记的表情序列作为训练集，学习一个基于帧的表情强度检测器。定义表情序列： $\textbf{X}=\left \{ \textbf{x}_i\in \mathbb{R}^d|i=1,\dots ,\left | \textbf{X} \right |\right \}$ ，其中 $\textbf{x}_i$ 是第i个单独的帧，d是一帧的特征维度， $\left | \textbf{X} \right |$ 是序列的长度。定义 $\textbf{X}$ 的强度标记是 $\textbf{X}=\left \{ \textbf{x}_i\in \mathbb{R}^d|i=1,\dots ,\left | \textbf{X} \right |\right \}$ ，其中 $\textbf{V}\subseteq \left \{ 1,\dots, |\textbf{X}| \right \}$ 。对于有监督的情况， $\textbf{V}$ 包含所有的帧的ID。对于弱监督的情况， $\textbf{V}$ 仅包含挑选出的有标记的帧的ID。对于无监督的情况， $\textbf{V}$ 是空集。

假定对于一个表情序列，表情强度要么单调增长，直到峰值(apex frame)，要么在达到峰值后单调下降。令 $p$ 表示apex frame的ID，则有不等式：

\begin{matrix} (1) & y_{i} > y_{j}, \forall (i, j) \in E \end{matrix}

$y_i>y_j, \forall(i,j)\in \textbf{E} \tag{1}$
其中

E = {(i, j) | 1 \leq j < i \leq p o r p \leq i < j \leq | X |}

$\textbf{E}=\left \{ (i,j)|1\leq j< i\leq p \,\, or \,\, p\leq i<j\leq |\textbf{X}| \right \}$ 。

在训练时，我们有多种序列，以及关于强度标记的额外的信息 $D=\left \{ \textbf{X}_n,\textbf{Y}_n,\textbf{V}_n,\textbf{E}_n \right \},n=1,\dots,N$ ，其中N是序列的数量。如前面所说， $\textbf{V}_n$ 是会变化的：

对于有监督的情况， $\textbf{V}_n=\left \{ 1,\dots,|\textbf{X}_n| \right \}$ ，即所有帧；
对于弱监督的情况， $\textbf{V}_n=\left \{ 1,p,|\textbf{X}_n| \right \}$ ，换言之，即onset，apex和offset，假定第一帧和最后一帧分别是onset和offset帧。
对于无监督的情况， $\textbf{V}_n=\phi$ 。

目标是学习一个回归函数： $f:\mathbb{R}^d \mapsto \mathbb{R}$ 。给定一个表情的图片，我们使用下面的函数进行表情强度的检测：

\begin{matrix} (2) & y = f (x; θ) \end{matrix}

$y=f(\textbf{x};\theta) \tag{2}$

Background

这里简单介绍下支持向量机回归(Support Vector Regression SVR)和序列回归(Ordinal Regression OR)。

SVR：
SVR是基于SVM的改进，给定有标记的数据 $\left \{ y_i,\textbf{X}_i \right \}$ ，可以学习一个回归的模型。其中常用的是 $\varepsilon-\textbf{SVR}$ 模型，通过解决下面的优化问题来学习模型的参数 $\theta=\left \{ \textbf{w},b \right \}$ ：

\begin{matrix} (3) & min_{θ, η^{+}, η^{-}} \frac{1}{2} {‖ w ‖}^{2} + γ \sum_{i}^{} (η_{i}^{+} + η_{i}^{-}) s . t . w^{T} ϕ (x_{i}) + b - y_{i} \leq ϵ + η_{i}^{+} y_{i} - w^{T} ϕ (x_{i}) - b \leq ϵ + η_{i}^{-} η_{i}^{+}, η_{i}^{-} \geq 0, \forall i \end{matrix}

$\min_{\theta,\eta^+,\eta^-}\frac{1}{2}\left \| \textbf{w} \right \|^2+\gamma \sum_{i}^{ }(\eta_i^++\eta_i^-)\\ s.t.\,\,\textbf{w}^T\phi(\textbf{x}_i)+b-y_i\leq \epsilon +\eta_i^+\\ y_i-\textbf{w}^T \phi(\textbf{x}_i)-b\leq \epsilon +\eta_i^-\\ \eta_i^+,\eta_i^-\geq 0, \forall i \tag{3}$
其中

η

$\eta$ 是一个常量，定义了最大的误差以使预测值被认为使正确的，即确定了一个认为预测结果是正确的范围。

ϕ : X \mapsto F

$\phi :\mathbb{X}\mapsto \mathbb{F}$ 是一个从输入空间

X

$\mathbb{X}$ 到某个特征空间

F

$\mathbb{F}$ 的映射。

γ

$\gamma$ 是一个常量，用于平衡正则项和回归损失。公式-3的求解相当于它的对偶问题，通过使用核函数可以避免复杂的高维特征空间中的计算。这点和我们学习的SVM是类似的。

SVR从SVM中继承了一个很好的优点：SVR的解是稀疏的，这就使我们只使用数据点的子集就可以决定模型的参数。因为SVR只能使用有标记的帧来进行训练。在实验中，本文使用SVR来作为baseline。

Ordinal Regression：
给定有标签的数据 $\left \{ y_i,\textbf{x}_i \right \}$ ，其中 $y_i$ 是有序的离散的值，则OR的目标是解决如下的优化问题：

\begin{matrix} (4) & min_{θ, η^{+}, η^{-}} \frac{1}{2} {‖ w ‖}^{2} + γ \sum_{(i, j) \in E}^{} ξ_{i j} s . t . w^{T} (ϕ (x_{i}) - ϕ (x_{j})) \geq 1 - ξ_{i j} ξ_{i j} \geq 0, \forall (i, j) \in E \end{matrix}

$\min_{\theta,\eta^+,\eta^-}\frac{1}{2}\left \| \textbf{w} \right \|^2+\gamma \sum_{(i,j)\in E}^{ }\xi _{ij}\\ s.t.\,\textbf{w}^T(\phi (\textbf{x}_i)-\phi(\textbf{x}_j))\geq 1-\xi _{ij}\\ \xi_{ij}\geq 0,\,\forall (i,j)\in \textbf{E} \tag{4}$
其中

E = {(i, j) | y_{i} > y_{j}} ，

$\textbf{E}=\left \{ (i,j)|y_i>y_j \right \}，$ 不同于SVR，OR不需要任何有标记的表情强度帧，只需要帧的顺序信息，而且该信息本身就包含在序列中。所以我们把OR作为一个无监督的baseline。

Proposed Method

本文的方法来自于前面两个baseline。SVR使用了有标记的表情强度信息，但是忽略了序列的信息；OR刚好相反。本文提出基于回归模型的最大边界方法，可以更好的利用前两者的优点。同时本文也发展了更有效的优化算法来解决训练的问题。

使用线性模型 $f(x;\theta)=\textbf{w}^Tx+b$ ，其参数为 $\theta=\left \{ \textbf{w},b \right \}$ 。给定 $D=\left \{ \textbf{X}_n,\textbf{Y}_n,\textbf{V}_n, \textbf{E}_n \right \},n=1,\dots,N$ ，我们想要解决下面的优化问题：

\begin{matrix} (5) & min_{θ, η, ξ} \frac{1}{2} {‖ w ‖}^{2} + γ_{1} \sum_{n = 1}^{N} \sum_{k \in V_{n}}^{} (l_{1} (η_{k}^{(n) +}) + l_{1} (η_{k}^{(n) -})) + γ_{2} \sum_{n = 1}^{N} \sum_{(i, j) \in E_{n}}^{} (l_{2} (ξ_{i j}^{(n)})) s . t . w^{T} x_{k}^{(n)} + b - y_{k}^{(n)} \leq ϵ + η_{k}^{(n) +} y_{k}^{(n)} - w^{T} x_{k}^{(n)} - b \leq ϵ + η_{k}^{(n) -} w^{T} (x_{i}^{(n)} - x_{j}^{(n)}) \geq 1 - α_{i j} ξ_{i j}^{(n)} η_{k}^{(n) +}, η_{k}^{(n) -}, ξ_{i j}^{(n)} \geq 0 \forall k \in V_{n}, (i, j) \in E_{n}, n = 1, \dots, N \end{matrix}

$\min_{\theta,\eta ,\xi }\frac{1}{2}\left \| \textbf{w} \right \|^2+\gamma _1\sum_{n=1}^{N}\sum_{k\in \textbf{V}_n}^{ }(l_1(\eta _k^{(n)+})+l_1(\eta _k^{(n)-}))+\gamma _2\sum_{n=1}^{N}\sum_{(i,j)\in \textbf{E}_n}^{ }(l_2(\xi _{ij}^{(n)})) \\ s.t.\, \textbf{w}^T\textbf{x}_k^{(n)}+b-y_k^{(n)}\leq \epsilon +\eta _k^{(n)+}\\ y_k^{(n)}-\textbf{w}^T\textbf{x}_k^{(n)}-b\leq \epsilon +\eta _k^{(n)-}\\ \textbf{w}^T(\textbf{x}_i^{(n)}-\textbf{x}_j^{(n)})\geq 1-\alpha _{ij}\xi _{ij}^{(n)}\\ \eta_k^{(n)+},\eta_k^{(n)-},\xi _{ij}^{(n)}\geq 0\\ \forall k \in \textbf{V}_n,(i,j)\in \textbf{E}_n,n=1,\dots,N \tag{5}$
其中

γ_{1}, γ_{2}, ϵ > 0

$\gamma _1, \gamma _2, \epsilon > 0$ 是常量，

l_{1}

$l_1$ 和

l_{2}

$l_2$ 是应用于松弛变量

η

$\eta$ 和

ξ

$\xi$ 的某种函数。参数

α = {α_{i j}} = {\frac{1}{| i - j |}}, \forall i \neq j

$\alpha=\left \{ \alpha_{ij} \right \}=\left \{ \frac{1}{|i-j|} \right \},\forall i\neq j$ 用于对temporal进行平滑。注意到当

α_{i j} = 1

$\alpha_{ij}=1$ 时，就与前面所说的OR的限制条件相同了。

实际上公式5中的最后一项即用到了先验知识的序关系。对于函数 $l_1$ 和 $l_2$ 的选择，考虑了两种情况：

令 $l_i(x)=x$ ：hinge loss
令 $l_i(x)=x^2$ : squared loss

由于公式5中第三项约束每次需要取i，j两个样本，所以算法的复杂度达到了 $O(n^2)$ 。为了降低算法复杂度，借助于ADMM算法求解。ADMM算法利用增广拉格朗日乘数进一步提高了效率，加快了收敛速度。为了使用ADMM，重新规则化公式5：

min_{u, t} \frac{1}{2} u^{T} Λ u + μ^{T} l ({⌊ z ⌋}_{0}) s . t A u + c = z

$\min_{u,t}\frac{1}{2}u^T\Lambda u+\mu ^Tl(\left \lfloor z \right \rfloor_0)\\ s.t\,\, Au+c=z$
其中l是可选的损失函数(同上)，

Λ \in R^{(d + 1) \times (d + 1)}

$\Lambda \in \mathbb{R}^{(d+1)\times (d+1)}$ 是一个对角矩阵。

u \in R^{M_{1} + M_{2}}

$u \in \mathbb{R}^{M_1+M_2}$ 是一个向量，它的第一项

M_{1}

$M_1$ 是

γ_{1}

$\gamma_1$ ，最后一项

M_{2}

$M_2$ 是

γ_{2} α

$\gamma_2 \alpha$ 。

A \in R^{(M_{1} + M_{2}) \times (d + 1)}

$A\in \mathbb{R}^{(M_1+M_2)\times (d+1)}$ 是一个矩阵，

c \in R^{M_{1} + M_{2}}

$c \in \mathbb{R}^{M_1+M_2}$ 是一个向量。具体而言：

A = [\begin{matrix} X_{V} & 1 \\ - X_{V} & -1 \\ X_{E} & 0 \end{matrix}], c = [\begin{matrix} - ϵ 1 - y \\ - ϵ 1 + y \\ 1 \end{matrix}]

$A=\begin{bmatrix} \textbf{X}_V & \textbf{1} \\ -\textbf{X}_V & \textbf{-1} \\ \textbf{X}_E & \textbf{0} \end{bmatrix}, c=\begin{bmatrix} -\epsilon \textbf{1}-\textbf{y}\\ -\epsilon \textbf{1}+\textbf{y}\\ \textbf{1}\\ \end{bmatrix}$
其中

X_{V}

$\textbf{X}_{\textbf{V}}$ 是一个矩阵，它的每一行代表一个已知标签的样本。

X_{E}

$\textbf{X}_{\textbf{E}}$ 是一个矩阵，它的每一行代表两个样本的特征差值。1和0是全1或全0元素的向量，其维度匹配对应的矩阵维度。

{⌊ z ⌋}_{0}

$\left \lfloor z \right \rfloor _0$ 代表接近0的数，其中的元素是三个松弛变量

η^{+}, η^{-}, ξ

$\eta ^+, \eta ^-, \xi$ 。

对于函数l使用hingge loss，则算法为：

算法：	使用ADMM学习过程
输入：	$\textbf{X}$ ：表情序列， $\textbf{Y}$ ：强度标签， $\textbf{V}$ ：有强度标签的集合， $\textbf{E}$ ：序列集合
输出：	学习到的模型
1：	使用 $\textbf{X,Y,V,E}$ 构造 $\Lambda ,u,A,c$
2：	$u\leftarrow 0,z\leftarrow 0,v\leftarrow 0$
3：	repeat
4：	$u^{k+1}:=[\frac{1}{\rho }\Lambda +A^TA]^{-1}A^T(z^k-\frac{1}{\rho}v^k-c)$
5：	$z_i^{k+1}:=S_{\frac{u_i}{2\rho }}(a_i)$
6：	$v^{k+1}:=v^k+\rho (Au^{k+1}-z^{k+1}+c)$
7：	until 收敛或者到达最大迭代次数
8：	return u

其中， $a=\frac{1}{\rho }v^k+Au^{k+1}+c-\frac{1}{2\rho }u\equiv \left \{ a_i \right \}$ 以及：

S_{k} (a_{i}) = {\begin{matrix} a_{i} - k, & i f a_{i} > k \\ 0, & i f | a_{i} | \leq k \\ a_{i} + k, & i f a_{i} < - k \end{matrix}

$S_k(a_i)=\left\{\begin{matrix} a_i-k, & if\,\,a_i>k\\ 0, & if\,\,|a_i|\leq k\\ a_i+k, & if\,\,a_i<-k \end{matrix}\right.$
最后即可以使用建立起来的模型

y^{'} = w^{T} x^{'} + b

${y}'=\textbf{w}^T\textbf{x}'+b$ 来对新的预测样本

x^{'}

${x}'$ 进行预测

CVPR：Facial Expression Intensity Estimation Using Ordinal Information