Bilateral Ordinal Relevance Multi-instance Regression for Facial Action Unit Intensity Estimation

Abstract

问题：

捕捉面部表情的微小表化很困难；
AU强度的标注费时费力。

本文：
提出弱监督的BORMIR模型：weakly supervised regression model-Bilateral Ordinal Relevance Multi-instance Regression。通过引入数据间的序列关系来提高AU强度的检测。

Introduction

问题：
当前的大多数关于AU强度检测的工作都是有监督的且很少有工作关注利用无标签的数据中蕴含的信息。

这里写图片描述

如图2所示，AU强度会随着面部的变化而缓慢变化。相比于对每帧进行AU强度的标注，识别关键帧(peak和valley帧)是比较容易的。从valley到peak帧，AU强度是逐渐变化的。本文的模型即尝试利用该特性。对于从valley到peak以及从peak到valley分别都可以构成一个片段(segment)，我们把该片段称为bag，把其中的帧定义为instance。对于每一个bag，有两种标签(two bag labels)：peak bag label（peak帧的AU强度），valley bag label(valley帧的AU强度)。引入”相关性“的概念来表示每一个instance与一个bag label的关系。

在每一个片段(segment)中，帧越接近于peak(valley)，它与peak(valley)的相关性越大，换言之，即序列相关性；
因为变化是平滑的，临近的两帧的相关性的差别应该很小；
因为变化是平滑的，临近的两帧的强度的差别应该很小。

方法的pipeline是：

这里写图片描述

The proposed method

将下降的segment，反转成上升的，即将peak到valley的segment进行反转，由此训练集中的segment的强度都变为由valley上升到peak的过程。

训练集 $D=\left \{ (\textbf{B}_i,\textbf{y}_i^0,\textbf{y}_i) \right \}_{i=1}^{N}$ 包含N个segment，定义 $\textbf{B}_i=\left [ \textbf{B}_i^1, \textbf{B}_i^2, \dots, \textbf{B}_i^{n_i}\right ]\in \mathbb{R}^{d\times n_i}$ 表示第i个segment的image features，其中 $n_i$ 是帧的数量，d是特征的维度。peak bag label是 $y_i \in \mathbb{R}$ ，表示peak帧的强度。Valley bag label $y_i^0 \in \mathbb{R}$ 是valley frame的强度。定义 $\alpha_i^j$ 和 $\beta _i^j$ 分别表示第j帧中与peak和valley的相关性。我们定义： $\textbf{H}_i=\sum_{j=1}^{n_i}\alpha_i^j\beta_i^j=\textbf{B}_i\textbf{a}_i$ 表示一个bag中的instance的组合。为了保证组合在这些instance的凸包中， $\textbf{a}_i$ 需要满足 $\sum_{j=1}^{n_i}a_i^j=1$ 以及 $a_i\geq 0$ 。

给定训练集D，我们的目标是学习一个关于帧的强度检测器 $f$ ，对于一个未知标签的帧 $\textbf{x} \in \mathbb{R}^d$ ，可以给出预测的结果y，即 $y=f(\textbf{x};\textbf{w})=\textbf{w}^T\textbf{x}$ 。

与peak相关性(peak relevance) $\alpha_i$ 相似，对于 $\beta _i$ 同样有 $\sum_{j=1}^{n_i}\beta _i^j=1,\beta _i\geq 0$ 。对每一帧，peak和valley相关性并不是相互独立的，两者之间存在关联，如当peak相关性较小时，valley相关性较大，我们有 $\alpha_i^j+\beta _i^j=\alpha_i^k+\beta_i^k$ 。对于bag中的所有帧，将上述关系表示成矩阵的形式，可得：

\begin{matrix} (1) & V_{i} (α_{i} + β_{i}) = 0 \end{matrix}

$\textbf{V}_i(\alpha_i+\beta _i)=\textbf{0} \tag{1}$
其中

V_{i} \in R^{n_{i} \times n_{i}}, V_{i}^{j, j} = 1, V_{i}^{j, j + 1} = - 1

$\textbf{V}_i \in \mathbb{R}^{n_i \times n_i},\,\textbf{V}_i^{j,j}=1,\textbf{V}_i^{j,j+1}=-1$ ，其它元素为0。对于peak bag label的损失为：

\begin{matrix} (2) & L (w, {α_{i}}_{i = 1}^{N}, D) = \frac{1}{2} \sum_{i = 1}^{N} (y_{i} - w^{T} B_{i} α_{i})^{2} \end{matrix}

$L(\textbf{w},\left \{ \alpha_i \right \}_{i=1}^N,D)=\frac{1}{2}\sum_{i=1}^{N}(y_i-\textbf{w}^T\textbf{B}_i\alpha_i)^2 \tag{2}$
同样的，valley bag label的损失是：

\begin{matrix} (3) & L_{0} (w, {β_{i}}_{i = 1}^{N}, D) = \frac{1}{2} \sum_{i = 1}^{N} (y_{i}^{0} - w^{T} B_{i} β)^{2} \end{matrix}

$L_0(\textbf{w},\left \{ \beta_i \right \}_{i=1}^N,D)=\frac{1}{2}\sum_{i=1}^{N}(y_i^0-\textbf{w}^T\textbf{B}_i\beta)^2 \tag{3}$

Incorporating Knowledge

Ordinal relevance：
因为在一个segment中，强度的变化是平滑的且单调的，可知一帧距离peak帧越近，则peak相关性越大；同样的，一帧距离valley越近，则valley相关性越大。在一个训练集的segment中，peak相关性逐渐增大，valley相关性逐渐减小。对于特征 $\textbf{B}_i$ ，对于peak相关性有：

\begin{matrix} (4) & S^{α} (α_{i}) = {α_{i} \in R^{n_{i}} | e_{i}^{T} α_{i} = 1, 0 \leq α_{i}^{1} \leq α_{i}^{2} \leq \dots \leq α_{i}^{n_{i}}} \end{matrix}

$S^{\alpha}(\alpha_i)=\left \{ \alpha_i \in \mathbb{R}^{n_i}|e_i^T\alpha_i=1,\\ 0\leq \alpha_i^1 \leq \alpha_i^2\leq \dots\leq \alpha_i^{n_i} \right \} \tag{4}$
其中

e_{i}

$e_i$ 是一个

n_{i}

$n_i$ 维度的元素全为1的向量。同理，对于valley相关性，有：

\begin{matrix} (5) & S^{β} (β_{i}) = {β_{i} \in R^{n_{i}} | e_{i}^{T} β_{i} = 1, β_{i}^{1} \geq β_{i}^{2} \geq \dots \geq β_{i}^{n_{i}} \geq 0} \end{matrix}

$S^{\beta}(\beta_i)=\left \{ \beta_i \in \mathbb{R}^{n_i}|e_i^T\beta_i=1,\\ \beta_i^1 \geq \beta_i^2 \geq \dots \geq \beta_i^{n_i} \geq0 \right \} \tag{5}$
Intensity smoothness：
相邻的帧的强度应该是相近的，即两者之间的差别很小，于是可得到下面的正则项：

\begin{matrix} (6) & R_{1} (w, D) = \sum_{i = 1}^{N} \sum_{j, k = 1}^{n_{i}} C_{i}^{j, k} (w^{T} B_{i}^{j} - w^{T} B_{i}^{k})^{2} = \frac{1}{2} w^{T} [\sum_{i = 1}^{N} B_{i} (D_{i} - C_{i}) B_{i}^{T}] w = \frac{1}{2} w^{T} L w \end{matrix}

$R_1(\textbf{w},D)=\sum_{i=1}^{N}\sum_{j,k=1}^{n_i}C_i^{j,k}(\textbf{w}^T\textbf{B}_i^j-\textbf{w}^T\textbf{B}_i^k)^2\\=\frac{1}{2}\textbf{w}^T\left [ \sum_{i=1}^{N}\textbf{B}_i(\textbf{D}_i-\textbf{C}_i)\textbf{B}_i^T \right ]\textbf{w}=\frac{1}{2}\textbf{w}^T\textbf{L}\textbf{w} \tag{6}$
其中，

L = \sum_{i = 1}^{N} B_{i} (D_{i} - C_{i}) B_{i}^{T}

$\textbf{L}=\sum_{i=1}^{N}\textbf{B}_i(\textbf{D}_i-\textbf{C}_i)\textbf{B}_i^T$ ，

C_{i}

$\textbf{C}_i$ 是一个邻接矩阵。当

| j = k | = 1

$\left | j=k \right |=1$ 时，

C_{i}^{j, k} = 1

$\textbf{C}_i^{j,k}=1$ 。否则，\textbf{C}_i^{j,k}=0。

D_{i}^{i, j} = \sum_{k} C_{i}^{j, k}

$\textbf{D}_i^{i,j}=\sum _k\textbf{C}_i^{j,k}$ ，且

j \neq k

$j\neq k$ 时，

D_{i}^{j, k} = 0

$\textbf{D}_i^{j,k}=0$ 。
Relevance smoothness
与前面所说的强度的变化类似，相关性的变化同样也是平滑的。相邻帧的相关性的差异应该也是很小的，由此，我们可得到关于peak bag label相似性的约束项为：

\begin{matrix} (7) & R_{2} ({α_{i}}_{i = 1}^{N}, D) = \sum_{i = 1}^{N} \sum_{j, k = 1}^{n_{i}} C_{i}^{j, k} (α_{i}^{j} - α_{i}^{k})^{2} = \frac{1}{2} \sum_{i = 1}^{N} α_{i}^{T} (D_{i} - C_{i}) α_{i} \end{matrix}

$R_2(\left \{ \alpha_i \right \}_{i=1}^N,D)=\sum_{i=1}^{N}\sum_{j,k=1}^{n_i}\textbf{C}_i^{j,k}(\alpha_i^j-\alpha_i^k)^2=\frac{1}{2}\sum_{i=1}^{N}\alpha_i^T(\textbf{D}_i-\textbf{C}_i)\alpha_i \tag{7}$
同样的，对于valley bag label，有：

\begin{matrix} (8) & R_{2} ({β_{i}}_{i = 1}^{N}, D) = \frac{1}{2} \sum_{i = 1}^{N} β_{i}^{T} (D_{i} - C_{i}) β_{i} \end{matrix}

$R_2(\left \{ \beta_i \right \}_{i=1}^N,D)=\frac{1}{2}\sum_{i=1}^{N}\beta_i^T(\textbf{D}_i-\textbf{C}_i)\beta_i \tag{8}$

Complete Formulation

综上，总的优化目标是：

\begin{matrix} (9) & min_{w, {α_{i}, β_{i}}_{i = 1}^{N}} L (w, {α_{i}}_{i = 1}^{N}, D) + λ_{0} L_{0} (w, {β_{i}}_{i = 1}^{N}, D) + λ_{1} R_{1} (w, D) + λ_{2} R_{2} ({α_{i}}_{i = 1}^{N}, D) + λ_{3} R_{2} ({β_{i}}_{i = 1}^{N}, D) + \frac{λ_{4}}{2} {‖ w ‖}^{2} s . t . α_{i} \in S^{α} (α_{i}), β_{i} \in S^{β} (β_{i}), V_{i} (α_{i} + β_{i}) = 0, i = 1, 2, \dots, N \end{matrix}

$\min_{w,\left \{ \alpha_i,\beta_i \right \}_{i=1}^N}\,L(\textbf{w},\left \{ \alpha_i \right \}_{i=1}^N,D)+\lambda_0L_0(\textbf{w},\left \{ \beta_i \right \}_{i=1}^N,D) \\ +\lambda_1R_1(\textbf{w},D)+\lambda_2R_2(\left \{ \alpha_i \right \}_{i=1}^N,D)\\ +\lambda_3R_2(\left \{ \beta_i \right \}_{i=1}^N,D)+\frac{\lambda_4}{2}\left \| \textbf{w} \right \|^2 \\ s.t.\,\,\alpha_i \in S^{\alpha}(\alpha_i), \beta_i \in S^{\beta}(\beta_i), \\ \textbf{V}_i(\alpha_i+\beta_i)=0,i=1,2,\dots,N \tag{9}$

上述的约束我们没办法直接拿来求解，所以我们先进行转化。定义 $\eta_i=\left \{ \eta_i^1,\eta_i^2,\dots,\eta_i^{n_i} \right \} \in \mathbb{R}^{n_i}$ 表示一个segment中的相关性的增量(relevance increments)，且 $\eta \geq 0$ 。peak relavance可以被表示为 $\alpha_i=\textbf{A}\eta_i$ ， $\textbf{A}_i$ 是一个方阵，当 $j \geq k$ 时， $\textbf{A}_i^{j,k}=1$ ，否则 $\textbf{A}_i^{j,k}=0$ 。同理对于valley bag label也可以定义一个类似的 $u_i$ 。因为上式的等价的公式为：

\begin{matrix} (10) & min_{w, {α_{i}, β_{i}}_{i = 1}^{N}} L (w, {α_{i}}_{i = 1}^{N}, D) + λ_{0} L_{0} (w, {β_{i}}_{i = 1}^{N}, D) + λ_{1} R_{1} (w, D) + λ_{2} R_{2} ({α_{i}}_{i = 1}^{N}, D) + λ_{3} R_{2} ({β_{i}}_{i = 1}^{N}, D) + \frac{λ_{4}}{2} {‖ w ‖}^{2} s . t . η_{i} \geq 0, u_{i} \geq 0 e_{i}^{T} (A_{i} η_{i}) = 1, e_{i} (A_{i}^{T} u_{i}) = 1, V_{i} (A_{i} η_{i} + A_{i} u_{i}) = 0, i = 1, 2, \dots, N \end{matrix}

$\min_{w,\left \{ \alpha_i,\beta_i \right \}_{i=1}^N}\,L(\textbf{w},\left \{ \alpha_i \right \}_{i=1}^N,D)+\lambda_0L_0(\textbf{w},\left \{ \beta_i \right \}_{i=1}^N,D) \\ +\lambda_1R_1(\textbf{w},D)+\lambda_2R_2(\left \{ \alpha_i \right \}_{i=1}^N,D)\\ +\lambda_3R_2(\left \{ \beta_i \right \}_{i=1}^N,D)+\frac{\lambda_4}{2}\left \| \textbf{w} \right \|^2 \\ s.t.\,\,\eta_i \geq 0,u_i \geq 0\\ \textbf{e}_i^T(\textbf{A}_i\eta_i)=1,\textbf{e}_i(\textbf{A}_i^Tu_i)=1,\\ \textbf{V}_i(\textbf{A}_i\eta_i+\textbf{A}_iu_i)=0,\\ i=1,2,\dots,N \tag{10}$

训练模型之后，我们就可以利用 $y=f(x;\textbf{w})$ 来对一不知到label的帧就行强度的预测。

CVPR: Bilateral Ordinal Relevance Multi-instance Regression for Facial Action Unit Intensity