计算机视觉-混合动态纹理模型(Mixtures of Dynamic Textures)

在计算机视觉领域，混合动态纹理模型(Mixtures of Dynamic Textures, MDT)常用于视频帧序列建模。比如对帧序列的分割，局部或全局的异常事件检测。下图能很好表明MDT的建模过程及其应用，该模型用于人群场景中局部异常的检测。首先，训练阶段：在一定的训练时间内且在每一个子区域中学习相应的MDT模型；其次，测试阶段：针对每一个子区域的MDT模型计算测试帧对应区域的负对数似然。整个过程类比于GMM模型用于视频建模，其中两者的区别在于GMM模型中的样本数据点为单帧中的local patch；而在MDT模型中的样本数据点多考虑了时间信息，即为spatio-temporal local patchs。而这层时间信息可以用马尔科夫链进行建模，下面我们先描述一下动态纹理模型(DT)，然后再讨论MDT。
这里写图片描述

1. 动态纹理模型(DT)

DT是一个典型的视频帧序列的生成模型。这个随机过程通过一系列隐变量和观测变量 $\{\textbf{x},\textbf{y}\}$ 并结合线性动态系统(linear dynamical system, LDS)进行形式化：

{x t + 1 = A x t + v t y t = C x t + w t

$\begin{cases} x_{t+1}=Ax_t+v_t \\ y_t=Cx_t+w_t \end{cases}$
其中

xt∈Rn $x_t \in R^n$ 为帧序列中时刻

t $t$ 对应的隐变量，刻画视频序列随时间的演变；

yt∈Rm $y_t \in R^m$ 为对应的观测变量 (一般

n≪m $n \ll m$ )，刻画视频帧；参数

A∈Rn×n $A\in R^{n\times n}$ 为状态转移矩阵，参数

C∈Rm×m $C\in R^{m\times m}$ 为发射矩阵；而

vt,wt $v_t,w_t$ 为高斯白噪声，即

vt∼N(0,Q),wt∼N(0,R) $v_t \sim N(0,Q),w_t \sim N(0,R)$ ，其中

Q∈Rn×n,R∈Rm×m $Q\in R^{n\times n},R\in R^{m\times m}$ 。扩展定义初始状态

x1 $x_1$ 服从参数为

μ,S $\mu,S$ 的高斯分布。那么DT模型的参数为

Θ={A,Q,C,R,μ,S} $\Theta=\{A,Q,C,R,\mu,S\}$ ，概率图模型如下图(a)所示。模型中的隐变量

yt $y_t$ 为连续性变量，可理解为整个模型要学习的就是视频帧的上层语义信息(即纹理信息)。该模型与隐马尔科夫模型类似，区别仅在于隐状态变量的离散型或连续性。
这里写图片描述

很显然，初始状态分布，状态转移条件分布和观测条件分布如下

⎧ ⎩ ⎨ p (x 1) = G (x 1, μ, S) p (x t | x t - 1) = G (x t, A x t - 1, Q) p (y t | x t) = G (y t, C x t, R)

$\begin{cases} p(x_1)=G(x_1,\mu,S) \\ p(x_t|x_{t-1})=G(x_t,Ax_{t-1},Q) \\ p(y_t|x_t)=G(y_t,Cx_t,R) \end{cases}$
其中

G(x,μ,Σ)=(2π)−n/2|Σ|−1/2exp{−12∥xt−μ∥2Σ} $G(x,\mu,\Sigma)=(2\pi)^{-n/2}|\Sigma|^{-1/2}\exp\{-\frac{1}{2}\|x_t-\mu\|_\Sigma^2\}$ 为

n $n$ 维高斯分布，

∥xt−μ∥2Σ=(xt−μ)TΣ−1(xt−μ) $\|x_t-\mu\|_\Sigma^2=(x_t-\mu)^T\Sigma^{-1}(x_t-\mu)$ 。那么，

{x,y} $\{\textbf{x},\textbf{y}\}$ 的联合概率分布为

p (x, y) = p (x 1) \prod t = 2 τ p (x t | x t - 1) \prod t = 1 τ p (y t | x t)

$p(\textbf{x},\textbf{y})=p(x_1)\prod_{t=2}^\tau p(x_t|x_{t-1})\prod_{t=1}^\tau p(y_t|x_t)$
由于隐变量的存在，该模型的参数学习一般通过 EM算法求解；而隐变量的推断(预测问题)一般采用经典的维特比算法。这里就不过多介绍细节，下面我们来看MDT模型。

2. 混合动态纹理模型(MDT)

所谓MDT，即一个视频帧序列 $\textbf{y}$ 采样于某一个动态纹理，且每一个动态纹理参数为 $\Theta_k$ ，对应概率为 $\alpha_k$ ，满足 $\sum_k^K\alpha_k=1$ 。整个模型的生成过程如下：

从多项式分布 $\{\alpha_1,\cdots,\alpha_K\}$ 中采样一个成分 $k$ ；
从动态纹理成分 $\Theta_k$ 中采样一个视频帧序列 $\textbf{y}$ 。

那么该序列从该生成模型中采样的概率为

p (y) = \sum k = 1 K α k p k (y; Θ k)

$p(\textbf{y})=\sum_{k=1}^K\alpha_kp_k(\textbf{y};\Theta_k)$
其中

pk(y;Θk) $p_k(\textbf{y};\Theta_k)$ 为第

k $k$ 个动态纹理的条件概率分布，参数为

Θk={Ak,Qk,Ck,Rk,μk,Sk} $\Theta_k=\{A_k,Q_k,C_k,R_k,\mu_k,S_k\}$ 。这就是混合动态纹理模型，概率图模型即为上图(b)。那么联合概率分布为

p (x, y, z) = p (z) P (x, y | z) = p (z) \prod k = 1 K p (x, y | Θ k) z k = \prod k = 1 K α z k k p (x, y | Θ k) z k

$\begin{array}{c} p(\textbf{x},\textbf{y},z)=p(z)P(\textbf{x},\textbf{y}|z)=p(z)\prod_{k=1}^Kp(\textbf{x},\textbf{y}|\Theta_k)^{z_k} \\ =\prod_{k=1}^K\alpha_k^{z_k}p(\textbf{x},\textbf{y}|\Theta_k)^{z_k} \end{array}$
其中

p(x,y|Θk)=p(x1|Θk)∏τt=2p(xt|xt−1,Θk)∏τt=1p(yt|xt,Θk) $p(\textbf{x},\textbf{y}|\Theta_k)=p(x_1|\Theta_k)\prod_{t=2}^\tau p(x_t|x_{t-1},\Theta_k)\prod_{t=1}^\tau p(y_t|x_t,\Theta_k)$ 。
现在考虑模型参数的学习问题。假设给定了一系列独立同分布的视频帧序列

Y={yn}Nn=1 $Y=\{\textbf{y}^{n}\}_{n=1}^N$ ，而

yn={yn1,yn2,⋯,ynτ} $\textbf{y}^{n}=\{y_1^n,y_2^n,\cdots,y_\tau^n\}$ 为第

n $n$ 个视频帧序列。那么一般采用最大似然估计模型参数，即

Θ=argmaxΘ∑Nnlogp(yn;Θ) $\Theta=\mathop{argmax}_\Theta \sum_n^N\log p(\textbf{y}^{n};\Theta)$ 。同理由于隐变量

X,Z $X,Z$ 的存在，我们采用EM算法求解。联合分布的对数形式为：

log p (X, Y, Z; Θ) = \sum n = 1 N log p (x n, y n, z n; Θ) = \sum n = 1 N \sum k = 1 K z n k (log α k + log p (x n, y n | Θ k)

$\begin{array}{c} \log p(X,Y,Z;\Theta)=\sum_{n=1}^N \log p(\textbf{x}^{n},\textbf{y}^{n},z_n;\Theta) \\ =\sum_{n=1}^N\sum_{k=1}^K z_{nk} (\log \alpha_k+\log p(\textbf{x}^n,\textbf{y}^n|\Theta_k) \end{array}$
下面我们考虑EM算法第E步：

E X, Z | Y log p (X, Y, Z) = \sum n, k E x n, z n | y n [z n k (log α k + log p (x n, y n | Θ k)] = \sum n, k E z n | y n (E x n | z n, y n [z n k (log α k + log p (x n, y n | Θ k)]) = \sum n, k p (z n k = 1 | y n) E x n | z n = k, y n [log α k + log p (x n, y n | Θ k]

$\begin{array}{c} E_{X,Z|Y}\log p(X,Y,Z)=\sum_{n,k} E_{\textbf{x}^n,z_n|\textbf{y}^n} [ z_{nk} (\log \alpha_k+\log p(\textbf{x}^n,\textbf{y}^n|\Theta_k)]\\ =\sum_{n,k} E_{z_n|\textbf{y}^n}(E_{\textbf{x}^n|z_n,\textbf{y}^n}[z_{nk} (\log \alpha_k+\log p(\textbf{x}^n,\textbf{y}^n|\Theta_k)])\\ =\sum_{n,k} p(z_{nk}=1|\textbf{y}^n) E_{\textbf{x}^n|z_n=k,\textbf{y}^n}[\log \alpha_k+\log p(\textbf{x}^n,\textbf{y}^n|\Theta_k] \end{array}$
其中上式用到了各视频序列独立性的假设；

p(znk=1|yn) $p(z_{nk}=1|\textbf{y}^n)$ 为后验概率，可利用全概率公式计算。有了E步的计算，那么M步则利用拉格朗日乘子法对各参数进行求解。在M步的计算过程中，对联合分布的对数形式进行展开，对各参数的求解会面临两种形式：

第一种为如下的优化求解形式

$max X - 1 2 t r (X - 1 A) - λ 2 log | X |$ $\max_X -\frac{1}{2}tr(X^{-1}A)-\frac{\lambda}{2}\log |X|$
上式的求解只需计算对应导数并令其等于0而得到闭合解
$1 2 X - T A T X - T - λ 2 X - T = 0 A T - λ X T = 0 \Rightarrow X * = 1 λ A$ $\begin{array}{c} \frac{1}{2}X^{-T}A^TX^{-T}-\frac{\lambda}{2}X^{-T}=0\\ A^T-\lambda X^T=0\\ \Rightarrow \quad X^*=\frac{1}{\lambda}A \end{array}$
第二种为如下的优化求解形式

$max X - 1 2 t r [D (- B X T - X B T + X C X T)]$ $\max_X -\frac{1}{2}tr[D(-BX^T-XB^T+XCX^T)]$
其中 $D,C$ 为对称且可逆矩阵。同理
$- 1 2 (- D B - D T B + D T X C T + D X C) = 0 D B - D X C = 0 \Rightarrow X * = B C - 1$ $\begin{array}{c} -\frac{1}{2}(-DB-D^TB+D^TXC^T+DXC)=0\\ DB-DXC=0\\ \Rightarrow \quad X^*=BC^{-1} \end{array}$