EM算法之高斯混合模型（一）

单个高斯模型

如果我们有一堆数据，其分布属于一个高斯模型，那么有

p (X) = N (x | μ, Σ) = 1 ( 2 π ) m | Σ | ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt e x p [- 1 2 (x - μ) T Σ - 1 (x - μ)] (1.1)

$p(X) = N(x|\mu,\Sigma) = \frac1 {\sqrt{(2\pi)^m|\Sigma|}}exp[-\frac1 2(x-\mu)^T\Sigma^{-1}(x-\mu)] \quad(1.1)$
这样子的话，对于单个高斯，我们可以直接对其参数

μ $\mu$ 和

Σ $\Sigma$ 进行求导，求出对应的参数。
那么现在有一堆数据，其分布如下所示，
这里写图片描述

那么我们需要用多个高斯对数据的分布进行描述。接下来我们看看多个高斯混合模型.

混合高斯模型

每个GMM由K个Gaussian分布组成，每个高斯分布(Gaussian)称为一个“Component”，这些Component 线性加成在一起就组成了 GMM 的概率密度函数：

p (x) = \sum k = 1 K p (k) p (x | k) = \sum k = 1 K π k N k (x | μ k, Σ k) (2.1)

$p(x) = \sum_{k=1}^Kp(k)p(x|k) \\ =\sum_{k=1}^K\pi_kN_k(x|\mu_k,\Sigma_k) \quad(2.1)$
上式中

∑Kk=1πk=1 $\sum_{k=1}^K\pi_k = 1$ ，其中：

N k (x | μ k, Σ k) = 1 ( 2 π ) m | Σ k | ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt e x p [- 1 2 (x - μ k) T Σ - 1 k (x - μ k)] (2.2)

$N_k(x|\mu_k,\Sigma_k) = \frac1 {\sqrt{(2\pi)^m|\Sigma_k|}}exp[-\frac1 2(x-\mu_k)^T\Sigma_k^{-1}(x-\mu_k)] \quad(2.2)$
这边我们的参数可以用

θ⎯⎯ $\overline\theta$ 来表示：

θ⎯⎯={μ1,μ2...μk,Σ1,Σ2,...,Σk,π1,π2,...,πk} $\overline\theta= \left\{\mu_1,\mu_2...\mu_k,\Sigma_1,\Sigma_2,...,\Sigma_k,\pi_1,\pi_2,...,\pi_k\right\}$

这边的 $\pi_i$ 表示的是每个高斯分布对数据分布的权重， $\sum_i^k\pi_i = 1$

那我们如何从分布中取一点吗？我们可以分成两步，首先 $\pi_k$ 的概率选择一个component(每个component就是一个聚类中心)，然后再从选中的这个歌高斯分布中抽取一个点。

高斯混合模型参数估计与似然函数

如果我们直接按照单个高斯分布那样直接对高斯混合模型使用Maximum Likelihood来求解的话：

θ ⎯ ⎯ M L E = a r g m a x θ {\sum i N l n [\sum i k π l N (μ l, Σ l)]} (3.1)

$\overline\theta_{MLE} = {argmax}_\theta\left\{\sum_i^Nln[\sum_i^k\pi_lN(\mu_l,\Sigma_l)]\right\} \quad(3.1)$
分别对每个高斯进行求导，式子中log里面的都是求和，这样子分别求导是很困难的。

EM算法进行参数求解

最近看到一篇深入讲解EM算法的文章（链接在最后），然后赶紧把其中的东西拿过来补充一下EM算法。
EM算法就是E 期望 + M 最大化两步。那么我们先看一个直观的例子：

最经典的例子就是抛3个硬币，跑I硬币决定C1和C2，然后抛C1或者C2决定正反面，然后估算3个硬币的正反面概率值。
这里写图片描述
这个例子为什么经典，因为它告诉我们，当存在隐变量I的时候，直接的最大似然估计无法直接搞定。

EM算法
输入：观测数据X，隐变量数据Z，联合分布P(X,Z| $\theta$ ),条件分布P(Z|X, $\theta$ );
输出模型参数： $\theta$
1. 选择初始参数 $\theta^{(0)}$ ,开始迭代;
2. E step:记 $\theta^{(i)}$ 为第i次迭代时 $\theta$ 的参数估计，那么第i+1步迭代记做:
$Q(\theta,\theta^{(i)})=E_z[log(X,Z|\theta)|X,\theta^{(i)}] = \sum_zlogP(X,Z|\theta)P(Z|X,\theta^{(i)})$
这里的 $Q(\theta,\theta^{(i)})$ 是对数似然函数 $logP(X,Z|\theta)$ 关于在给定观测数据X和当前参数 $\theta^{(i)}$ 下对未观测数据Z的条件概率分布 $P(Z|Y,\theta^{(i)})$ 。这边如果隐含变量Z是连续的话，我们可以使用积分 $\int_z$ 而不是求和 $\sum_z$
3. M step:求 $Q(\theta,\theta^{(i)})$ 的最大化,即为我们第i+1次迭代参数 $\theta^{(i)}$ 的值。
$\theta^{(i+1)} = argmax_{\theta}Q(\theta,\theta^{(i)})$
4. 重复第2和第3步，直到收敛。迭代停止的条件是，一般满足：
$|| \theta^{(i+1)} - \theta^{(i)}||<\varepsilon$ 或者 $||Q(\theta^{(i+1)},\theta^{(i)}|| < \varepsilon$

根据上述EM算法我们给出我们参数求解的迭代公式：

θ (g + 1) = a r g m a x θ \int z l n {P (x, z | θ) P (z | x, θ (g))} d z (4.1)

$\theta^{(g+1)} = {argmax}_\theta\int_zln\left\{P(x,z|\theta)P(z|x,\theta^{(g)})\right\}dz \quad(4.1)$
x : 是我们已有的数据
z : 是隐变量，如果隐变量是连续的就用积分，如果是离散的就用求和。

加入隐变量不能改变原有的边缘分布，即：
p(x) = $\int_z$ P(x|z)P(z)dz

那这边的隐变量是什么呢？那我们先看一个图：
这里写图片描述
我们有一些数据其分布属于两个混合高斯，每个数据 $x_i$ 有一个对应的 $z_i$ ，这边的z就是我们的隐变量，而每个 $z_i$ 等于1或者2，1指的是该数据属于第一个高斯分布，2指的是该数据属于第二个高斯分布。
那我们看看加入隐变量会不会改变原有的分布：

P (x i) = \sum z i P θ (x i | z i) P θ (z i) = \sum z i π z i N (μ z i, Σ z i) (4.2)

$P(x_i) = \sum_{z_i}P_{\theta}(x_i|z_i)P_{\theta}(z_i) = \sum_{z_i}\pi_{z_i}N(\mu_{z_i},\Sigma_{z_i}) \quad(4.2)$

Pθ(zi)=πzi $P_{\theta}(z_i) = \pi_{z_i}$ 所以我们可以从上式中可以看出加入隐变量并未改变原有的分布。

EM算法的收敛性

设P(X| $\theta$ )为观测数据的似然函数， $\theta^{(i)}$ 为EM算法得到的参数估计序列，P(X| $\theta^{(i)}$ )为对应的似然函数序列，则 $P(X|\theta^{(i)})$ 是单调递增的，即

P (X | θ (i + 1)) \geq P (X | θ (i)) (5.1)

$P(X|\theta^{(i+1)}) \ge P(X|\theta^{(i)}) \quad(5.1)$
proof:
要证明函数收敛，就是证明：

l o g P (X | θ (g + 1)) \geq l o g P (X | θ (g))

$logP(X|\theta^{(g+1)}) \ge logP(X|\theta^{(g)})$
那么

l o g P (X | θ) = l o g P (X, Z | θ) - l o g (Z | X, θ) (5.2)

$logP(X|\theta) = logP(X,Z|\theta) -log(Z|X,\theta) \quad(5.2)$

因为 $P(X|\theta) = \frac{P(X,Z|\theta)}{P(Z|Y,\theta)}$ ，即 $P_\theta(X) = \frac{P_\theta(X,Z)}{P_\theta(Z|X)}$

现在我们对上面的式子分别对 $P(Z|Y,\theta^{(i)})$ 求期望：

左 边 = E P (Z | X, θ (i)) {l o g P (X | θ)} = \int z l o g (P (X | θ)) P (Z | X, θ (i)) d z = l o g (P (X | θ)) \int z P (Z | X, θ (i)) = l o g (P (X | θ)) (5.3)

$左边=E_{P(Z|X,\theta^{(i)})}\left\{logP(X|\theta)\right\}\\ = \int_zlog(P(X|\theta))P(Z|X,\theta^{(i)})dz = log(P(X|\theta))\int_zP(Z|X,\theta^{(i)}) = log(P(X|\theta)) \quad(5.3)$
那么右边

右 边 = \int z l o g P (X, Z | θ) P (Z | X, θ (i)) d z - \int z l o g P (Z | X, θ) P (Z | X, θ (i)) d z (5.4)

$右边 = \int_zlogP(X,Z|\theta)P(Z|X,\theta^{(i)})dz - \int_zlogP(Z|X,\theta)P(Z|X,\theta^{(i)})dz \quad(5.4)$
现在我们令

Q (θ, θ (i)) = \int z l o g P (X, Z | θ) P (Z | X, θ (i)) d z = \sum z l o g P (X, Z | θ) P (Z | X, θ (i)) (5.5) H (θ, θ (i)) = \int z l o g P (Z | X, θ) P (Z | X, θ (i)) d z = \sum z l o g P (Z | X, θ) P (Z | X, θ (i)) (5.6)

$Q(\theta,\theta^{(i)}) = \int_zlogP(X,Z|\theta)P(Z|X,\theta^{(i)})dz = \sum_zlogP(X,Z|\theta)P(Z|X,\theta^{(i)}) \quad(5.5)\\ H(\theta,\theta^{(i)}) = \int_zlogP(Z|X,\theta)P(Z|X,\theta^{(i)})dz = \sum_zlogP(Z|X,\theta)P(Z|X,\theta^{(i)}) \quad(5.6)$
于是对数似然函数可以写成：

l o g (P (X | θ)) = Q (θ, θ (i)) - H (θ, θ (i)) (5.7)

$log(P(X|\theta)) = Q(\theta,\theta^{(i)}) - H(\theta,\theta^{(i)}) \quad(5.7)$
在式子(5.7)中分别取

θ $\theta$ 为

θ(i) $\theta^{(i)}$ 和

θ(i+1) $\theta^{(i+1)}$ :

l o g P (X | θ (i + 1)) - l o g P (X | θ (i)) = [Q (θ (i + 1), θ (i)) - Q (θ (i), θ (i))] - [H (θ (i + 1), θ (i)) - H (θ (i), θ (i))] (5.8)

$logP(X|\theta^{(i+1)}) - logP(X|\theta^{(i)})\\ =[Q(\theta^{(i+1)},\theta^{(i)}) - Q(\theta^{(i)},\theta^{(i)})] - [H(\theta^{(i+1)},\theta^{(i)}) - H(\theta^{(i)},\theta^{(i)})] \quad(5.8)$
因为根据(4.1)，

θ(i+1) $\theta^{(i+1)}$ 使

Q(θ,θ(i)) $Q(\theta,\theta^{(i)})$ 达到最大，所以有：

Q (θ (i + 1), θ (i)) - Q (θ (i), θ (i)) \geq 0 (5.9)

$Q(\theta^{(i+1)},\theta^{(i)}) - Q(\theta^{(i)},\theta^{(i)}) \ge 0 \quad(5.9)$
那

H (θ (i + 1), θ (i)) - H (θ (i), θ (i)) = \sum z ⟮ l o g P ( Z | X , θ ( i + 1 ) ) P ( Z | X , θ ( i ) ) ⟯ P (Z | X, θ (i)) \leq l o g ⟮ \sum z P ( Z | X , θ ( i + 1 ) ) P ( Z | X , θ ( i ) ) ⟯ P (Z | X, θ (i)) = l o g ⟮ P (Z | X, θ (i + 1)) ⟯ = 0 (5.9)

$H(\theta^{(i+1)},\theta^{(i)}) - H(\theta^{(i)},\theta^{(i)})\\ =\sum_z\lgroup log\frac{P(Z|X,\theta^{(i+1)})}{P(Z|X,\theta^{(i)})}\rgroup P(Z|X,\theta^{(i)})\\ \le log \lgroup \sum_z \frac{P(Z|X,\theta^{(i+1)})}{P(Z|X,\theta^{(i)})} \rgroup P(Z|X,\theta^{(i)})\\ = log \lgroup P(Z|X,\theta^{(i+1)}) \rgroup = 0 \quad(5.9)$

这边的不等式用到了jensen不等式，pf(x)+(1-p)f(y) $\ge$ f[(1-p)y + px]

所以综上EM算法收敛。

参考：

贝叶斯推断及其互联网应用（一）：定理简介

漫谈 Clustering (3): Gaussian Mixture Model

GMM算法（Python版）

EM算法的九层境界：Hinton和Jordan理解的EM算法