EM算法在高斯混合模型中的应用（详细解释与求解）

1、高斯混合模型GMM

是指具有以下概率分布的模型：

$P(y|\theta)=\sum\limits_{k=1}^{K}\alpha_k\phi(y|\theta_k)$

可以看做是 $K$ 个单高斯模型的线性组合，其中 $\alpha_k$ 是第 $k$ 个单高斯模型的 $\phi(y|\theta_k)=\frac{1}{\sqrt{2\pi}\sigma_k}exp(-\frac{(x-\mu_k)^2}{2\sigma_k^2})$ （模型参数 $\theta_k=(\mu_k,\sigma_k)$ ）的系数，可以认作是权重，满足 $\sum\limits_{k=1}^{K}\alpha_k=1$ 。

2、EM算法应用于GMM

首先介绍EM算法步骤:

在这里插入图片描述

具体内容参考EM算法比较

假设观测序列 $y_1,y_2,...,y_n$ 产自以上混合高斯模型，对于某个观测值 $y_i$ 可以认为是依概率 $\alpha_k$ 选择了第 $k$ 个分模型 $\phi(y|\theta_k)$ 。我们做以下标记：

如果 $y_i$ 来自第 $k$ 个模型，那么 $\gamma_{ik}=1$ ，否则 $\gamma_{ik}=0$ 。

这个 $\gamma_{ik}$ 也就是隐变量了，因为我们只知道 $y_i$ 而不知道它来自哪个模型。
补充：或者这样理解 $p(z_j=k|y_j;\theta_k)$ ，同样是给出了样本 $y_j$ 由第 $k$ 个分模型产生的后验概率。等价于 $P(\gamma_{jk}=1|y_j,\theta_k)$ 。所以对前者求期望和对后者求期望是一样的，接下来使用的是后者（或许前者更容易理解）。

根据EM算法的E步：假设模型参数已知的情况下求隐含变量Z分别取z1,z2,…的期望，亦即Z分别取z1,z2,…的概率

$w_{jk}\\=E(\gamma_{jk}|y_j,\theta_k)\\=P(\gamma_{jk}=1|y_j,\theta_k)\\=\frac{P(\gamma_{jk}=1,y_j|\theta_k)}{\sum\limits_{k=1}^{K}P(y_j|\gamma_{jk}=1,\theta_k)P(\gamma_{jk}=1|\theta_k)}\\=\frac{P(y_j|\gamma_{jk}=1,\theta_k)P(\gamma_{jk}=1|\theta_k)}{\sum\limits_{k=1}^{K}P(y_j|\gamma_{jk}=1,\theta_k)P(\gamma_{jk}=1|\theta_k)}\\=\frac{\alpha_k\phi(y_j|\theta_k)}{\sum\limits_{k=1}^{K}\alpha_k\phi(y_j|\theta_k)}$

$w_{jk}$ 表示在当前模型下， $y_j$ 来自模型第 $k$ 个模型的概率，如果 $j=1->4$ ， $k=1->3$ 那么就得计算12次，对于每个 $j$ ，分别求 $w_{j1},w_{j2},w_{j3}$ ，所以很容易得到 $E(\gamma_{jk}|y_j,\theta_k)\\=P(\gamma_{jk}=1|y_j,\theta_k)\cdot1+P(\gamma_{jk}=1|y_j,\theta_k)\cdot0$ 。对于第四个等号是贝叶斯公式。对于第六个等号则是在介绍这章最开始介绍的对于取 $y_i$ 的假设，即：对于某个观测值 $y_i$ 可以认为是依概率 $\alpha_k$ 选择了第 $k$ 个分模型 $\phi(y|\theta_k)$ 。

E步计算完毕，那么进行M步，使用 $Q$ 函数进行极大似然估计，求出模型参数 $\theta_k=(\alpha_k,\mu_k,\sigma_k)$ ，下面开始推导
说明：下面的 $p_\theta()和p(;\theta)$ 是一样的，只是写法不同，都只是表示模型参数是 $\theta$ 而已。

$Q(\theta|\theta_n)=\sum\limits_{i=1}^{n} \sum\limits_{z}P(z|y_i;\theta_j)log^{P(y_i,z|\theta)}\\=\sum\limits_{i=1}^{n} \sum\limits_{k=1}^{K}w_{ik}logP(y_i|\gamma_{ik}=1;\theta)P(\gamma_{ik}=1|\theta)\\=\sum\limits_{i=1}^{n} \sum\limits_{k=1}^{K}w_{ik}log\alpha_k\phi(y_j|\theta_k)\\=\sum\limits_{i=1}^{n} \sum\limits_{k=1}^{K}w_{ik}log\alpha_k\frac{1}{\sqrt{2\pi}\sigma_k}exp(-\frac{(y_i-\mu_k)^2}{2\sigma_k^2})\\=\sum\limits_{i=1}^{n} \sum\limits_{k=1}^{K}w_{ik}\{log\alpha_k-log{\sqrt{2\pi}\sigma_k}-\frac{(y_i-\mu_k)^2}{2\sigma_k^2}\}$

$\frac{\partial Q}{\partial \mu_k}=\frac{\sum\limits_{i=1}^{n}w_{ik}(y_i-\mu_k)}{\sigma_k^2}=0$
$=>\mu_k=\frac{\sum\limits_{i=1}^{n}w_{ik}y_i}{\sum\limits_{i=1}^{n}w_{ik}},k=1,2,...,K$

注意：因为是对某个 $k'$ ，所以关于 $k$ 的求和符号最后只剩关于这个 $k'$ 的项。

$\frac{\partial Q}{\partial \sigma_k}=\sum\limits_{i=1}^{n}w_{ik}\{-\frac{1}{\sigma_k}-\frac{(y_i-\mu_k)^2}{2}\cdot \frac{-2}{\sigma_k^3}\}=0$

$=>\frac{\sum\limits_{i=1}^{n}w_{ik}(y_i-\mu_k)^2}{\sigma_k^3}=\frac{\sum\limits_{i=1}^{n}w_{ik}}{\sigma_k}$

$\sigma_k^2=\frac{\sum\limits_{i=1}^{n}w_{ik}(y_i-\mu_k)^2}{\sum\limits_{i=1}^{n}w_{ik}}$

关于 $\alpha_k$ 的推导就不要去直接求导然后令导数为0了，因为还有个限制条件 $\sum\limits_{k=1}^{K}\alpha_k=1$ ，所以得用拉格朗日函数。

$L(\alpha_k,\beta)=\sum\limits_{i=1}^{n} \sum\limits_{k=1}^{K}w_{ik}\{log\alpha_k-log{\sqrt{2\pi}\sigma_k}-\frac{(y_i-\mu_k)^2}{2\sigma_k^2}\}+\beta(1-\sum\limits_{k=1}^{K}\alpha_k)$

$\frac{\partial L}{\partial \alpha_k}=\sum\limits_{i=1}^{n}\frac{w_{ik}}{\alpha_k}+\beta=0$
$=>-\frac{\sum\limits_{i=1}^{n}w_{ik}}{\beta}=\alpha_k \qquad \qquad$ （1）

$\frac{\partial L}{\partial \beta}=1-\sum\limits_{k=1}^{K}\alpha_k=0$

$=>\sum\limits_{k=1}^{K}\alpha_k=1 \qquad \qquad$ （2）

对（1）两边对 $\alpha_k$ 进行求和
$-\frac{\sum\limits_{k=1}^{K}\sum\limits_{i=1}^{n}w_{ik}}{\beta}=\sum\limits_{k=1}^{K}\alpha_k=1$
$=>\beta=-\sum\limits_{k=1}^{K}\sum\limits_{i=1}^{n}w_{ik}$ ，带入到（1）得到：

$=>\frac{\sum\limits_{i=1}^{n}w_{ik}}{\sum\limits_{k=1}^{K}\sum\limits_{i=1}^{n}w_{ik}}=\alpha_k \qquad$ （3）

由于 $w_{ik}=\frac{\alpha_k\phi(y_i|\theta_k)}{\sum\limits_{k=1}^{K}\alpha_k\phi(y_i|\theta_k)}$
显然 $\sum\limits_{k=1}^{K}w_{ik}=1$

（3）式的分母是满足交换律，将 $w_{ik}$ 带入得到（3）最终得到:

$\alpha_k=\frac{\sum\limits_{i=1}^{n}w_{ik}}{n}$

将求得的三个参数当做下一次EM算法E步的参数继续下去直到收敛。