统计学习方法笔记（十三）EM算法（二）

EM算法在高斯混合模型学习中的应用

一、高斯混合模型
1、定义：高斯混合模型是指具有以下形式的概率分布模型：
$P(y|\theta ) = \sum\limits_{k = 1}^K {{\alpha _k}\phi (y|{\theta _k})}$
其中， $\alpha_k$ 是系数，有 $\sum\limits_{k = 1}^K {{\alpha _k}} = 1,{\alpha _k} \ge 0$ ； ${\phi (y|{\theta _k})}$ 是高斯分布密度， ${\theta _k} = ({\mu _k},\sigma _k^2)$
2、EM算法的应用
假设观测数据是由高斯混合模型生成的，我们需要利用EM算法来估计参数 $\theta$
（1）明确隐变量，写出完全数据的对数似然函数
我们已知一个观测数据 $y_i$ 但不知道是由哪个分模型产生的，以隐变量 ${\gamma _{jk}}$ 来表示，其定义为：
当第j个观测来自第k个分模型时，隐变量取1，否则取0
所以完全数据的似然函数为：

\begin{matrix} P (y, γ | θ) = \prod_{j = 1}^{N} P (y_{j}, γ_{j 1}, γ_{j 2}, \dots, γ_{j k} | θ) \\ = \prod_{k = 1}^{N} {\prod_{j = 1}^{N} [α_{k} ϕ (y_{j} | θ_{k})]}^{γ_{j k}} \\ = \prod_{k = 1}^{K} {α_{k}^{n_{k}} \prod_{j = 1}^{N} [\frac{1}{\sqrt{2 π} σ_{k}} \exp (- \frac{{(y_{j} - μ_{k})}^{2}}{2 σ_{k}^{2}})]}^{γ_{j k}} \end{matrix}

$\begin{array}{c} P(y,\gamma |\theta ) = \prod\limits_{j = 1}^N {P({y_j},{\gamma _{j1}},{\gamma _{j2}}, \cdots ,{\gamma _{jk}}|\theta )} \\ = {\prod\limits_{k = 1}^N {\prod\limits_{j = 1}^N {[{\alpha _k}\phi ({y_j}|{\theta _k})]} } ^{{\gamma _{jk}}}}\\ {\rm{ = }}{\prod\limits_{k = 1}^K {\alpha _k^{{n_k}}\prod\limits_{j = 1}^N {\left[ {\frac{1}{{\sqrt {2\pi } {\sigma _k}}}\exp \left( { - \frac{{{{({y_j} - {\mu _k})}^2}}}{{2\sigma _k^2}}} \right)} \right]} } ^{{\gamma _{jk}}}} \end{array}$
由此可以求出完全似然函数。
（2）确定Q函数

Q (θ, θ^{(i)}) = E [\log P (y, γ | θ) | y, θ^{(i)}]

$Q(\theta ,{\theta ^{(i)}}) = E[\log P(y,\gamma |\theta )|y,{\theta ^{(i)}}]$
（3）求极大值
经过一系列的推导，具体可以参考《统计学习方法》第163，最终总结如下：
E步：计算分模型对观测数据的响应度：

{\hat{γ}}_{j k} = \frac{α_{k} ϕ (y_{j} | θ_{k})}{\prod_{k = 1}^{K} α_{k} ϕ (y_{j} | θ_{k})}

${\widehat \gamma _{jk}} = \frac{{{\alpha _k}\phi ({y_j}|{\theta _k})}}{{\prod\limits_{k = 1}^K {{\alpha _k}\phi ({y_j}|{\theta _k})} }}$
M步：计算迭代参数：

{\hat{μ}}_{k} = \frac{\sum_{j = 1}^{N} {\hat{γ}}_{j k} y_{j}}{\sum_{j = 1}^{N} {\hat{γ}}_{j k}}

${\widehat \mu _k} = \frac{{\sum\limits_{j = 1}^N {{{\widehat \gamma }_{jk}}{y_j}} }}{{\sum\limits_{j = 1}^N {{{\widehat \gamma }_{jk}}} }}$

{\hat{σ}}_{k}^{2} = \frac{{\sum_{j = 1}^{N} {\hat{γ}}_{j k} (y_{j} - μ_{k})}^{2}}{\sum_{j = 1}^{N} {\hat{γ}}_{j k}}

$\widehat \sigma _k^2 = \frac{{{{\sum\limits_{j = 1}^N {{{\widehat \gamma }_{jk}}({y_j} - {\mu _k})} }^2}}}{{\sum\limits_{j = 1}^N {{{\widehat \gamma }_{jk}}} }}$

{\hat{α}}_{k} = \frac{\sum_{j = 1}^{N} {\hat{γ}}_{j k}}{N}

${\widehat \alpha _k} = \frac{{\sum\limits_{j = 1}^N {{{\widehat \gamma }_{jk}}} }}{N}$
重复迭代，直至收敛

统计学习方法笔记（十三）EM算法（二）

EM算法在高斯混合模型学习中的应用

猜你喜欢