EM算法是一种优化算法。它应用的场景是含有隐变量的概率模型的极大似然估计或极大后验概率估计，它是极大似然估计或极大后验概率估计的具体实现方法。这篇文章我们仅讨论极大似然估计，极大后验概率估计与其类似。

1、含有隐变量的概率模型

隐：观测不到。

我们以三硬币模型为例。

假设有3枚硬币，分别记做 $A$ ， $B$ ， $C$ 。这些硬币正面出现的概率分别是 $\pi$ ， $p$ ， $q$ 。进行如下掷硬币实验：先掷硬币 $A$ ，根据其结果选出硬币 $B$ 或硬币 $C$ ；然后掷选出的硬币，出现正面记做1，出现反面记做0；独立重复 $n$ 次实验，假设观测结果如下：1，1，0，1，0，0，1，0，1，1。

【问】：假设只能观测到掷硬币的结果，不能观测掷硬币的过程。问如何估计三硬币正面出现的概率，即三硬币模型的参数。

我们先把这个过程转化成数学语言。掷硬币的整个过程包含两个事件，第一个事件是掷硬币 $A$ ，第二个事件是掷硬币 $B$ 或硬币 $C$ 。我们设第一个事件对应的随机变量用 $z$ 表示，第二个事件对应的随机变量用 $y$ 表示。随机变量 $z$ 表示未观测到的掷硬币 $A$ 的结果，随机变量 $y$ 表示观测到的掷硬币 $B$ 或硬币 $C$ 的结果。 $\theta =(\pi,p,q)$ 是模型参数。

三硬币模型可以写作

$p(y|\theta )=\sum_{z}^{}p(y,z|\theta )=\sum_{z}^{}p(z|\theta )p(y|z,\theta ) \\ \\ =\pi p^{y}(1-p)^{1-y}+(1-\pi)q^{y}(1-q)^{1-y}$

将观测数据表示为 $Y=(Y_{1},Y_{2},\cdots ,Y_{n})^{T}$ ，未观测数据表示为 $Z=(Z_{1},Z_{2},\cdots ,Z_{n})^{T}$ ，观测数据 $Y$ 独立同分布，未观测数据 $Z$ 独立同分布。则观测数据的似然函数为：

$p(Y|\theta )=\sum_{Z}^{}p(Z|\theta )p(Y|Z,\theta ) \\ \\ =\sum_{Z}^{}p(Z|\theta )\prod_{j=1}^{n}p(y_{j}|Z,\theta ) \\ \\ =\sum_{Z}^{}p(Z|\theta )\prod_{j=1}^{n}p(y_{j}|Z_{j},\theta ) \\ \\ =\sum_{Z}^{}\prod_{j=1}^{n}p(Z_{j}|\theta )\prod_{j=1}^{n}p(y_{j}|Z_{j},\theta ) \\ \\ =\sum_{Z}^{}\prod_{j=1}^{n}p(Z_{j}|\theta )p(y_{j}|Z_{j},\theta ) \\ \\ =\prod_{j=1}^{n}[\pi p^{y_{j}}(1-p)^{1-y_{j}}+(1-\pi)q^{y_{j}}(1-q)^{1-y_{j}}]$

其中 $\sum_{Z}^{}$ 中的 $Z$ 表示未观测数据所有的可能，如果 $n=2$ ，那么未观测数据所有的可能有四种：

(0,0),(0,1),(1,0),(1,1)。

2、EM算法推导

考虑求模型参数 $\theta =(\pi,p,q)$ 的极大似然估计，即

$\hat{\theta }=\underset{\theta }{argmax} \ p(Y|\theta )$

这个问题没有解析解，只有通过迭代的方式求解。EM算法就是可以用于求解这种问题的一种迭代算法。

下面我们推导一下EM算法。

我们的目标是极大化似然函数，也即极大化对数似然函数，我们把极大化的目标写出来，即：

$L(\theta )=log(p(Y|\theta ))=log \ (\sum_{Z}^{}p(Y,Z|\theta )) \\ \\ =log \ (\sum_{Z}^{}p(Y|Z,\theta )p(Z|\theta ))$

极大化 $L(\theta )$ 不是一件容易的事，因为式子里既有未观测数据，又有和的对数。EM算法通过迭代逐步近似极大化 $L(\theta )$ 。假设在第 $i$ 次迭代后 $\theta$ 的估计值是 $\theta ^{(i)}$ 。我们希望新估计值 $\theta$ 能使 $L(\theta )$ 增加，即 $L(\theta )>L(\theta ^{(i)})$ 。

$L(\theta )-L(\theta ^{(i)}) \\ \\ =log(p(Y|\theta ))-log(p(Y|\theta ^{(i)})) \\ \\ =log \ \sum_{Z}^{}p(Y|Z,\theta )p(Z|\theta )-log \ p(Y|\theta ^{(i)})$

式子里边的第一项是和的对数，我们可以利用Jensen不等式。先说下Jensen 不等式如下：（Jensen不等式具体推导可以参考 Jensen不等式证明。）

$log \ \sum_{i}^{} \lambda _{i}x_{i}\geq \sum_{i}^{} \lambda _{i}\ log x_{i}$ ，其中 $\lambda _{i}\geq 0$ ， $\sum_{i}^{}\lambda _{i}=1$ 。

利用Jensen不等式我们可以往下推：推导过程中利用的一个公式是： $\sum_{Z}^{}p(Z|Y,\theta ^{(i)})=1$ 。

$L(\theta )-L(\theta ^{(i)}) \\ \\ =log(p(Y|\theta ))-log(p(Y|\theta ^{(i)})) \\ \\ =log \ \sum_{Z}^{}p(Y|Z,\theta )p(Z|\theta )-log \ p(Y|\theta ^{(i)}) \\ \\ =log \ \sum_{Z}^{}p(Z|Y,\theta ^{(i)})\frac{p(Y|Z,\theta )p(Z|\theta )}{p(Z|Y,\theta ^{(i)})}-log \ p(Y|\theta ^{(i)}) \\ \\ \geq \sum_{Z}^{}p(Z|Y,\theta ^{(i)}) log\frac{p(Y|Z,\theta )p(Z|\theta )}{p(Z|Y,\theta ^{(i)})} - log \ p(Y|\theta ^{(i)}) \\ = \sum_{Z}^{}p(Z|Y,\theta ^{(i)}) log\frac{p(Y|Z,\theta )p(Z|\theta )}{p(Z|Y,\theta ^{(i)})} - \sum_{Z}^{}p(Z|Y,\theta ^{(i)})log \ p(Y|\theta ^{(i)}) \\ \\ = \sum_{Z}^{}p(Z|Y,\theta ^{(i)}) log\frac{p(Y|Z,\theta )p(Z|\theta )}{p(Z|Y,\theta ^{(i)})p(Y|\theta ^{(i)}) }$

令:

$B(\theta ,\theta ^{(i)})=L(\theta ^{(i)})+\sum_{Z}^{}p(Z|Y,\theta ^{(i)})log\frac{p(Y|Z,\theta )p(Z|\theta )}{p(Z|Y,\theta ^{(i)})p(Y|\theta ^{(i)})}$

那么：

$L(\theta )\geq B(\theta ,\theta ^{(i)})$

即函数 $B(\theta ,\theta ^{(i)})$ 是 $L(\theta )$ 的一个下界。

又因为 $L(\theta )$ 在 $\theta =\theta ^{(i)}$ 时的值和 $B(\theta ,\theta ^{(i)})$ 在 $\theta =\theta ^{(i)}$ 的值相等:

$B(\theta ^{(i)},\theta ^{(i)}) \\ \\ =L(\theta ^{(i)})+\sum_{Z}^{}p(Z|Y,\theta ^{(i)})log\frac{p(Y|Z,\theta ^{(i)})p(Z|\theta ^{(i)})}{p(Z|Y,\theta ^{(i)})p(Y|\theta ^{(i)})} \\ \\ =L(\theta ^{(i)})+\sum_{Z}^{}p(Z|Y,\theta ^{(i)})log\frac{p(Y,Z|\theta ^{(i)})}{p(Y,Z|\theta ^{(i)})} \\ \\ =L(\theta ^{(i)})+\sum_{Z}^{}p(Z|Y,\theta ^{(i)})log 1 \\ \\ =L(\theta ^{(i)})$

因此，任何可以使 $B(\theta ,\theta ^{(i)})$ 增大的 $\theta$ ，也可以使 $L(\theta )$ 增大。为了使 $L(\theta )$ 尽可能大的增大，选择 $\theta ^{(i+1)}$ 使得 $B(\theta ,\theta ^{(i)})$ 达到极大，即：

$\theta ^{(i+1)} \\ =\underset{\theta }{argmax}\ B(\theta ,\theta ^{(i)}) \\ \\ =\underset{\theta }{argmax}\ (L(\theta ^{(i)})+\sum_{Z}^{}p(Z|Y,\theta ^{(i)})log\frac{p(Y|Z,\theta )p(Z|\theta )}{p(Z|Y,\theta ^{(i)})p(Y|\theta ^{(i)})}) \\ \\ =\underset{\theta }{argmax}\ (\sum_{Z}^{}p(Z|Y,\theta ^{(i)})\ log\ p(Y|Z,\theta )p(Z|\theta )) \\ \\ =\underset{\theta }{argmax}\ Q(\theta ,\theta ^{(i)})$

在迭代第 $i+1$ 次时，即求 Q 函数及其极大化。EM算法是通过不断求解下界的极大化逼近求解对数似然函数极大化的算法。

EM算法的收敛性：在 $Q$ 函数满足一定条件下，由EM算法得到的参数估计序列的收敛值是 $L(\theta )$ 的稳定点。证明我没看，有兴趣的同学找找文献吧～。证明的定理只能保证参数估计序列收敛到对数似然函数序列的稳定点，不能保证收敛到极大值点。所以在应用中，初值的选择变得非常重要，常用的办法是选取几个不同的初值进行迭代，然后对得到的各个估计值加以比较，从中选择最好的。

3、EM算法实例推导

我们回到硬币三硬币模型。

我们需要计算 $\sum_{Z}^{}p(Z|Y,\theta ^{(i)})\ log\ p(Y|Z,\theta )p(Z|\theta )$ ，即 $Q(\theta ,\theta ^{(i)})$ 。

首先可以推导一下，其中 $n$ 表示观测数据长度：

$Q(\theta ,\theta ^{(i)}) \\ \\ =\sum_{Z}^{}p(Z|Y,\theta ^{(i)})\ log\ p(Y|Z,\theta )p(Z|\theta ) \\ \\ =\sum_{Z}^{}\ log\ \{[p(Y|Z,\theta )p(Z|\theta )] ^{p(Z|Y,\theta ^{(i)})} \} \\ \\ =\sum_{Z}^{}\ log\ \prod_{j=1}^{n}\{[p(y_{j}|Z,\theta )p(Z|\theta )] ^{p(Z|y_{j},\theta ^{(i)})} \} \\ \\ =\sum_{Z}^{}\ \sum_{j=1}^{n}log\ \{[p(y_{j}|Z,\theta )p(Z|\theta )] ^{p(Z|y_{j},\theta ^{(i)})} \} \\ \\ =\sum_{j=1}^{n}\sum_{Z}^{}\ log\ \{[p(y_{j}|Z,\theta )p(Z|\theta )] ^{p(Z|y_{j},\theta ^{(i)})} \} \\ \\ =\sum_{j=1}^{n}\sum_{z}^{}\ p(z|y_{j},\theta ^{(i)})log\ [p(y_{j}|z,\theta )p(z|\theta )] \\ \\ =\sum_{j=1}^{n}\ p(z=1|y_{j},\theta ^{(i)})log\ [p(y_{j}|z=1,\theta )p(z=1|\theta )]+p(z=0|y_{j},\theta ^{(i)})log\ [p(y_{j}|z=0,\theta )p(z=0|\theta )]$

其中 $p(z=1|y_{j},\theta ^{(i)})$ 为 $y_{j}$ 来自硬币 $B$ 的概率。其中 $p(z=0|y_{j},\theta ^{(i)})$ 为 $y_{j}$ 来自硬币 $C$ 的概率， $p(z=0|y_{j},\theta ^{(i)})=1-p(z=1|y_{j},\theta ^{(i)})$ 。

我们可以把 $p(z=1|y_{j},\theta ^{(i)})$ 算出来，并把 $p(z=1|y_{j},\theta ^{(i)})$ 记作 $\mu ^{(i+1)}_{j}$ ，那么：

$p(z=1|y_{j},\theta ^{(i)}) \\ \\ =\mu ^{(i+1)} _{j}\\ \\ =\frac{\pi^{(i)} (p^{(i)})^{y_{j}}(1-p^{(i)})^{1-y_{j}}}{\pi^{(i)} (p^{(i)})^{y_{j}}(1-p^{(i)})^{1-y_{j}}+(1-\pi^{(i)})(q^{(i)})^{y}(1-q^{(i)})^{1-y_{j}}}$

同时我们可以得到：

$p(z=0|y_{j},\theta ^{(i)}) =1-\mu ^{(i+1)}_{j}$

那么：

$Q(\theta ,\theta ^{(i)}) \\ \\ =\sum_{j=1}^{n}\ p(z=1|y_{j},\theta ^{(i)})log\ [p(y_{j}|z=1,\theta )p(z=1|\theta )]+p(z=0|y_{j},\theta ^{(i)})log\ [p(y_{j}|z=0,\theta )p(z=0|\theta )] \\ \\ =\sum_{j=1}^{n}\ \mu ^{i+1}_{j}log\ [p^{y_{j}}(1-p)^{(1-y_{j})}\pi ]+(1-\mu ^{i+1}_{j})log\ [q^{y_{j}}(1-q)^{(1-y_{j})}(1-\pi )]$

我们要求的第 $i+1$ 次迭代的参数是：

$\theta ^{(i+1)}=\underset{\theta }{argmax}\ Q(\theta ,\theta ^{(i)})$

我们求 $Q(\theta ,\theta ^{(i)})$ 对 $\pi$ , $p$ , $q$ 的导数，并令其为0得到第 $i+1$ 次迭代的参数：（求各个参数的导数并令其为0，就得到了最优解，至于为什么，我现在也没有弄明白，以后研究下，有明白的大神欢迎留言～）

求 $Q(\theta ,\theta ^{(i)})$ 对 $\pi$ 的导数并令其为0:

$\frac{\partial Q(\theta ,\theta ^{(i)})}{\partial \pi} \\ \\ =\sum_{i=1}^{n}\frac{\mu ^{(i+1)}_{j}}{\pi}-\frac{1-\mu ^{(i+1)}_{j}}{1-\pi} \\ \\=\sum_{i=1}^{n}\frac{\mu ^{(i+1)}_{j}-\pi}{\pi (1-\pi)}$

让 $\sum_{i=1}^{n}\frac{\mu ^{(i+1)}_{j}-\pi}{\pi (1-\pi)} = 0$ ，可推导出：

$\sum_{i=1}^{n}\frac{\mu ^{(i+1)}_{j}-\pi}{\pi (1-\pi)} =0 \\ \\ \sum_{i=1}^{n}[\frac{\mu ^{(i+1)}_{j}}{\pi (1-\pi)} -\frac{\pi}{\pi (1-\pi)}]=0 \\ \\ \sum_{i=1}^{n}\frac{\mu ^{(i+1)}_{j}}{\pi (1-\pi)} -\sum_{i=1}^{n}\frac{\pi}{\pi (1-\pi)}=0 \\ \\ \sum_{i=1}^{n}\frac{\mu ^{(i+1)}_{j}}{\pi (1-\pi)} =\sum_{i=1}^{n}\frac{\pi}{\pi (1-\pi)} \\ \\ \frac{1}{\pi (1-\pi)} \sum_{i=1}^{n}\mu ^{(i+1)}_{j}=\frac{1}{\pi (1-\pi)} \sum_{i=1}^{n} \pi \\ \\ \sum_{i=1}^{n}\mu ^{(i+1)}_{j}= \sum_{i=1}^{n} \pi \\ \\ \sum_{i=1}^{n}\mu ^{(i+1)}_{j}= n \pi \\ \\ \pi=\frac{1}{n}\sum_{i=1}^{n}\mu ^{(i+1)}_{j}$

求 $Q(\theta ,\theta ^{(i)})$ 对 $p$ 的导数并令其为0:

$\frac{\partial Q(\theta ,\theta ^{(i)})}{\partial p} \\ \\ =\sum_{i=1}^{n}\mu ^{(i+1)}_{j}(\frac{y_{j}}{p}-\frac{1-y_{j}}{1-p}) \\ \\=\sum_{i=1}^{n}\mu ^{(i+1)}_{j}\frac{(y_{j}-p)}{p(1-p)}$

令 $\sum_{i=1}^{n}\mu ^{(i+1)}_{j}\frac{(y_{j}-p)}{p(1-p)}=0$ 可推导出：

$\sum_{i=1}^{n}\mu ^{(i+1)}_{j}\frac{(y_{j}-p)}{p(1-p)}=0 \\ \\ \sum_{i=1}^{n}\mu ^{(i+1)}_{j} (y_{j}-p)=0 \\ \\ \sum_{i=1}^{n}\mu ^{(i+1)}_{j}y_{j}=\sum_{i=1}^{n}\mu ^{(i+1)}_{j}p \\ \\ \sum_{i=1}^{n}\mu ^{(i+1)}_{j}y_{j}=p \sum_{i=1}^{n}\mu ^{(i+1)}_{j} \\ \\ p=\frac{\sum_{i=1}^{n}\mu ^{(i+1)}_{j}y_{j}}{\sum_{i=1}^{n}\mu ^{(i+1)}_{j}}$

求 $Q(\theta ,\theta ^{(i)})$ 对 $q$ 的导数并令其为0:

$\frac{\partial Q(\theta ,\theta ^{(i)})}{\partial q} \\ \\ =\sum_{i=1}^{n}(1-\mu ^{(i+1)}_{j})(\frac{y_{j}}{q}-\frac{1-y_{j}}{1-q}) \\ \\=\sum_{i=1}^{n}(1-\mu ^{(i+1)}_{j})\frac{(y_{j}-q)}{q(1-q)}$

令 $\sum_{i=1}^{n}(1-\mu ^{(i+1)}_{j})\frac{(y_{j}-q)}{q(1-q)}=0$ 可推导出：（同推导 $p$ 一样）

$q=\frac{\sum_{i=1}^{n}(1-\mu ^{(i+1)}_{j})y_{j}}{\sum_{i=1}^{n}(1-\mu ^{(i+1)}_{j})}$

到现在为止就计算出来第 $i+1$ 次迭代的最优参数啦～

EM（期望最大）算法推导以及实例计算

1、含有隐变量的概率模型

2、EM算法推导

3、EM算法实例推导

猜你喜欢