EM算法的基本理解

为什么要用EM算法（最大期望算法）？

在机器学习中，我们观察样本，建立模型，然后训练，进行预测。这是一个正常的流程，但是我们想一个问题，现实生活中一定有很多因素使我们无法观测的，也就是隐含数据？怎么办？

$EM$ 算法。。。

如果，只有模型而没有模型参数，那么
1、先猜想隐含数据（ $EM$ 算法的 $E$ 步）。
2、接着基于观察数据和猜测的隐含数据一起来极大化对数似然，求解我们的模型参数（ $EM$ 算法的 $M$ 步)。
由于我们之前的隐藏数据是猜测的，所以此时得到的模型参数一般还不是我们想要的结果。不过没关系，我们基于当前得到的模型参数，继续猜测隐含数据（ $EM$ 算法的 $E$ 步），然后继续极大化对数似然，求解我们的模型参数（ $EM$ 算法的 $M$ 步)。以此类推，不断的迭代下去，直到模型分布参数基本无变化，算法收敛，找到合适的模型参数。

要学习 $EM$ 算法（最大期望算法），首先要了解的是极大似然估计。。。

1、极大似然估计

总的来说：极大似然估计就是用来估计模型参数的统计学方法。

举个例子：
给定一组样本，并且他是高斯模型，怎么确定参数 $\mu$ 和 $\sigma$ ？

高斯分布的概率密度函数：

根据上面 MLE 得出的
代入每一个 $x_i$ 的高斯概率结果得到

通过取 log 对数对上式进行化简：

这时候我们得到目标函数：

下面就是考虑如何调整 $\mu$ 和 $\sigma$ 来使得目标函数最大。

与我们高斯模型矩估计结果一致。

那么，现在引入我们的话题，随机变量无法直接（完全）观察到，怎么办？
例如：

高斯混合模型GMM

首先还是根据极大似然估计的理论建立目标函数：

$\pi _k$ 相当于每一个高斯模型的权重，总的 $P$ 到最后最大是 $1$ 。

也就是 $\pi$ 决定每个高斯模型的重要性。

EM算法

取对数似然函数

这时候引入 Jensen 不等式：

由于对数函数是凹函数，所以有： $f(E(x)) \geq E(f(x))\;\; 如果f(x) 是凹函数$

为了寻找最大的下界，那么我们使上式中的等号成立：
（1）
进一步，由于 $Q_i(z^{(i)})$ 是一种分布的概率，所以加和为 $1$ ：
（2）
由上式（1）和（2）得到：

所以，推到 $EM$ 算法的过程：

如果 $Q_i(z^{(i)}) = P( z^{(i)}|x^{(i)};\theta))$ ，那么就是我们隐藏数据对数似然的下界，那么就要极大化这个似然函数。

在固定参数 $\theta$ 后，使下界拉升的 $Q(z)$ 的计算公式，解决了 $Q(z)$ 如何选择的问题。这一步就是 $E$ 步，建立 C 的下界。接下来的 $M$ 步，就是在给定 $Q(z)$ 后，调整 $\theta$ ，去极大化 V 的下界 $J$ 。