EM（Expectation Maximization）算法

在现实数据中，我们经常会遇到一些“不完整”的样本，如某些样本的属性值未知，某些样本的标签未知，这些未知的属性值统称为隐变量。由于隐变量的存在，我们不能直接通过极大似然估计求出模型的参数，而EM算法在这些为观测属性的情况下仍能对模型参数进行估计。EM算法是一种迭代优化策略，在每一次迭代过程中都包含两部：1. 求期望 2. 最大化。
EM算法的基本思想是：首先根据已经给出的观测数据（无缺失数据），估计出模型参数的值；然后依据上一步估计出的参数值估计缺失数据的值，再依据估计出的缺失数据加上之前已经观测到的数据重新对参数值进行估计；反复迭代，直到最后收敛。
其基本思想换句话而言，即：若参数 $\theta$ 已知，则可根据训练数据推断出最优隐变量 $Z$ 【E步，求Z的期望】；若Z的值已知，则可方便对参数 $\theta$ 做极大似然估计（M步）。

预备知识

Jensen不等式

设 $f$ 是定义域为实数的函数，若 $\forall x \in \mathbb{R}，f'' \geq 0$ ，那么 $f$ 是凸函数。
Jensen不等式定义如下：若 $f$ 是凸函数，X是随机变量，则有 $E[f(X)]\geq f(E[X])$ 。当且仅当 $X$ 是常量时，上式取等号。
当Jensen不等式应用于凹函数时，不等式方向反向。当且仅当 $X$ 是常量时，Jensen不等式等号成立。

EM算法推导

样本集 $X=\{x_1，...，x_m\}$ ，包含 $m$ 个单独的样本；其中每个样本 $x_i$ 对应的类别 $z_i$ 是未知的（即每个样本属于哪个分布式未知的）；我们需要估计概率模型 $\mathfrak{p}(x,z)$ 的参数 $\theta$ ,即寻找适合的 $\theta$ 让 $logL(\theta) = \sum_i{log\mathfrak{p}(x^{(i)};\theta)}$ 最大。但是，由推导可知该对数似然函数不能直接求得，因为 $z^{(i)}的分布未知$

\begin{aligned} (1) & \sum_{i} l o g p (x^{(i)} ； θ) & = \sum_{i} l o g \sum_{z^{(i)}} p (x^{(i)} ， z^{(i)} ； θ) \\ (2) & = \sum_{i} l o g \sum_{z^{(} i)} Q_{i} (z^{(i)}) \frac{p (x^{(i)} ， z^{(i)} ； θ)}{Q_{i} (z^{(i)})} \\ (3) & \geq \sum_{i} \sum_{z^{(i)}} Q_{i} (z (i)) l o g \frac{p (x^{(i)} ， z^{(i)} ； θ)}{Q_{i} (z^{(i)})} \end{aligned}

$\begin{align} \sum_ilog\mathfrak{p}(x^{(i)}；\theta) &= \sum_ilog\sum_{z^{(i)}}\mathfrak{p}(x^{(i)}，z^{(i)}；\theta) \\ & = \sum_ilog\sum_{z^(i)}Q_i(z^{(i)})\frac{\mathfrak{p}(x^{(i)}，z^{(i)}；\theta) \\}{Q_i(z^{(i)})} \\ & \geq \sum_i\sum_{z^{(i)}}Q_i(z(i))log\frac{\mathfrak{p}(x^{(i)}，z^{(i)}；\theta) \\}{Q_i(z^{(i)})} \end{align}$ 这里介绍上式后面的不等式交换

\sum Q_{i} (z^{(i)}) [\frac{p (x^{(i)} ， z^{(i)} ； θ)}{Q_{i} (z^{(i)})}]

$\sum Q_i(z^{(i)})[\frac{\mathfrak{p}(x^{(i)}，z^{(i)}；\theta)}{Q_i(z^{(i)})}]$ 是

\frac{p (x^{(i)} ， z^{(i)} ； θ)}{Q_{i} (z^{(i)})}

$\frac{\mathfrak{p}(x^{(i)}，z^{(i)}；\theta)}{Q_i(z^{(i)})}$ 的期望，且

l o g (x)

$log(x)$ 为凹函数，故按照Jensen不等式，有

E [f (X)] \leq f (E [X]) 成 立

$E[f(X)] \leq f(E[X])成立$ 。
由上式，我们得到了对数似然函数

l o g L (θ)

$log\mathbb{L}(\theta)$ 的下界。

算法步骤

因此EM算法分为两步：

固定 $\theta$ ，得到 $Q(Z)$ 的分布。按照 Jensen不等式成立的条件，当且仅当条件 $\mathfrak{x}$ 为常数时，等式成立。即 $\frac{\mathfrak{p}(x^{(i)}，z^{(i)}；\theta)}{Q_i(z^{(i)})} = c$ 。由于该等式不依赖于 $z^{(i)}$ ，故有 $\begin{aligned} (4) & Q_{i} (z^{(i)}) & = \frac{p (x^{(i)} ， z^{(i)} ； θ)}{\sum_{z} p (x^{(i)} ， z^{(i)} ； θ)} \\ (5) & = \frac{p (x^{(i)} ， z^{(i)} ； θ)}{p (x^{(i)} ； θ)} \\ (6) & = p (z^{(i)} | x^{(i)} ； θ) \end{aligned}$ $\begin{align} Q_i(z^{(i)})&=\frac{\mathfrak{p}(x^{(i)}，z^{(i)}；\theta)}{\sum_z\mathfrak{p}(x^{(i)}，z^{(i)}；\theta)} \\ & = \frac{\mathfrak{p}(x^{(i)}，z^{(i)}；\theta)}{\mathfrak{p}(x^{(i)}；\theta)} \\ & = p(z^{(i)} | x^{(i)}；\theta) \end{align}$ 故在固定参数 $\theta$ 后， $Q_i(z^{(i)})$ 的计算就是后验概率。
固定Q(Z)，优化 $\theta$ ，去极大化对数似然函数 $log\mathbb{L}(\theta)$ 。