EM算法、k-means、GMM

EM算法针对是有隐藏变量的无监督问题。
已知：观察到一组变量 ${x_1,x_2,...,x_n}$ （由隐藏变量 $Z$ 决定）， $P(Z|X, \theta)$ 和 $P(X|Z, \theta)$
求解：在损失函数 $L(X|\theta)$ 下的最优解 $Z, \theta$
理论推导：
$L(X|\theta)=log~p(X|\theta)$
$=log[\sum_Zp(X,Z|\theta)]$
$=log[\sum_Zp(X|Z,\theta)p(Z|\theta)]$
$=log[\sum_Zp(Z|X ,\theta^{(i)})\frac{p(X|Z,\theta)p(Z|\theta)} {p(Z|X,\theta^{(i)})}]$
$\geq\sum_Zp(Z|X,\theta^{(i)})log[\frac{p(X|Z,\theta)p(Z|\theta)}{p(Z|X,\theta^{(i)})}]$
最大化 $\sum_Zp(Z|X,\theta^{(i)})log[\frac{p(X|Z,\theta)p(Z|\theta)}{p(Z|X,\theta^{(i)})}]$ ，显然 $\theta^{(i)}$ 单调递增（因为每次都是最大化下限，下限就是 $L(X|\theta^{(i)})$ ）
最大化下限这步叫做M步（maximization），求 $p(Z|X,\theta^{(i)})$ 这步叫E步骤（expectation）。

实例：
k-means
已知：观察到一组变量 ${x_1,x_2,...,x_n}$ ； $\theta$ 为 $k$ 个中心点； $Z$ 为 $X$ 属于哪个中心， $P(Z|X, \theta)$ 为离那个中心近，相应的 $Z$ 的分量为1； $P(X, Z|\theta)$ 当 $\theta$ 为对应类别的中心时概率为1，其他概率为0。
LOSS： $X$ 距离最近类别的中心的距离和。
E步：求 $X$ 属于 $k$ 个中的那一类，即求 $Z$ 。
M步：求在 $X,Z$ 条件下 $\theta$ 的值。

Guass Mixture Model
已知：观察到一组变量 ${x_1,x_2,...,x_n}$ ； $\theta$ 为 $k$ 个高斯分布和相应的权重； $P(Z|X, \theta)$ 为属于哪个高斯分布的概率； $P(X, Z|\theta)$ 当在 $X,Z$ 条件下，高斯分布的参数。
LOSS： $X$ 距离最近类别的中心的距离和。
E步：求 $X$ 对应的 $Z$
M步：求在 $X,Z$ 条件下 $\theta$ 的值。

k-means优点：计算简单；缺点：当不同类别的范围不同时，可能会不准确
GMM有点：精确，除了聚类，还可以拟合概率分布；缺点：计算复杂

补充：当中心数目不确定时，可以多取几个k值，计算轮廓系数的方法来得出最优的k值。

EM算法、k-means、GMM

猜你喜欢