EM算法针对是有隐藏变量的无监督问题。
已知:观察到一组变量
(由隐藏变量
决定),
和
求解:在损失函数
下的最优解
理论推导:
最大化
,显然
单调递增(因为每次都是最大化下限,下限就是
)
最大化下限这步叫做M步(maximization),求
这步叫E步骤(expectation)。
实例:
k-means
已知:观察到一组变量
;
为
个中心点;
为
属于哪个中心,
为离那个中心近,相应的
的分量为1;
当
为对应类别的中心时概率为1,其他概率为0。
LOSS:
距离最近类别的中心的距离和。
E步:求
属于
个中的那一类,即求
。
M步:求在
条件下
的值。
Guass Mixture Model
已知:观察到一组变量
;
为
个高斯分布和相应的权重;
为属于哪个高斯分布的概率;
当在
条件下,高斯分布的参数。
LOSS:
距离最近类别的中心的距离和。
E步:求
对应的
M步:求在
条件下
的值。
k-means优点:计算简单;缺点:当不同类别的范围不同时,可能会不准确
GMM有点:精确,除了聚类,还可以拟合概率分布;缺点:计算复杂
补充:当中心数目不确定时,可以多取几个k值,计算轮廓系数的方法来得出最优的k值。