【机器学习课程-华盛顿大学】:4 聚类和检索 4.4 MoG混合高斯模型和EM估计最大化

1、k-means缺点

聚类的不确定性:有些模糊地带

因为是求点到中心的距离,所以k-means针对的是圆形的形状


但是对如下这些形状,做不到聚类:


2、提出基于概率的聚类模型

优点:

(1)软分配,给出各个类的概率,而不是像k-means一样硬分配

(2)考虑聚类的形状

(3)考虑数据权重


3、高斯分布

正态分布,又叫高斯分布。基本格式为:



每一幅彩色图像都可以看做RGB3种色彩下的高斯分布的叠加。




(1)1维高斯分布




(2)二维高斯分布



看下不同协方差下,高斯模型的形状:



4、高斯混合模型





5、文档聚类



6、用EM期望最大化来解决软分配问题


中间绿色是渐变色,是两类的过渡。

6.1 如果我们知道cluster参数






或者,根据贝叶斯求rik




如果已知参数,概率rik很好求,但是这些参数我们是不知道的。


6.2 假如我们已经知道聚类的分布zi,怎么求聚类高斯模型的参数

我们可以用MLE最大概率估计来求聚类的参数。但一开始聚类的分布zi,我们也是不知道的。




6.3 如果我们只有软分布rij,我们能做什么?

用MLE最大似然估计来求







7、EM

一开始先随机高斯分布的参数,然后不断迭代步骤1和2,直到算法收敛。


(1)


(2)


(3)


(4)



EM算法是一种坐标下降算法


8、MoG与k-means关系



9、测试



正确答案:最后一个,10个cluster



1、2、3、4、5不对

1、2、3不对

1、2、3、4不对

1、2、3、5不对







(3)和(4)






猜你喜欢

转载自blog.csdn.net/weixin_41770169/article/details/80691576