机器学习之期望最大化(EM)

一.前言

EM算法以前是为了解决数据缺失等情况下不好直接进行极大似然估计(MLE)而产生的,但是随着发展,用在了数据添加技术方面(也是利用了EM的特性吧);但是添加的数据缺失并不是直接添加,而是添加了“潜在数据”隐性变量。

二.算法原理

     1.取得数据集样本:

     2.得到此样本的联合概率为:

     3. 引入隐变量得:

     4.隐变量Z的概率分布设为,再由JenSen不等式得出:

     5.当等号成立时,≥0且为常量;那么可以得到:

   6.进而来到了算法的核心步骤,先固定θ 初始值或者上次迭代的值,进行期望求解得到

      7.之后进行极大似然函数求解的到最大值并进行相对θ求导,进而得到新的θ值。

      8.反复进行6、7两步骤进行迭代训练(6得到,7得到θ)直到算法收敛为止。

三.总结

           对初始值敏感:EM算法需要初始化参数 ,而参数 的选择直接影响收敛效率以及能否得到全局最优解。
     EM算法的应用情况: k-means算法和EM算法思想的体现相似,E步骤为聚类过程,M步骤为更新类簇中心。GMM(高斯混合模型)同样是EM算法的一个应用,感兴趣的小伙伴可以查阅相关资料进行理解。

猜你喜欢

转载自blog.csdn.net/liuandy6612/article/details/125432749