有关MAP、ML和EM的个人理解

原文转自 https://www.cnblogs.com/hrlnw/archive/2012/11/18/2776599.html

1.贝叶斯学习

要了解这三个概念，需要先知道什么是贝叶斯学习。

贝叶斯学习就是根据给定数据的先验概率计算每种假设的可能性，它是基于先验和后验概率的乘积的，计算式如下：

这个公式的意思是，在某个data出现的情况下，这个data属于某一class类的概率等于这个class的先验概率乘以后验概率，其中P(class)是先验概率，P(data|class)是条件概率。

2.MAP（最大后验概率）

上面的式子为每一类（class）都求出了在某个data出现情况下，属于这类（class）的概率。然而，大多数时候，我们只是想知道这个data最可能属于哪一类。那么，我们只求出使上个式子左边最大的那个类即可，这就是MAP，公式如下：

3.MA（最大似然）

该种情况下，我们假设先验概率分布是均匀的，即认为每个都是等概率出现的，那么公式中将不出现这一项，简化为：

也就是说，我们仅仅根据当前的得到的数据，来对它属于某一类（也可以说成它的参数）进行估计。估计的标准是，该参数或该类将令出现该数据的概率最大。

4.EM（最大期望）

最大期望指的是，在所有隐变量未知的情况下，根据现有数据，估计出数据的分布参数（例如：混合高斯分布或者仅仅单一高斯分布），这是一种无监督聚类方法。公式如下：

C代表多个不同分布，x代表数据，表示每个数据的出现概率是由多个分布中的概率乘以每个分布的权值（即每个分布的概率）决定的。其中，权值和各个分布成分的参数均未知。

总的来说，最大期望算法采用E步骤和M步骤迭代，直到收敛。

E步骤：

M步骤：

计算新的参数（均值，协方差或方差）和权重

这部分可以参考混合高斯模型的论文《Adaptive background mixture models for real-time tracking》以及《混合高斯模型GMM（英文）》

基本的思路就是先任意给定一个初始的参数和权值（一般为1/n，n是高斯分布的数量），然后根据获得的数据来不断的更新参数和权值，直到某一次迭代得到的参数和权值与上一次迭代的参数和权值相差小于某个小量（例如为0.001），我们说参数收敛，迭代停止。