1、GMM：Gaussian Mixture Model

K-means：hard clustering
GMM: soft-clustering

假设数据集的每个样本都是由多个高斯分布组成。即每个高斯分布都会对这个样本值有一定权重的贡献。

pi：每个高斯分布的概率，i=1，2，3…k
$\mu$ ：每个高斯分布的均值
$\sigma$ :每个高斯分布的方差

在这里插入图片描述

2.1 GMM 的目标函数：

方差的几种情况：

identity，对角矩阵，且矩阵值相同，圆形
diagonal，对角矩阵，但值不相同，正椭圆形
full，斜椭圆，减少错误率
tied：增强泛化能力，减少过拟合
平均值决定分布位置，方差决定范围。

2.2 GMM的likelihood，目标函数

MLE:给定参数，得到的观测数据的联合概率
MAP:后验概率，给定观测数据，模型参数的概率，通过贝叶斯公式等于MLE*模型参数的先验概率

在这里插入图片描述
对于每一个样本点，循环每个高斯分布，根据方差和均值计算它的概率密度，再乘以该高斯分布发生的概率 $\pi_K$ 得到了对于每个样本点中，每个高斯分布对它的贡献。再对得到的概率作归一化，得到 $r (i, k)$ 将对于第k个高斯分布，每个样本点中含有它的贡献相加，得到这个数据集中，所有属于第k个高斯分布的样本个数 $N_k$ 。根据上面的两个值，可以更新每个高斯分布的均值和方差。不断迭代，直到收敛。

2.3 GMM——EM 算法

E-step：计算后验概率
M-step：联合概率

在这里插入图片描述

2.4 GMM目标函数参数的计算

对每个参数分别求偏导：

在这里插入图片描述

如果考虑方差的影响，就是表示每个特征之间是有关系的：高斯混合模型
如果统一每个簇的方差，假设每个特征之间都是相互独立的：朴素贝叶斯。
服从高斯分布，且每个变量之间是independent的时候，是高斯朴素贝叶斯，方差是对角矩阵

NLP 3.8 GMM

1、GMM：Gaussian Mixture Model

2.1 GMM 的目标函数：

方差的几种情况：

2.2 GMM的likelihood，目标函数

2.3 GMM——EM 算法

2.4 GMM目标函数参数的计算

猜你喜欢

NLP 3.8 GMM

1、GMM：Gaussian Mixture Model

2.1 GMM 的 目标函数：

方差的几种情况：

2.2 GMM的likelihood，目标函数

2.3 GMM——EM 算法

2.4 GMM目标函数参数的计算

猜你喜欢

2.1 GMM 的目标函数：