1、GMM:Gaussian Mixture Model
- K-means:hard clustering
- GMM: soft-clustering
假设数据集的每个样本都是由多个高斯分布组成。即每个高斯分布都会对这个样本值有一定权重的贡献。
- pi:每个高斯分布的概率,i=1,2,3…k
- μ \mu μ:每个高斯分布的均值
- σ \sigma σ:每个高斯分布的方差
2.1 GMM 的 目标函数:
方差的几种情况:
- identity,对角矩阵,且矩阵值相同,圆形
- diagonal,对角矩阵,但值不相同,正椭圆形
- full,斜椭圆,减少错误率
- tied:增强泛化能力,减少过拟合
平均值决定分布位置,方差决定范围。
2.2 GMM的likelihood,目标函数
MLE:给定参数,得到的观测数据的联合概率
MAP:后验概率,给定观测数据,模型参数的概率,通过贝叶斯公式等于MLE*模型参数的先验概率
对于每一个样本点,循环每个高斯分布,根据方差和均值计算它的概率密度,再乘以该高斯分布发生的概率 π K \pi_K πK得到了对于每个样本点中,每个高斯分布对它的贡献。再对得到的概率作归一化,得到 r ( i , k ) r(i,k) r(i,k)将对于第k个高斯分布,每个样本点中含有它的贡献相加,得到这个数据集中,所有属于第k个高斯分布的样本个数 N k N_k Nk。根据上面的两个值,可以更新每个高斯分布的均值和方差。不断迭代,直到收敛。
2.3 GMM——EM 算法
- E-step:计算后验概率
- M-step:联合概率
2.4 GMM目标函数参数的计算
对每个参数分别求偏导:
如果考虑方差的影响,就是表示每个特征之间是有关系的:高斯混合模型
如果统一每个簇的方差,假设每个特征之间都是相互独立的:朴素贝叶斯。
服从高斯分布,且每个变量之间是independent的时候,是高斯朴素贝叶斯,方差是对角矩阵