导入:
1. k-means算法:一种无监督的聚类算法。
step1:随机选取k个均值
step2:遍历余下的点,一个点到这k个均值的距离,该点离哪个均值近就跟哪个均值归为一个簇
step3:分好k个簇后,计算各自的中心点(判断中心点与这上诉K个均值是否一致,不一致则迭代计算1-3步,一致则达到收敛)
2. KNN算法:(有监督)
step1:随机取k值,在测试集中选择一个样本,在训练集中找到距离这个样本最近的k个点
step2:k个点中多数的类就是这个样本的类标签(距离度量)
k值的减小就意味着整体模型变得复杂,容易发生过拟合
EM算法:就是含有隐变量的概率模型参数的极大似然估计法(极大后验概率估计法)
缺陷:会产生过拟合,将训练集中的噪声学到使模型过于复杂。对于这个缺陷的处理:加上惩罚项(模型参数的范数)
算法步骤:
观测变量$X$,隐变量$Z$,联合概率分布$p\left( X,Z|\theta \right)$,条件分布$p\left( Z|Y,\theta \right)$
1.选择参数的初始值${{\theta }_{0}}$,开始迭代
2.E步:记${{\theta }_{i}}$为第i次迭代参数$\theta $的估计值,在第i+1次迭代的E步,计算:
$Q\left( \theta ,{{\theta }_{i}} \right)=\sum\limits_{Z}{\log p\left( Y,Z|\theta \right)}p\left( Z|Y,{{\theta }_{i}} \right)$(EM算法的核心)
3.M步:求使Q极大化的$\theta $,确定第i+1次迭代的参数的估计值${{\theta }_{i+1}}$
${{\theta }_{i+1}}=\arg \underset{\theta }{\mathop{\max }}\,Q\left( \theta ,{{\theta }_{i}} \right)$
4.重复第2-3,直到收敛
似然函数形式复杂,没有解析解,因此引入Jensen不等式求出下界,通过优化下界来优化似然函数