机器学习(九)聚类K-means

什么是聚类

聚类就是对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,使类别内的数据比较相似,类别之间的数据相似度比较小; 属于无监督学习 

聚类算法的重点是计算样本项之间的相似度,有时候也称为样本间的距离 

和分类算法的区别: 分类算法是有监督学习,基于有标注的历史数据进行算法模型构建 聚类算法是无监督学习,数据集中的数据是没有标注的

相似度/距离公式

pearson相关系数


K-means算法:


K-means算法优缺点:

扫描二维码关注公众号,回复: 147662 查看本文章

缺点: K值是用户给定的,在进行数据处理前,K值是未知的,不同的K值得到的结果也不一样;

             对初始簇中心点是敏感的 

            不适合发现非凸形状的簇或者大小差别较大的簇 

            特殊值(离群值)对模型的影响比较大

 优点: 理解容易,聚类效果不错 

        处理大数据集的时候,该算法可以保证较好的伸缩性和高效率

         当簇近似高斯分布的时候,效果非常不错

K-means优化:

二分K-Means算法



K-means++算法



Mini Batch K-means算法:


聚类算法的衡量指标--轮廓系数


猜你喜欢

转载自blog.csdn.net/lyf52010/article/details/79826292