机器学习——基础算法(八)

机器学习——基础算法(八)

一、聚类的定义

 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大    
 而类别间的数据相似度较小。
 无监督

二、相似度/距离计算方法总结

在这里插入图片描述

三、聚类的基本思想

 口给定一个有N个对象的数据集,构造数据的k个簇,kSn。 满足下列条件:
   ■每一个簇 至少包含一个对象
   ■每一个对象属于 且仅属于一个簇
    ■ 将满足上述条件的k个簇称作一个合理划分
口基本思想:对于给定的类别数目k,首先给出初始划分,通过迭代改变样本和簇的隶属关系,使得每一次改进之    
    后的划分方案都较前一次好。

四、k-Means算法(一种广泛使用的聚类算法)

在这里插入图片描述
k-Means过程
在这里插入图片描述

五、k-Means聚类方法总结

口优点:
■是解决聚类问题的一种经典算法,简单、快速
■对处理大数据集,该算法保持可伸缩性和高效率
■当簇近似为高斯分布时,它的效果较好
口缺点
■在簇的平均值可被定义的情况下才能使用,可能不适用于某些应用
■必须事先给出k(要生成的簇的数目),而且对初值敏感,
对于不同的初始值,可能会导致不同结果。
■不适合于发现非凸形状的簇或者大小差别很大的簇
■对躁声和孤立点数据敏感
口可作为其他聚类方法的基础算法,如谱聚类

猜你喜欢

转载自blog.csdn.net/qq_41511262/article/details/103252446