Machine learning K-means algorithm


1. Overview 1. Concept:

"K-均值算法"(K-Means)是常用的聚类算法,属于"基于划分的聚类算法",也是数据挖掘十大经典算法之一.该算法还有许多变体,这些算法的基本思想
是:接受1个参数k以确定簇的数量并选取相应的k个初始聚类中心.之后利用选定的启发式算法进行"迭代重置"(Iterative Relocation),即不断分配
数据点并更新聚类中心.不同变体的区别在于启发式算法的不同

Insert picture description here
2. Specific steps:

①选取k个簇的初始聚类中心,如选取前k个数据点作为聚类中心
②在第i次迭代中,分别计算每个数据点到各聚类中心的欧氏距离,并将该数据点归给最近的中心所属的簇
③以第i次迭代中归给第j类的所有数据点的均值作为第j类的新聚类中心,然后开始第i+1次迭代
④满足停止条件则停止迭代

Insert picture description here
Insert picture description here
Insert picture description here
3.Stop condition:

①聚类中心不再被更新
②数据点的分配不再被更新
③不再形成改进(误差平方和局部最小)

4.
Advantages and disadvantages (1) Advantages:

①时间/空间复杂度均较低
②原理简单,实现容易
③可解释性较好
④需要调参的参数仅有簇的数量k
⑤聚类效果较优

(2) Disadvantages:

①难以确定k值
②容易陷入局部最优
③对噪音和异常点较的敏感
④结果受初始聚类中心的影响较大
⑤对非凸数据集及各隐含类数据量严重失衡的数据集效果不佳
⑥要求数据有均值,因而只适用于numerical data

5.Variations:

"k-中心点算法"(K-Medoids),"k-众数算法"(K-Modes),"k-中位数算法"(K-Medians),"核k-均值算法"(Kernel K-Means)

2. Introduction of variant algorithm

Three. Examples

Guess you like

Origin blog.csdn.net/weixin_46131409/article/details/113836850