Kmeans++ 算法对随机数据样本聚类 - 代码天地

Kmeans++ 算法对随机数据样本聚类

编程语言 2023-09-08 17:51:55 阅读次数: 0

一、算法简介

K-means算法是一种常见的无监督学习聚类算法，其基本思想是将n个样本划分为k个簇，每个簇内的样本之间的相似度要尽可能的大，而不同簇之间的相似度要尽可能的小，通过最小化各个簇内点与该簇中心点的距离和来实现。

二、具体算法流程

Kmeans:
1. 初始化：随机选取k个点作为簇中心；

2. 计算距离：根据选取的距离度量方式（通常为欧氏距离）计算每个样本到k个中心的距离；

3. 分配样本点：将每个样本点划分为距离最近的簇；

4. 计算簇中心：对于每个簇，重新计算该簇所有样本的均值，将该均值作为新的簇中心；

5. 迭代：重复执行步骤2到步骤4，直到簇中心不再发生变化或者达到预设的迭代次数。

最小化约束函数为：找到一个质心使得簇内差的平方和最小，也即是最小化各个簇内点与该簇中心点的距离和。

Kmeans++具有的不同点是：

Kmeans ++算法是一种优化的初始质心选择方法，能够避免初始质心过于集中导致聚类结果出现局部最优解的问题

具体计算步骤：

1. 随机选择一个样本点作为第一个质心。

2. 计算每个样本点到已选质心的距离，并以概率（距离越远的点概率越大）选取下一个质心。

3. 重复2步骤，直至选取出k个质心。

4. 运用普通的Kmeans算法进行聚类。

三、K-means算法优缺点

优点：

速度较快

调节参数少，簇的个数K

缺点：

1）对于非凸形状的簇难以处理，（以及拉长形状或不规则形状）

2）且结果易受到初始点的影响。因此，通常需要进行多次实验，并选取最优结果。

3）算法迭代得到的结果为局部最优（Kmean++算法有一定改善）

4) 数据类别不平衡则聚类效果不佳

5) 对噪声和异常点较敏感

四、对随机数据样本聚类及分析

参考文献

【1】 https://www.cnblogs.com/pinard/p/6164214.html

【2】 sklearn.cluster.kmeans_plusplus — scikit-learn 1.2.2 documentation

猜你喜欢

转载自blog.csdn.net/heda3/article/details/130549750

Kmeans++ 算法对随机数据样本聚类

kmeans算法和kmeans++

Kmeans++ 对图像聚类

Python之聚类（KMeans,KMeans++）

Kmeans、Kmeans++和KNN算法比较

聚类算法：Kmeans和Kmeans++算法精讲

KMeans++算法理论和实现

Kmeans算法的经典优化——mini-batch和Kmeans++

kmeans++

kmeans和kmeans++

Python3机器学习实践：Kmeans++聚类【实例：啤酒聚类】

中文自然语言处理--基于KMeans++的中文短文本聚类

Open3D 进阶（7）Kmeans++点云聚类

机器学习算法工程师：深入理解Kmeans++算法

AI面试题⑨--Kmeams算法流程以及Kmeans++介绍

Kmeans、Kmeans++、Birch和KNN四种聚类算法对二维坐标点的聚类分析对比实验

Kmeans聚类算法

聚类算法Kmeans

Kmeans 聚类算法

Kmeans算法聚类算法

聚类算法之Kmeans

聚类算法- Kmeans and DBSCAN

Kmeans聚类算法（转载）

Kmeans聚类算法详解

python聚类算法kmeans

【聚类算法】Kmeans聚类

PostgreSQL数据聚类——kmeans

详解Kmeans的两大经典优化——mini-batch和Kmeans++

聚类算法之kmeans算法

kmeans聚类算法(使用西瓜数据集4.0)

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)