聚类算法Kmeans的工作原理和sklearn实现 - 代码天地

聚类算法Kmeans的工作原理和sklearn实现

其他 2018-10-07 10:49:59 阅读次数: 0

聚类算法出现的原因：手里没有标签，也就是没有Y值了，聚类是把相似的东西分为一组。
Kmeans算法输入的参数：

要得到的簇的个数，也就是分成几类，也就是需要指定K值
质心（不需要输入）：各个向量维度取平均值
欧几里得距离。两个点之间的距离。
优化的目标就是，不同的质心与同一个点的距离，谁最近，这个店就属于哪一类。
Kmeans算法的执行流程
1.对于两类数据点，首先输入分类的k为2，会随机找到两个点作为质心。
2 对每个样本点计算欧几里得距离，然后算出属于哪一类
3 获取第一次迭代的分类结果
4 对第一次的结果寻找新的质心，重新聚类。
5 获得第二次的结果
6 依次不停循环往复，直到质心不再发生变化为止。
Kmeans算法的优劣性：
优点：简单快速，适合常规数据集
缺点：K值难确定，复杂度与样本呈线性关系，很难发现任意形状的簇。

python实现对鸢尾花数据集进行聚类

from sklearn import datasets  
import pandas  as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans
iris=datasets.load_iris()
iris_x=iris.data[:,0:2]#z只取前两个维度
iris_x
#绘制数据分布图
plt.scatter(iris_x[:, 0], iris_x[:, 1], c = "green", marker='o', label='see')   
plt.show()

结果如下：
在这里插入图片描述
接下来进行聚类：

estimator = KMeans(n_clusters=2)#构造聚类器
estimator.fit(iris_x)
label_pred = estimator.labels_ #获取聚类标签
#绘制k-means结果
x0 = iris_x[label_pred == 0]
x1 = iris_x[label_pred == 1]
plt.scatter(x0[:, 0], x0[:, 1], c = "red", marker='o', label='label0')  
plt.scatter(x1[:, 0], x1[:, 1], c = "green", marker='*', label='label1')   
plt.show()

聚类后结果如下
在这里插入图片描述

聚类的结果评估：
用轮廓系数去评估聚类的结果。在这里插入图片描述
也就是说结果值越接近1，证明样本聚类合理。

from sklearn import metrics
score=metrics.silhouette_score(iris_x,label_pred)
score

结果值为0.46

猜你喜欢

转载自blog.csdn.net/qq_41302130/article/details/82951286

聚类算法Kmeans的工作原理和sklearn实现

sklearn KMeans聚类算法（总结）

sklearn聚类KMeans

聚类算法-------K-均值(KMeans)算法原理和Python实现学习笔记

【数据挖掘】 kmeans聚类算法的原理与实现 (使用matlab)

【机器学习之聚类算法】KMeans原理及代码实现

机器学习sklearn19.0聚类算法——Kmeans算法

一个基本的python实现聚类的例子机器学习sklearn19.0聚类算法——Kmeans算法

利用python的KMeans和PCA包实现聚类算法

聚类算法：KMEANS原理介绍

聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用

【人工智能】机器学习之聚类算法Kmeans及其应用，调用sklearn中聚类算法以及手动实现Kmeans算法。

聚类算法：Kmeans和Kmeans++算法精讲

算法实现之----聚类KMeans

MATLAB并行实现Kmeans聚类算法

KMeans聚类算法分析以及实现

聚类 | KMeans理论与算法实现

Spark实现 -- Kmeans聚类算法

kmeans均值聚类算法实现

Matlab实现Kmeans聚类算法

Kmeans聚类算法

聚类算法Kmeans

Kmeans 聚类算法

DBSCAN聚类算法的原理及sklearn的演示

第八次作业--聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用

第八次作业-----#聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用

Python中SKlearn中kmeans聚类

sklearn.cluster.Kmeans 聚类研究

Kmeans算法聚类算法

聚类分析常用算法原理：KMeans,DBSCAN, 层次聚类

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)