sklearn KMeans聚类算法（总结）

其他 2019-06-07 19:41:22 阅读次数: 0

基本原理

Kmeans是无监督学习的代表，没有所谓的Y。主要目的是分类，分类的依据就是样本之间的距离。比如要分为K类。步骤是：

随机选取K个点。
计算每个点到K个质心的距离，分成K个簇。
计算K个簇样本的平均值作新的质心
循环2、3
位置不变，距离完成

距离

Kmeans的基本原理是计算距离。一般有三种距离可选：

欧氏距离

\[ d(x,u)=\sqrt{\sum_{i=1}^n(x_i-\mu_i)^2} \]
曼哈顿距离

\[ d(x,u)=\sum_{i=1}^n(|x_i-\mu|) \]
余弦距离

\[ cos\theta=\frac{\sum_{i=1}^n(x_i*\mu)}{\sqrt{\sum_i^n(x_i)^2}*\sqrt{\sum_1^n(\mu)^2}} \]

inertia

每个簇内到其质心的距离相加，叫inertia。各个簇的inertia相加的和越小，即簇内越相似。（但是k越大inertia越小，追求k越大对应用无益处）

代码

模拟数据：

from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
X, y = make_blobs(n_samples=500, # 500个样本
                 n_features=2, # 每个样本2个特征
                 centers=4, # 4个中心
                 random_state=1 #控制随机性
                 )

画出图像：

color = ['red', 'pink','orange','gray']
fig, axi1=plt.subplots(1)
for i in range(4):
    axi1.scatter(X[y==i, 0], X[y==i,1],
               marker='o',
               s=8,
               c=color[i]
               )
plt.show()

使用KMeans类建模：

from sklearn.cluster import KMeans
n_clusters=3
cluster = KMeans(n_clusters=n_clusters,random_state=0).fit(X)

也可先用fit, 再用predict，但是可能数据不准确。用于数据量较大时。

此时就可以查看其属性了：质心、inertia.

centroid=cluster.cluster_centers_
centroid # 查看质心

查看inertia:

inertia=cluster.inertia_
inertia

画出所在位置。

color=['red','pink','orange','gray']
fig, axi1=plt.subplots(1)
for i in range(n_clusters):
    axi1.scatter(X[y_pred==i, 0], X[y_pred==i, 1],
               marker='o',
               s=8,
               c=color[i])
axi1.scatter(centroid[:,0],centroid[:,1],marker='x',s=100,c='black')

猜你喜欢

转载自www.cnblogs.com/heenhui2016/p/10988892.html

sklearn KMeans聚类算法（总结）

sklearn聚类KMeans

机器学习sklearn19.0聚类算法——Kmeans算法

聚类算法Kmeans的工作原理和sklearn实现

Python中SKlearn中kmeans聚类

sklearn.cluster.Kmeans 聚类研究

转：机器学习sklearn19.0聚类算法——Kmeans算法

一个基本的python实现聚类的例子机器学习sklearn19.0聚类算法——Kmeans算法

聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用

【人工智能】机器学习之聚类算法Kmeans及其应用，调用sklearn中聚类算法以及手动实现Kmeans算法。

Sklearn之KMeans算法

sklearn之kmeans文本聚类主题输出

sklearn kmeans 手写数字聚类

Sklearn - 聚类

第八次作业--聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用

第八次作业-----#聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用

DBSCAN聚类算法的原理及sklearn的演示

sklearn之聚类K均值算法

sklearn之基于DBSCAN的聚类算法

sklearn之聚类的均值漂移算法

【聚类算法】sklearn聚类方法详解

sklearn—总结

sklearn总结

sklearn聚类方法详解

Sklearn K均值聚类

sklearn 回归和聚类

skfuzzy.cmeans与sklearn.KMeans聚类效果对比以及使用方法

python学习-111-通过sklearn实现自然语言处理的KMeans聚类方法

sklearn KMeans 分类

tfidf/kmeans/pca/sklearn

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)