K-means算法(无监督学习)

其他 2020-10-30 11:25:03 阅读次数: 0

1 什么是无监督学习

现实生活中常常会有这样的问题：缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高。很自然地，我们希望计算机能代我们完成这些工作，或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督学习。

一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组，以便广告客户可以通过有关联的广告接触到他们的目标客户。
某个人需要将自己的房屋清单分组成不同的社区，以便用户能更轻松地查阅这些清单。

我们可以怎样最有用地对其进行归纳和分组？我们可以怎样以一种压缩格式有效地表征数据？这都是无监督学习的目标，之所以称之为无监督，是因为这是从无标签的数据开始学习的。

2 K-means原理

我们先来看一下一个K-means的聚类效果图

随机设置K个特征空间内的点作为初始的聚类中心
对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别
接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）
如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行第二步过程

如果分开来看上图的话，效果如下：

3 K-means API

sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’）

n_clusters:开始的聚类中心数量
init:初始化方法，默认为'k-means ++’
labels_:默认标记的类型，可以和真实值比较（不是值比较）

4 实例代码

5 K-means性能评估指标

5.1 轮廓系数

轮廓系数计算公式如下：

对于每个点i 为已聚类数据中的样本，b_i 为i 到其它族群的所有样本的距离最小值，a_i 为i 到本身簇的距离平均值。最终计算出所有的样本点的轮廓系数平均值。

5.2 轮廓系数数值分析

分析过程（我们以一个蓝1点为例）

计算出蓝1离本身族群所有点的距离的平均值a_i
蓝1到其它两个族群的距离计算出平均值红平均，绿平均，取最小的那个距离作为b_i
根据公式：极端值考虑：如果b_i >>a_i: 那么公式结果趋近于1；如果a_i>>>b_i: 那么公式结果趋近于-1

5.3 结论

如果b_i>>a_i:趋近于1效果越好， b_i<<a_i:趋近于-1，效果不好。轮廓系数的值是介于 [-1,1] ，越趋近于1代表内聚度和分离度都相对较优。

5.4 轮廓系数API

sklearn.metrics.silhouette_score(X, labels)

X：特征值
labels：被聚类标记的目标值

6 总结

特点分析：采用迭代式算法，直观易懂并且非常实用
缺点：容易收敛到局部最优解(多次聚类)
注意：聚类一般做在分类之前

猜你喜欢

转载自blog.csdn.net/gf19960103/article/details/109360903

无监督学习——聚类（k-means算法）

无监督学习之K-means算法实现

无监督学习K-means算法的python实现

K-means算法(无监督学习)

无监督学习-K-means算法

吴恩达机器学习 - 无监督学习——K-means算法吴恩达机器学习 - 无监督学习——K-means算法

python 机器学习（一）无监督学习 + 监督学习 + 聚类算法 + k-means算法自实现

sklearn无监督学习-聚类k-means

无监督学习之K-Means聚类

机器学习入门（十一）：回归与聚类算法——无监督学习（K-means算法）

吴恩达机器学习（十一）K-means（无监督学习、聚类算法）

吴恩达机器学习 - 无监督学习——K-means算法

机器学习算法---无监督学习，k-means聚类

无监督学习之K-means算法通俗教程

【无监督学习】1：K-means聚类算法原理

无监督学习-聚类 K-means聚类算法

非监督学习K-means算法.md

K-Means聚类算法：将数据分为K个类别，常用于无监督学习中

2019-07-31【机器学习】无监督学习之聚类 K-Means算法实例（图像分割）

[机器学习][K-Means] 无监督学习之K均值聚类

【人工智能】— 无监督学习、K-means聚类（K-means clustering）、K-means损失函数，目标函数

Python机器学习及实践——无监督学习经典模型（K-means）

Python每日一记19>>>无监督学习K-Means聚类

无监督学习PCA降维处理和K-means聚类

【学习笔记】非监督学习-k-means

非监督学习—K-means算法聚类学习笔记

机器学习实践（十七）—sklearn之无监督学习-K-means算法

非监督学习之k-means

【Python机器学习实战】无监督学习之PCA和K-Means二连击

无监督聚类算法K-Means

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)