机器学习：利用K-均值聚类算法对未标注数据分组——笔记 - 代码天地

机器学习：利用K-均值聚类算法对未标注数据分组——笔记

其他 2019-02-03 21:21:23 阅读次数: 0

聚类：

　　聚类是一种无监督的学习，它将相似的对象归到同一个簇中。有点像全自动分类。聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。聚类分析试图将相似对象归入同一簇，将不相似对象归到不同簇。相似这一概念取决于所选的相似度计算方法。

K-均值聚类算法：

　　优点：易于实现。

　　缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。

　　适用于：数值型数据。

　　k-均值是发现给定数据集的k个簇的算法。簇的个数k是用户给定的，每一个簇通过其质心，即簇的所有点的中心来描述。

　　工作流程：首先，随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中，具体来讲，为每个点找距离最近的质心，并将其分配给该质心所对应的簇。这一步完成之后，每个簇的质心更新为该簇所有点的质心。

　　计算质心——分配——重新计算，反复循环，直到所有数据点的簇分配结果不再改变。

　　k-均值算法收敛但是聚类效果较差的原因是：收敛到了局部最小值，而非全局最小值。

聚类度量指标：

　　一种用于度量聚类效果的指标是SSE（误差平方和）。SSE越小，表示数据点越接近它们的质心，聚类效果也越好。

　　增加簇的数目肯定可以降低SSE值，但是这违背了聚类目标（在保持簇数目不变的情况下提高簇的质量）。

　　另一种方法是将具有最大SSE值得簇划分为两个簇。在这些点上再进行k-均值算法。

　　为了保持簇总数不变，可将某两个簇合并：合并最近的质心，或者合并两个使得SSE增幅最小的质心。

二分k-均值算法：

　　为克服k-均值算法收敛于局部最小解的问题，提出二分k-均值算法。

　　首先，将所有点作为一个簇，然后将该簇一分为二。之后，选择其中一个簇继续划分。选择哪一个簇取决于对其划分是否可以最大程度降低SSE值。上述基于SSE划分过程不断重复，直到得到用户指定的簇数目为止。（另一种是选择SSE最大的簇进行划分。）

猜你喜欢

转载自www.cnblogs.com/jlutiger/p/10350942.html

《机器学习实战》学习笔记———利用K-均值聚类算法对未标注数据分组

机器学习：利用K-均值聚类算法对未标注数据分组——笔记

机器学习之利用K-均值聚类算法对未标注数据分组模型探讨

《机器学习实战》笔记（十）：Ch10 - 利用k-均值聚类算法对未标注数据分组

机器学习实战第十章利用K-均值聚类算法对未标注数据分组

《机器学习实战》——第10章利用K-均值聚类算法对未标注数据分组

机器学习实战笔记-第十章利用K-均值聚类算法对未标记数据分组

机器学习实战---读书笔记：第10章利用K均值聚类算法对未标注数据分组---1

无监督学习——K-均值聚类算法对未标注数据分组

『ML』利用K-Means聚类算法对未标注数据分组——《机器学习实战》学习笔记（Ch10）

机器学习实战(8) 利用K-means聚类算法对未标注数据分组

机器学习之K-均值聚类算法

机器学习实战学习笔记 ---- K-Means（K-均值）聚类算法

机器学习实战笔记：K-均值聚类

机器学习实战：K-均值及二分K-均值聚类算法

利用K-means聚类算法对未标注数据分组

《机器学习实战》学习笔记第十章 —— K-均值聚类算法

机器学习经典算法详解及Python实现--聚类及K均值、二分K-均值聚类算法

机器学习（八）：寻找数据的分组——k均值聚类

机器学习实战Chp10： K-均值聚类及改进的二分 K-均值算法

机器学习——K-均值聚类（K-means）算法

机器学习（二）——K-均值聚类（K-means）算法

机器学习 K-均值聚类算法(K-Means)

机器学习算法之_K-均值聚类（K-means）

机器学习实战：K-Means（K-均值）聚类算法

斯坦福大学机器学习笔记——聚类（k-均值聚类算法、损失函数、初始化、聚类数目的选择）

《机器学习实战》6：K-均值聚类

机器学习中的 K-均值聚类算法及其优缺点

机器学习中的 K-均值聚类算法及其优缺点。

K-均值聚类算法学习心得

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)