【聚类模型②】系统聚类算法——解决k均值聚类的遗留问题 - 代码天地

【聚类模型②】系统聚类算法——解决k均值聚类的遗留问题

其他 2021-03-21 23:32:15 阅读次数: 0

上一篇博客我们提到，k均值聚类虽然可以对多个样本进行k分类，但即使是改进以后的k-means++聚类方法也存在一个问题：聚类结果很大程度上依赖于用户给定的类数k。

那么有没有方法解决这个问题呢？在清风老师的教程中介绍了系统聚类算法↓（本文图片来自辽宁石油化工大学的于晶贤老师）

文章目录

系统聚类的步骤

整体描述

将每个样本算作一类
用特定方法计算类与类两两间距离，将距离较近的类分为一大类
将新的大类作为子类，重复第2步并绘制聚类谱系图，直到所有样本都归为一类为止
根据得到的聚类谱系图和选取的类数量k，得到k分类结果

聚类谱系图

根据每一次分类结果，绘制出类似下图的树状谱系图：

以改图为例，分类过程如下：
第一次分类将学生1和5分为一类，2和4分为一类，3自成一类。第二次将学生1524分为一类，3自成一类。最后一次将所有学生归为一类（学生类，所有样本的全集）
在这里插入图片描述
最后在上图中根据不同的k来选取分类：

可以看出，取k=2时的二分类方法是将学生3分成一类，1、2、4、5分成一类。

取k=3时的三分类将学生1、5分成一类，2、4分成一类、3自成一类。以此类推

计算类间距离的5个方法

在分类刚刚开始的时候，每个样本自成一类。故样本点之间的距离就是类间距离

此后，类间距离的计算有以下5种常见方法：

最短距离法（Nearest Neighbor）
取两个类内点的最短距离作为两个类的距离 $D(G_p,G_q)$ 即下图红线的长度：
最长距离法(Furthest Neighbor)
取两类内点间最长距离作为两类的距离 $D(G_p,G_q)$ 即下图红线
组间平均距离法
计算两个类中点两两间距离(下图红线)，取所有距离的平均值作为两个类的距离
组内平均
计算两个类包含所有点两两间距离（下图红线），取其平均值作为两个类的距离
重心法
取类中点的重心作为该类的中心，两个类的中心点距离作为类间距离 $D(G_p,G_q)$

系统聚类做出的改进

我们知道k均值聚类分类的方法是先选出k个类，然后选择初始聚类中心，再以此为依据进一步分类。

与k均值聚类算法不同的是，系统聚类使用的分类方法并不是先选择“分为几类”，相反，而是直接根据样本的特征先进行分类，最后根据实际需要划分的k类在刚刚的分类结果中查找。

如果说k均值聚类是一种从前往后的分类方法，系统聚类就是一种从后往前的分法。由于它的分类过程并不直接依赖我们需要的k类，就比较有效地解决了k均值聚类的遗留问题√

最后推荐一下清风老师的数模课程，试听课入口

猜你喜欢

转载自blog.csdn.net/weixin_44559752/article/details/107869202

【聚类模型②】系统聚类算法——解决k均值聚类的遗留问题

【聚类模型①】k均值聚类算法

k均值聚类算法

聚类--K均值算法

聚类算法-K均值

K均值聚类

聚类算法实现：K均值聚类算法

聚类算法之k-均值聚类

聚类模型（K-means聚类，系统聚类，DBSCAN算法）

聚类之K均值聚类和EM算法聚类之高斯混合模型与EM算法

K-均值聚类算法

机器学习-聚类(K均值算法)

Python实现K均值聚类算法

k-均值聚类算法

k-均值聚类算法1

K均值聚类算法的MATLAB实现

sklearn之聚类K均值算法

K均值聚类算法汉语版

简述k均值聚类算法

原型聚类算法之K均值

聚类算法——KMeans(K-均值)

K均值聚类算法(K-Means) K均值聚类算法(K-Means)

k-均值聚类

Sklearn K均值聚类

Python K均值聚类

K均值聚类关于初始聚类中心的探讨

聚类分析（一）：K均值聚类与层次聚类

聚类算法中的K均值聚类算法（K-Means clustering）

Python实现k均值聚类算法_K-Means聚类算法

聚类和EM算法——K均值聚类 python大战机器学习——聚类和EM算法

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)