8.3聚类（Clustering）:hierarchical clustering 层次聚类 - 代码天地

8.3聚类（Clustering）:hierarchical clustering 层次聚类

编程语言 2018-08-05 14:04:41 阅读次数: 0

假设有N个待聚类的样本（这里相当于instance），对于层次聚类来说，步骤：

1.（初始化）把每个样本归为一类，计算每两个类之间的距离，也就是样本与样本之间的相似度；

2.寻找个各类之间最近的两个类，把他们归为一类（这样类的总数就减少了一个）；

3.重新计算新生成的这个类与各个旧类之间的相似度；

4.重复2和3直到所有样本点都归为一类，结束

整个聚类过程其实就是建立了一棵树，在建立的过程中，可以通过在第二步上设置一个阈值，当最近的两个类的距离大于这个阈值，则认为迭代可以终止。另外关键的一步就是第三步，如何判断两个类之间的相似度有不少种方法，这里介绍以下三种：

SingleLinkage:又叫做nearest-neighbor，就是取两个类中距离最近的两个样本的距离作为这两个集合的距离，也就是说，最近两个样本之间的距离越小，这两个类之间的相似度就越大。容易造成一种叫做Chaining的效果，两个cluster明明从“大局”上离的比较远，但是由于其中个别的点距离比较近就被合并了，并且这样合并之后Chaining效应会进一步扩大，最后会得到比较松散的cluster。

CompleteLinkage:这个则完全是SingleLinkage的反面极端，取两个集合中距离最远的两个点的距离作为两个集合的距离。其效果也是刚好相反的，限制非常大，两个cluster即使已经很接近了，但是只要有不配合的点存在，就顽固到底，老死不想合并，也是不太好的办法。这两种相似度的定义方法的共同问题就是只考虑了某个有特点的数据，而没有考虑类内数据的整体特点。

Average-linkage:这种方法就是把两个集合中的点两两的距离全部放在一起求一个平均值，相对也能得到合适一点的结果。

average-linkage的一个变种就是取两两距离的中值，与取中值相比更加能够解除个别偏离样本对结果的干扰。

猜你喜欢

转载自blog.csdn.net/weixin_41790863/article/details/81408941

8.3聚类（Clustering）:hierarchical clustering 层次聚类

层次聚类（Hierarchical Clustering）

聚类——层次聚类（Hierarchical Clustering）

聚类(Clustering) hierarchical clustering 层次聚类应用

matlab实现层次聚类hierarchical clustering

8.4 层次聚类（Hierarchical Clustering）应用

聚类算法--层次聚类 Hierarchical clustering学习

聚类算法(4)--Hierarchical clustering层次聚类

分层聚类(Hierarchical clustering)

scikit-learn之聚类算法之Hierarchical clustering(层次聚类)

层次聚类（hierarchical clustering）和聚类模型评估（calinski-harabaz index）

Clustering(聚类)

聚类方法（Clustering）

机器学习算法原理总结系列---算法基础之(12)层次聚类（hierarchical clustering）

ML-62: 机器学习之层次聚类(Hierarchical Clustering)算法+代码

【深度学习基础-17】非监督学习-Hierarchical clustering 层次聚类-python实现

机器学习笔记：Hierarchical_clustering with scikit-learn(层次聚类)

Spectral Clustering（谱聚类）

机器学习-聚类Clustering

谱聚类（spectral clustering）

谱聚类-----spectral clustering

机器学习—聚类(Clustering)

Spectral clustering谱聚类

文本聚类（Text clustering）

机器学习之agglomerative_clustering-层次聚类

【深度学习基础-16】非监督学习-Hierarchical clustering 层次聚类-基本概念（上）

【机器学习】【层次聚类算法-1】HCA(Hierarchical Clustering Alg)的原理讲解 + 示例展示数学求解过程

Udacity机器学习入门——聚类Clustering

谱聚类（spectral clustering）原理总结

谱聚类(Spectral Clustering)详解

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)