聚类(一)——概念、标准、相关算法

主要了解聚类的基本概念、标准以及相关的算法,具体的算法在后期的学习笔记里继续
更新,以下纯属在学习完后的个人的表述理解,如有不准确,请指正。

一、概念

是一种无监督学习的方法,无监督的特点是所有的样本未提前进行标记。聚类是将这些未进行任何标记的样本(数据)通过聚类相关的算法分为几类。
聚类是将数据集中的样本划分为多个不相交的子集,每个子集被称为一个“簇”。同一簇的样本尽可能彼此相似,不同的样本尽可能不同。换言之,聚类结果的“簇内相似度且“簇间相似度

二、标准

主要根据距离来进行衡量,主要有点间距离和类间距离,具体的见下文笔记
1、点间距离常用的有两种:绝对值距离和闵可夫斯基距离
2、类间距离常用三种:
(1)类平均法
(2)重心法
(3)离差平方和法(**最最常用**)
	可以简单打个比方,如果现在有100个点,要分成99个簇,那就把最近的两个合并成一个簇,要
	分成98个簇,那就把上面99个中最近的两个合并一个新的簇,以此类推即可。

下面的笔记简单的介绍了这几种距离的计算方法。
在这里插入图片描述

二、相关算法

了解相关的算法、相关算法的适用范围及优缺点是重点内容
这里主要参考五种聚类算法
1、K-Means聚类
2、均值偏移聚类算法
3、DBSCAN聚类算法
4、使用高斯混合模型(GMM)的期望最大化(EM)聚类
5、层次聚类算法

发布了14 篇原创文章 · 获赞 31 · 访问量 6528

猜你喜欢

转载自blog.csdn.net/WangZixuan1111/article/details/98947683
今日推荐