机器学习(周志华)读书笔记---第9章 聚类

9.1 聚类任务
9.1 聚类任务
聚类试图将数据集中的样本划分为若干个通常是不相交的子集
聚类既能作为一个单独的过程,用于寻找数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。
基本思想:给定一个有N个对象的数据集,划分聚类技术将构造数据的K个划分,每一个划分代表一个蔟,K小于等于n,对于给定的k,算法首先给出一个初始的划分方法,以后通过反复迭代的方法改变划分,使得每一次改进之后的划分方案都较前一次更好。

9.2 性能度量(有效性指标)
若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求地聚类结果。
我们希望蔟内相似度高,且蔟间相似度低
9.3 距离计算
这里写图片描述
这里写图片描述
常见聚类方法:
原型聚类、密度聚类、层次聚类
9.4 原型聚类
此类算法假设聚类结构能通过一组原型刻画,通常情况下,算法先对原型进行初始化,再对原型进行迭代更新求解。
9.4.1 k均值算法
最小化平方误差(MSE)
这里写图片描述
对初值是敏感的
优缺点:
这里写图片描述
9.6 层次聚类方法
层次聚类方法对给定的数据集进行层次地分解,直到某种条件满足为止,具体又可分为:
自底向上的策略:AGNES算法
自顶向下的策略:DIANA算法
这里写图片描述
9.5 密度聚类
此类算法假设聚类结构能通过样本分布的紧密程度来确定,通常情况下,密度聚类算法从样本密度的角度来考察样本之间的可连续性,并基于可连续样本不断扩展聚类蔟来获得最终的聚类结果。
DBSCAN
这里写图片描述
这里写图片描述
算法步骤
第一步:找出所有核心对象
第二步:从任一核心对象出发,找出其密度可达的对象,组成聚类蔟

密度最大值聚类
关键词:局部密度、高局部密度点距离、蔟中心、异常点
蔟中心的识别:选取有着比较大的局部密度和很大的高局部密度点距离的点
这里写图片描述

猜你喜欢

转载自blog.csdn.net/qq_28897525/article/details/80582632