机器学习（周志华）读书笔记---第9章聚类

9.1 聚类任务
9.1 聚类任务
聚类试图将数据集中的样本划分为若干个通常是不相交的子集
聚类既能作为一个单独的过程，用于寻找数据内在的分布结构，也可作为分类等其他学习任务的前驱过程。
基本思想：给定一个有N个对象的数据集，划分聚类技术将构造数据的K个划分，每一个划分代表一个蔟，K小于等于n，对于给定的k，算法首先给出一个初始的划分方法，以后通过反复迭代的方法改变划分，使得每一次改进之后的划分方案都较前一次更好。

9.2 性能度量（有效性指标）
若明确了最终将要使用的性能度量，则可直接将其作为聚类过程的优化目标，从而更好地得到符合要求地聚类结果。
我们希望蔟内相似度高，且蔟间相似度低
9.3 距离计算
这里写图片描述

常见聚类方法：
原型聚类、密度聚类、层次聚类
9.4 原型聚类
此类算法假设聚类结构能通过一组原型刻画，通常情况下，算法先对原型进行初始化，再对原型进行迭代更新求解。
9.4.1 k均值算法
最小化平方误差（MSE）
这里写图片描述
对初值是敏感的
优缺点：

9.6 层次聚类方法
层次聚类方法对给定的数据集进行层次地分解，直到某种条件满足为止，具体又可分为：
自底向上的策略：AGNES算法
自顶向下的策略：DIANA算法

9.5 密度聚类
此类算法假设聚类结构能通过样本分布的紧密程度来确定，通常情况下，密度聚类算法从样本密度的角度来考察样本之间的可连续性，并基于可连续样本不断扩展聚类蔟来获得最终的聚类结果。
DBSCAN
这里写图片描述

算法步骤
第一步：找出所有核心对象
第二步：从任一核心对象出发，找出其密度可达的对象，组成聚类蔟

密度最大值聚类
关键词：局部密度、高局部密度点距离、蔟中心、异常点
蔟中心的识别：选取有着比较大的局部密度和很大的高局部密度点距离的点
这里写图片描述

机器学习（周志华）读书笔记---第9章 聚类

猜你喜欢

机器学习（周志华）读书笔记---第9章聚类