一、系统（层次）聚类介绍

系统聚类的合并算法通过计算两类数据点间的距离，对最为接近的两类数据点进行组合，并反复迭代这一过程，直到将所有数据点合成一类，并生成聚类谱系图。

1.分类准则

距离近的样本聚为一类

2.算法的流程步骤

计算n个样本两两之间的距离D
构建n个类，每个类只包含一个样本
合并距离最近的两个类为一个新类
计算新类与当前各类的距离
重复3、4步骤，直至类的个数变为1
画聚类图
决定分类个数和类

2.样本与样本之间的距离计算公式

在这里插入图片描述
绝对值距离公式适合于网状道路的距离；欧氏距离公式是Minkowski距离公式的一个特例；一般情况下，除非严格要求是网状道路，其他情况下使用欧氏距离公式即可。

4.类与类之间的距离

由一个样本组成的类是最基本的类；如果每一个类都是由一个样本组成，那么样本间的距离就是类间距离；
如果某一类包含不止一个样本，那么就要确定类间距离，类间距离是基于样本间距离定义的；
类间距离的方法有最短距离、最长距离法、重心法、组间平均连接法和组内平均连接法；
具体选择哪个定义方法取决于哪个方法对于求解的问题更有效、更具解释力。（使用哪个方法，你能解释清楚，就用哪个方法）

5.聚类分析需要注意的问题

对于一个实际问题要根据分类的目的来选取指标，指标选取的不同分类结果一般也不同；
样本间距离定义方式的不同，聚类结果一般也不同；
聚类方法的不同，聚类结果一般也不同（尤其是样本特别多的时候）。最好能通过各种方法找出其中的共性；
注意指标的量纲，量纲差别太大会导致聚类结果不合理；
聚类分析的结果可能不令人满意，数学的处理可能与实际出现差异，但是找到一个合理的解释是必要的。

二、系统聚类的SPSS实现

分析 — 分类 — 系统聚类 — 右移自变量和个案标注依据（目标变量，即因变量）-— 图，勾选谱系图 — 方法 — 选择聚类方法（即类与类距离方法） — 选择区间（即样本与样本之间距离方法）— 标准化，勾选z得分 — 保存，勾选无 — 确认

三、用图形估计聚类个数

1.原理

肘部法则：通过图形大致的估计出最优的聚类数量。
在这里插入图片描述

2.绘制图形，辅助确定

SPSS — 聚类分析 — 双击进入集中计划 — 复制系数 — Excel — 粘贴（匹配目标格式）— 插入 — 推荐的图表 — 散点图 — 结合图形，选择转折点，决定最优K值

四、绘制聚类结果图

注意：只有当指标个数为2或者3个时候，才能绘制聚类分析的结果图。

SPSS — 分析 — 分类 — 系统聚类 — 保存 — 勾选单个解，输入所需聚类数 — 图形 — 图表构造器 — 图库 — 散点图/点图 — 右移变量 — 设置颜色，就是选择原则 — 组/点 ID — 勾选点 ID标签 — 确定

双击输出的结果图表，可以进行编辑和美化

浅尝辄止_数学建模（笔记_系统（层次）聚类算法及其SPSS实现）

文章目录