数学建模 --- K-means、系统聚类 与 DBSCAN

聚类

聚类需要注意的问题

在这里插入图片描述

数据量纲不一致时

要对每个指标进行限减去均值再除以标准差
在这里插入图片描述

1. K-means

在这里插入图片描述

  • 聚类的效果与初始点的选择有关

在这里插入图片描述

2. K-means++

选择初始聚类中心之间相互距离尽可能要远
在这里插入图片描述

3. 系统(层次)聚类 — 可以通过聚类谱系图选择合适的类别数

把最为接近的点聚为一类

思想

因为查重,不可直接使用
在这里插入图片描述

在这里插入图片描述

  • 过程中类的个数为一后,得到聚类图,可以根据聚类图后决定分类的个数

聚类谱系图(聚类图)

在这里插入图片描述

距离

这些距离最后得到的聚类图不同,但可以根据比较容易解释的聚类图,来进行选距离

数据格式

在这里插入图片描述

样本间的距离

在这里插入图片描述

  • 绝对值距离:一般用于网状结构(一般不能直接按直线进行计算)
类之间的距离

将样本划分为类后,需要定义每个类之间的距离
在这里插入图片描述

组间平均连接法

在这里插入图片描述

组内平均连接法

在这里插入图片描述

重心法

在这里插入图片描述

指标与指标间的距离

一般用于将各个指标进行分类 而不是 将各个样本进行分类
在这里插入图片描述

4. DBSCAN — 不用预先指定个数

可以有效处理异常数据
在这里插入图片描述

基本概念

在这里插入图片描述
在这里插入图片描述

SPSS求聚类

SPSS K-means++聚类

在这里插入图片描述

  • 界面
    在这里插入图片描述
  1. 变量:代表各个指标
  2. 标注依据:对什么进行聚类,得到的聚类结果以该指标进行标注
  3. 聚类数:要得到几类
  • 迭代按钮
    在这里插入图片描述
  • 保存按钮
    在这里插入图片描述
    聚类成员:会生成一个新的变量,会得到聚类后属于哪一类

在这里插入图片描述

  • 选项按钮
    在这里插入图片描述

SPSS 系统聚类

在这里插入图片描述

  • 方法按钮中
  1. 聚类方法:类与类之间的距离方法
  2. 区间:点与点之间的方法
  3. 标准化:量纲不同需要进行标准化
  • 保存按钮中
    先选择无,输出聚类谱系图(聚类图)后
    再选择 单个解 输入想要的聚类数

系统聚类方法中 直接估计聚类数量 — 聚合系数折线图

在这里插入图片描述

  • 所有类的总畸变程度 == 聚合系数

由上述定义:在类别数增加时,聚合系数会不断减小

  • 例如:
    在这里插入图片描述

画图

  1. 在得到的 系统聚类 结果中,有集中计划
  2. 将集中计划系数一栏复制到excel表中并按照降序排好在这里插入图片描述
  3. excel画图
    在这里插入图片描述

分析得到类别数

  • 根据所画的图,图中聚合系数下降快到下降慢的点对应的类别数为所选择的类别数
  • 可以根据这个图得到类别数,如果类别数也符合解释的画,也可以直接在SPSS软件中使用该类别数K

SPSS将聚类的结果进行绘图

适用于指标不大于3个,类别数不是很多的聚类
在这里插入图片描述

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_43779658/article/details/108189101