聚类
聚类
聚类需要注意的问题
数据量纲不一致时
要对每个指标进行限减去均值再除以标准差
1. K-means
- 聚类的效果与初始点的选择有关
2. K-means++
选择初始聚类中心之间相互距离尽可能要远
3. 系统(层次)聚类 — 可以通过聚类谱系图选择合适的类别数
把最为接近的点聚为一类
思想
因为查重,不可直接使用
- 过程中类的个数为一后,得到聚类图,可以根据聚类图后决定分类的个数
聚类谱系图(聚类图)
距离
这些距离最后得到的聚类图不同,但可以根据比较容易解释的聚类图,来进行选距离
数据格式
样本间的距离
- 绝对值距离:一般用于网状结构(一般不能直接按直线进行计算)
类之间的距离
将样本划分为类后,需要定义每个类之间的距离
组间平均连接法
组内平均连接法
重心法
指标与指标间的距离
一般用于将各个指标进行分类 而不是 将各个样本进行分类
4. DBSCAN — 不用预先指定个数
可以有效处理异常数据
基本概念
SPSS求聚类
SPSS K-means++聚类
- 界面
- 变量:代表各个指标
- 标注依据:对什么进行聚类,得到的聚类结果以该指标进行标注
- 聚类数:要得到几类
- 迭代按钮
- 保存按钮
聚类成员:会生成一个新的变量,会得到聚类后属于哪一类
- 选项按钮
SPSS 系统聚类
- 方法按钮中
- 聚类方法:类与类之间的距离方法
- 区间:点与点之间的方法
- 标准化:量纲不同需要进行标准化
- 保存按钮中
先选择无,输出聚类谱系图(聚类图)后
再选择 单个解 输入想要的聚类数
系统聚类方法中 直接估计聚类数量 — 聚合系数折线图
- 所有类的总畸变程度 == 聚合系数
由上述定义:在类别数增加时,聚合系数会不断减小
- 例如:
画图
- 在得到的 系统聚类 结果中,有集中计划
- 将集中计划系数一栏复制到excel表中并按照降序排好
- excel画图
分析得到类别数
- 根据所画的图,图中聚合系数下降快到下降慢的点对应的类别数为所选择的类别数
- 可以根据这个图得到类别数,如果类别数也符合解释的画,也可以直接在SPSS软件中使用该类别数K
SPSS将聚类的结果进行绘图
适用于指标不大于3个,类别数不是很多的聚类