[SPSS]系统聚类和kmeans聚类的spss实现——基于多维度对中国各城市聚类

一、系统聚类

  1. 选中系统聚类并把变量移入变量框内,聚类选择按照个案聚类

在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。

选中绘图中的谱系图

单击保存选项卡,方案范围选择2到4,显示分为2、3和4类时的结果。

得到的谱系图如下所示:

在变量视图中可以很明显看到个案被分为2、3和4类的情况,其中上海在三种方案中都自成一类,尤其是分为两类并不合适。

二、k-means聚类

1、选择K-means聚类并把变量移入变量框。

   选择聚类数为3且方法选择迭代与分类保证一直计算新的分类中心。

保存选项中同时选中聚类成员和与聚类中心的距离

在选项中选中初始聚类中心和对每个个案的聚类信息,则在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息。

  1. 结果解释:

起始聚集中心给出了初始类的中心。

起始叢集中心

 

叢集

1

2

3

食品

169.92

221.11

104.78

衣着

32.75

38.64

25.11

燃料

12.72

12.53

6.40

住房

47.12

115.65

9.89

交通和通讯

34.35

50.82

18.17

娱乐教育文化

5.00

5.89

3.25

迭代历程显示了经过两次迭代,故两次迭代后中心的变化为0。

疊代歷程a

疊代

叢集中心的變更

1

2

3

1

17.986

.000

16.864

2

.000

.000

.000

 

最终聚集中心显示除了每一类在每个变量标准下的平均值。

最終叢集中心

 

叢集

1

2

3

食品

155.77

221.11

117.16

衣着

32.79

38.64

25.41

燃料

13.96

12.53

11.48

住房

36.15

115.65

19.40

交通和通讯

33.33

50.82

21.89

娱乐教育文化

5.59

5.89

4.23

三、两种方法的比较

1、关于聚类个数:系统聚类和k-means都需要自己选择聚类个数,但是系统聚类可以根据谱系图自己选择分类效果较好的几类。

2、聚类效果比较:

上图是k-means聚类的聚类结果,可以看到上海仍然自称一类,可见对于差异比较大的个案,两种方法都能区分出来,因而聚类效果基本一致。

但是系统聚类能看出各个个案之间关系的远近

  1. 聚类能力比较:

在这个案例中没有体现出来,但是k-means由于计算量少,在处理大样本的时候更加有效率。

 

 

 

 

猜你喜欢

转载自blog.csdn.net/TOMOCAT/article/details/82083357