使用weka进行聚类分析


1、将.xls文件转化为.arff格式

  (1)首先,将.xls文件另存为.csv格式,然后使用weka explorer的预处理面板(preprocess),导入.csv文件

首先,在weka的安装包里,将RunWeka.ini里面的编码格式改为UTF-8,避免出现中文乱码

(2)打开.csv文件时提示如下错误
错误一,.csv文件中存在特殊字符('),替换它

错误二,.csv文件中自动换行,删除自动换行,并取消单元格里的换行



错误三,若提示错误,修改特殊字符也没有,也无换行表现,则将上一行单元格内容复制过来,再手动还原该单元格内容即可

导入成功如下所示
(3)将.csv格式转化为.arff格式



2、进行聚类分析

(1)打开.arff文件


(2)切换到“Cluster”,点击“choose”按钮选择“SimpleKMeans"。(K均值算法)

(3)点击上面的文本框,将numClusters修改为16(我们把这16102条实例聚成16类),seed参数是要设一个随机种子,依次产生一个随机数,用来得到k均值算法中第k个簇中心的位置。(seed值不同,所算的误差平方和的结果不同)

(4)选中Cluster Mode的Use training set,选中Store clusters for  visualization(存储聚类可视化),点击start按钮



可在左下角的Result list下产生的结果上右键,在新窗口中浏览结果。



3、结果分析


(1)误差平方和:这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小

(2)列出了各个簇中心的位置。

(3)各个簇中实例的数目及百分比
(4)可视化聚类结果,在Result list列出的结果下右击Visualize cluster assignments。


(5)将聚类的结果保存为arff文件


result.arff文件




猜你喜欢

转载自blog.csdn.net/m0_37920381/article/details/80571840
今日推荐