【Python学习笔记】使用python进行kmeans聚类

使用python进行kmeans聚类

假设我们要解决一个这样的问题。

以下是一些同学,大萌是一个学霸,而我们想要找到这些人中的潜在学霸,所以我们要把这些人分为两类——学霸与非学霸。

高数 英语 Python 音乐
小明 88 64 96 85
大明 92 99 95 94
小朋 91 87 99 95
大朋 78 99 97 81
小萌 88 78 98 84
大萌 100 95 100 92

1 方法一:使用scipy

那么使用scipy的Python实现的代码如下:

import numpy as np
from scipy.cluster.vq import vq,kmeans,whiten
list1=[88.0,74.0,96.0,85.0]
list2=[92.0,99.0,95.0,94.0]
list3=[91.0,87.0,99.0,95.0]
list4=[78.0,99.0,97.0,81.0]
list5=[88.0,78.0,98.0,84.0]
list6=[100.0,95.0,100.0,92.0]
data=np.array([list1, list2, list3, list4, list5, list6])
whiten=whiten(data) # 算出各列元素的标准差,形成一个新的数组
centroids,_=kmeans(whiten,2)
result,_=vq(whiten,centroids)
print(result)

其中,kmeans()函数的功能是对数据进行聚类,返回结果是一个元组,其中我们只需要它的第一个值,这是一个聚类中心数组。vq()函数的功能是矢量量化数据,它可以对每一个数据,也就是对我们这边的每一个人进行归类。

结果如下:

[1 0 0 1 1 0]

说明大明、小朋和大萌都是学霸组的。

需要说明的是,kmeans找到的只是一个局部最优解,而不是全局。

2 方法二:使用sklearn

那么使用sklearn的Python实现的代码如下:

import numpy as np
from sklearn.cluster import KMeans
list1=[88.0,74.0,96.0,85.0]
list2=[92.0,99.0,95.0,94.0]
list3=[91.0,87.0,99.0,95.0]
list4=[78.0,99.0,97.0,81.0]
list5=[88.0,78.0,98.0,84.0]
list6=[100.0,95.0,100.0,92.0]
X=np.array([list1, list2, list3, list4, list5, list6])
kmeans=KMeans(n_clusters=2).fit(X)
pred=kmeans.predict(X)
print(pred)

其中,fit()方法是对Kmeans确定类别以后的数据集进行聚类,而predict()是根据聚类结果,确定所属类别。

结果如下:

[0 1 1 1 0 1]

说明这次大明、小朋、大朋和大萌都是学霸组的。

再次说明,kmeans找到的只是局部最优解。

【参考】

[1]Coursera课程《用Python玩转数据》

猜你喜欢

转载自www.cnblogs.com/IvyWong/p/10320770.html