使用python进行kmeans聚类
假设我们要解决一个这样的问题。
以下是一些同学,大萌是一个学霸,而我们想要找到这些人中的潜在学霸,所以我们要把这些人分为两类——学霸与非学霸。
高数 | 英语 | Python | 音乐 | |
---|---|---|---|---|
小明 | 88 | 64 | 96 | 85 |
大明 | 92 | 99 | 95 | 94 |
小朋 | 91 | 87 | 99 | 95 |
大朋 | 78 | 99 | 97 | 81 |
小萌 | 88 | 78 | 98 | 84 |
大萌 | 100 | 95 | 100 | 92 |
1 方法一:使用scipy
那么使用scipy的Python实现的代码如下:
import numpy as np
from scipy.cluster.vq import vq,kmeans,whiten
list1=[88.0,74.0,96.0,85.0]
list2=[92.0,99.0,95.0,94.0]
list3=[91.0,87.0,99.0,95.0]
list4=[78.0,99.0,97.0,81.0]
list5=[88.0,78.0,98.0,84.0]
list6=[100.0,95.0,100.0,92.0]
data=np.array([list1, list2, list3, list4, list5, list6])
whiten=whiten(data) # 算出各列元素的标准差,形成一个新的数组
centroids,_=kmeans(whiten,2)
result,_=vq(whiten,centroids)
print(result)
其中,kmeans()
函数的功能是对数据进行聚类,返回结果是一个元组,其中我们只需要它的第一个值,这是一个聚类中心数组。vq()
函数的功能是矢量量化数据,它可以对每一个数据,也就是对我们这边的每一个人进行归类。
结果如下:
[1 0 0 1 1 0]
说明大明、小朋和大萌都是学霸组的。
需要说明的是,kmeans找到的只是一个局部最优解,而不是全局。
2 方法二:使用sklearn
那么使用sklearn的Python实现的代码如下:
import numpy as np
from sklearn.cluster import KMeans
list1=[88.0,74.0,96.0,85.0]
list2=[92.0,99.0,95.0,94.0]
list3=[91.0,87.0,99.0,95.0]
list4=[78.0,99.0,97.0,81.0]
list5=[88.0,78.0,98.0,84.0]
list6=[100.0,95.0,100.0,92.0]
X=np.array([list1, list2, list3, list4, list5, list6])
kmeans=KMeans(n_clusters=2).fit(X)
pred=kmeans.predict(X)
print(pred)
其中,fit()
方法是对Kmeans确定类别以后的数据集进行聚类,而predict()
是根据聚类结果,确定所属类别。
结果如下:
[0 1 1 1 0 1]
说明这次大明、小朋、大朋和大萌都是学霸组的。
再次说明,kmeans找到的只是局部最优解。
【参考】
[1]Coursera课程《用Python玩转数据》