机器学习笔记(十二):聚类

版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/cg129054036/article/details/84874283

目录

1)Unsupervised learning introduction

2)K-means algorithm

3)Optimization objective

4)Random initialization

5)Choosing the number of clusters


1)Unsupervised learning introduction

下图是我们之前学习的监督学习,监督学习样本是有标签的,而另一张图是无监督学习样本,是没有标签的

2)K-means algorithm

k均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据集聚类成不同的组。

  1. k均值是一个迭代算法,假设我们想要将数据聚类成n个组,其方法为;
  2. 首先选择K个随机的点,称为聚类中心;
  3. 对于数据集中的每一个数据,按照距离K个中心店的距离,将其与距离最近的中心点关联起来,与同一个中心店关联的所有点聚成一类,计算每一个组的平均值,将该组所关联的中心点移动到平均值的位置。
  4. 重复上述步骤至中心点不再变化。

下面是一个聚类示例:

下面是K均值算法:

  1. 对于每一个样例i,计算其应该属于的类:对于每一个样例i,计算其应该属于的类 :min||x^{(i))}-u_{k}||^2(k=1,2,...,K)
  2. 对于每一个类k,重新计算平均值:

3)Optimization objective

和监督学习类似,我们介绍代价函数:

J(c^{(i)},...,c^{(m)},u_i,...,u_k)=\frac{1}{m}\sum_{i=1}^{m}(X^{(i)}-u_{c^{(i)}})^2

4)Random initialization

我们前面介绍了K均值算法,代价函数为:

随机初始化:

5)Choosing the number of clusters

聚类数的选择这里提到了肘部法则,但更多的是根据实际问题来选择。

猜你喜欢

转载自blog.csdn.net/cg129054036/article/details/84874283