先贴出我借鉴的博客
Hierarchical Clustering(层次聚类),层次聚类分为两种,分别是分裂法和凝聚法。分裂法不常用,在这里重要介绍的是凝聚法。
分裂法:
分裂法指的是初始时将所有的样本归为一个类簇,然后依据某种准则进行逐渐的分裂,直到达到某种条件或者达到设定的分类数目。
凝聚法:
凝聚法指的是初始时将每个样本点当做一个类簇,所以原始类簇的大小等于样本点的个数,然后依据某种准则合并这些初始的类簇,直到达到某种条件或者达到设定的分类数目。
具体步骤如下:
- 首先我们将每个数据点视为一个单一的簇,然后选择一个测量两个簇之间距离的度量标准。将两个簇之间的距离定义为第一个簇中的数据点与第二个簇中的数据点之间的平均距离。
- 在每次迭代中,我们将两个具有最小平均距离的簇合并成为一个簇。
- 重复步骤2知道所有的数据点合并成一个簇,然后选择我们需要多少个簇。
优点:
- 不需要知道有多少个簇
- 对于距离度量标准的选择并不敏感
缺点:
- 效率低