层次聚类方法
层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。具体又可分为:
1)凝聚的层次聚类:AGNES算法
一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。
2)分裂的层次聚类:DIANA算法
采用自顶向下的策略,它首先将所有对象臵于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。
AGNES和DIANA算法
1)AGNES (AGglomerative NESting)算法最初将每个对象作为一个簇,然后这些簇根据某些准则被一步步地合并。两个簇间的距离由这两个不同簇中距离最近的数据点对的相似度来确定;聚类的合并过程反复进行直到所有的对象最终满足簇数目。
2)DIANA (DIvisive ANAlysis)算法是上述过程的反过程,属于分裂的层次聚类,首先将所有的对象初始化到一个簇中,然后根据一些原则(比如最大的欧式距离),将该簇分类。直到到达用户指定的簇数目或者两个簇之间的距离超过了某个阈值。
AGNES中簇间距离的不同定义
1)最小距离
两个集合中最近的两个样本的距离、容易形成链状结构
2)最大距离
两个集合中最远的两个样本的距离complete、若存在异常值则不稳定
3)平均距离
两个集合中样本间两两距离的平均值average、两个集合中样本间两两距离的平方和ward
具体的也可以看一下这篇层次聚类