目录
层次聚类:
层次聚类:单连接聚类、全连接聚类、组平均聚类、离差平方和法。
单链接聚类:
1、步骤:
- 假设每个点是一个类,给每个点做标记。
- 计算任意两点之间的距离,选择两个类之间的最短距离,将两个点聚成一个类。
2、系统树图是衡量类间的距离是区分不同层次聚类法的一种方法。
系统树图:
3、凝聚聚类是层次聚类法的一部分。
K-Means和单层聚类的对比:
单层连接和系统树图:
全连接聚类法:
1、选择的是两类之间最远的距离。
2、全连接比单连接产生的类更紧凑。
组平均聚类法:
1、计算的是任意两类中任意两点之间的距离,然后取平均值,即为两类之间的距离。
离差平方和法:
1、把合并类时的变量最小化,两类的中心点,所有点到这个点的平方并相加,减去类中的变量(每个类的中心点,减去每个类的平方),找到最小值。
层次聚类sklearn:
层次聚类总结:
1、单连接是查看与聚类最近的点,这可能导致形成各种形状的聚类。离差平方和法和平均连接算法一般倾向于导致紧凑的聚类。
2、优缺点:
优点:
- 得到层次的表达,信息丰富
- 数据集的聚类结构可视化
- 特别当数据内部有层次关系的时候
缺点:
- 对噪声和离群点很敏感
- 计算量大,O()
层次聚类附录:
Using Hierarchical Clustering of Secreted Protein Families to Classify and Rank Candidate Effectors of Rust Fungi:https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0029847
密度聚类:
DBSCAN:
1、具有噪声的基于密度的空间聚类,把分布相对密集、距离较近的点聚到一起。不是所有的点都是类的一部分,没有被分到类里面的点被当做噪声。
2、DBSCAN没有类的数目这个参数,它有两个参数:邻域、点的最小量。
3、把点分成这三类:噪声、中心点和边界点。
密度聚类sklearn:
密度聚类总结:
1、优缺点:
优点:
- 不需要指明类的数量
- 能灵活的找到并分离各种形状和大小的类
- 能够强有力地处理噪声和离群点
缺点:
- 两个类共同可达的边界点,由于点是随机被访问的,所以不能保证每次传回相同的聚类
- 找到不同密度的类有一定的困难,可用HDBSCAN,既有噪声的基于密度的高层次空间聚类算法。
密度聚类附录:
可视化 DBSCAN 聚类:https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/
参考文献:https://pages.cpsc.ucalgary.ca/~mahanti/papers/clustering.pdf