聚类分析学习(一)聚类分析概念和相关算法

一.聚类分析的概念

     1.聚类分析的定义

        聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。

        聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。

     2.聚类分析的目标

        聚类分析的目标就是在相似的基础上收集数据来分类。(最终形成了不同的类或者簇)

        简单来讲,聚类的目的在于把相似的东西聚在一起。

     3.聚类技术方法的应用简介

       聚类技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

     4.聚类和分类的区别

       聚类与分类的区别在于,聚类所要求划分的类是未知的。

     5.关于无监督学习的概念

       (1)无监督学习是机器学习中的概念之一。无监督学习是指对无标签数据的一类学习算法。因为没有标签信息,意味着需要从数据集中发现和总结模式或者结构。

       (2)如何去发现和总结数据集的模式或者结构?基于数据中的变量之间关系发现数据集模式和结构正是通过聚类分析实现的。

二.聚类相关算法

     聚类算法一般有五种方法,最主要的是划分方法和层次方法两种。

     1.划分聚类算法通过优化评价函数把数据集分割为K个部分,它需要K作为 输人参数。

        典型的分割聚类算法有K-means算法, K-medoids算法、CLARANS算法。

     2.层次聚类由不同层次的分割聚类组成,层次之间的分割具有嵌套的关系。它不需要输入参数,这是它优于分割聚类 算法的一个明显的优点,其缺点是终止条件必须具体指定。

        典型的分层聚类算法有BIRCH算法、DBSCAN算法和CURE算法等。

猜你喜欢

转载自blog.csdn.net/qq_41658955/article/details/81782728
今日推荐