高级聚类分析

原文:https://blog.csdn.net/fjssharpsword/article/details/79291001

高级聚类分析


基于概率模型的聚类

研究一个对象属于多个簇的聚类主题。

模糊簇

模糊集S是整体对象集X的一个子集,允许X中的每个对象都具有一个属于S的0到1之间的隶属度。给定对象的集合,一个簇就是对象的一个模糊集,这种簇就是模糊簇,一个聚类包含多个模糊簇。模糊聚类就是划分模糊簇的过程。对象隶属于模糊簇的隶属度,可以用对象与其被指派到的簇的中心之间的距离或相似度来衡量。由于一个对象可能参与多个簇,用隶属度加权的到簇中心的距离之和捕获对象拟合聚类的程度。误差平方和SSE可用来度量模糊聚类对数据集的拟合程度。模糊聚类也称为软聚类,允许一个对象属于多个簇,和传统的硬聚类强制每个对象互斥地仅属于一个簇不同。

基于概率模型的聚类

聚类分析的目标是发现隐藏的类别。作为聚类分析主题的数据集可以看做隐藏的类别的可能实例的一个样本,但没有类标号。由聚类分析导出的簇使用数据集推断,并且旨在逼近隐藏的类别。

从统计学上,可以假定隐藏的类别是数据空间上的一个分布,可以使用概率密度函数或分布函数精确地表示。这种隐藏的类别称为概率簇。对于一个概率簇C,它的密度函数和数据空间的点o,f(o)C的一个实例在o上出现的相对似然。假定概率粗符合某种分布,用数据集(观测的数据)来学习到这种分布,捕获潜在的类别。存在多个概率簇,也就是说观测的对象集是由这些概率簇所生成的数据。给定数据集D和所要求的的簇数k,基于概率模型的聚类分析任务是推导出最有可能产生D的k个概率簇。

数据生成的过程,每个观测对象都独立地有两步生成:首先,根据簇的概率选择一个概率簇;然后根据选定簇的概率密度函数选择一个样本。

基于概率模型的聚类最终就归结为求k个簇的概率密度函数的参数。如假定是高斯分布,则要求出均值和方差。

期望最大化算法

模糊聚类和基于概率模型的聚类都是通过EM算法来实现。EM算法是一种框架,逼近统计模型参数的最大似然或最大后验估计。在模糊或基于概率模型的聚类情况下,EM算法从初始参数集出发,并且迭代直到不能改善聚类,即直到聚类收敛或改变充分小。

模糊聚类或基于概率模型的聚类的EM步骤:

  • 第一:期望步,根据当前的模糊聚类或概率簇的参数,把对象指派到簇中;

  • 第二:最大化步,发现新的聚类或参数,最大化模糊聚类的SSE或基于概率模型的聚类的期望似然。

总结:基于概率模型的聚类,使用合适的统计模型以捕获潜在的簇。EM算法可能收敛不到最优解,而且可能收敛于局部极大,避免局部极大的启发式方法,包括使用不同的随机初始值,运行EM过程多次。对于分布很多或数据集只包含很少观测数据点,则EM算法的计算开销可能很大。


聚类高维数据

在高维空间中,传统的距离度量可能被一些维上的噪声所左右。和传统的低维空间聚类不同,隐藏在高维空间中的簇通常非常小,如何为高维数据聚类创建一个合适的模型是主要出发点。

子空间聚类方法

子空间搜索方法为聚类搜索各种子空间。这里,簇是在子空间中彼此相似的对象的子集。相似性用传统的方法度量,如距离或密度。

基于相关性的聚类方法,如使用PCA导出新的、不相关的维集合,然后在新的空间或它的子空间中挖掘簇。除PCA外,还可以使用Hough变换或分形维,都是空间变换技术。

双聚类方法

双聚类方法在基因表达和推荐系统中有应用。双聚类是同时聚类对象和属性,结果簇是双簇,满足:只有一个小对象集参与一个簇、一个簇只涉及少数属性、一个对象可以参与多个簇或完全不参与任何簇、一个属性可以被多个簇涉及或完全不被任何簇涉及。在含噪声的数据中发现双簇的方法主要有两类:基于最优化的方法执行迭代搜索,在每个迭代中,具有最高显著性得分的子矩阵被识别为双簇,这一个过程在用户指定的条件满足时终止,考虑到计算开销,通常使用贪心搜索,找到局部最优的双簇,代表性算法是 δ δ -簇;枚举方法使用一个容忍阈值指定被挖掘的双簇对噪声的容忍度,并试图枚举所有满足要求的双簇的子矩阵,代表性算法是MaPle

维归约方法和谱聚类

聚类高维数据的维归约方法是构造一个新的空间,而不是使用原数据空间的子空间。

谱聚类方法就是这种思想,对数据生成相似矩阵,在进行特征值分解,选择前k个特征向量,然后在新空间聚类,之后投影回原数据。


聚类图和网络数据

在图和网络数据上的聚类分析提取有价值的知识和信息。图和网络数据,如偶图、web搜索引擎、社会网络等,值给出了对象(顶点)和它们之间的联系(边),没有明确定义维和属性,要在这上面进行聚类分析,存在相似性度量和有效聚类模型设计的量大挑战。

相似性度量采用测地距和基于随机游走的距离。

  • 测地距:图中两个顶点之间距离的一种简单度量是两个顶点之间的最短路径,两个顶点之间的测地距就是两个顶点之间最短路径的边数。

  • SimRank,基于随机游走和结构情境的相似性,随机游走是一个轨迹,由相继的随机步组成。基于结构情境的相似性的直观意义是,图中两个顶点是相似的,如果它们与相似的顶点相链接。

图聚类就是切割图成若干片,每片就是一个簇,使得簇内的顶点很好地互连,而不同的顶点以很弱的方式连接。割是图G的顶点V的一个划分,割的割集是边的集合,割的大小是割集的边数,对于加权图,割的大小是割集的边的加权和。图聚类问题就归结为寻找最好的割,作为簇来分类。如何在图中找最好的割,如最稀疏的割,存在挑战,如高计算开销、复杂的图、高维性、稀疏性。图聚类的方法,一类是使用聚类高维数据的方法,如谱聚类;另一类是专门用于图的方法,如SCAN,搜索图,找出良连通的成分作为簇。


具有约束的聚类

聚类分析涉及三个基本方面:作为簇实例的对象、作为对象群的簇、对象之间的相似性。约束有三类:实例上的约束、簇上的约束、相似性度量上的约束。

  • 实例上的约束包括:必须联系约束和不能联系约束。
  • 簇上的约束使用簇的睡醒,说明对簇的要求。
  • 相似性度量上的约束说明相似性计算必须遵守的要求。
  • 具有约束的聚类方法,包括处理硬性约束和处理软性约束两种。
  • 处理硬性约束的策略是,在聚类的指派过程中,严格遵守约束。

具有软性约束的聚类是一个优化问题。当聚类违反软性约束时,在聚类上施加一个罚。聚类的最优化目标包含两部分:优化聚类质量和最小化违反约束的罚,总体目标函数是聚类质量得分和罚得分的组合。


小结

  • 传统聚类分析中,对象被互斥地指派到一个簇中,然后在很多应用中,需以模糊或概率方式把一个对象指派到一个或多个簇中。模糊聚类和基于概率模型的聚类允许一个对象属于一个或多个簇。划分矩阵记录对象属于簇的隶属度。

  • 基于概率模型的聚类假定每个簇是一个有参分布。使用待聚类的数据作为观测样本,可以估计簇的参数。

  • 混合模型假定观测对象是来自多个概率簇的实例的混合。从概念上讲,每个观测对象都是通过如下方法独立地产生的:首先根据簇概率选择一个概率簇,然后根据选定簇的概率密度函数选择一个样本。

  • 期望最大化EM算法是一个框架,它逼近最大似然或统计模型参数的后验概率估计。EM算法可以用来计算模糊聚类和基于概率模型的聚类。

  • 高维数据对聚类分析提出了挑战,包括如何对高维簇建模和如何搜索这样的簇。

  • 高维数据聚类方法主要有两类:子空间聚类方法和维归约方法。子空间聚类方法在原空间的子空间中搜索簇。例子包括子空间搜索方法、基于相关性的聚类方法和双聚类方法。维归约方法创建较低维的新空间,并在新空间搜索簇。

  • 双聚类方法同时聚类对象和属性。双簇的类型包括具有常数值、行/列常数值、想干值、行/列想干演变值的双簇。双聚类方法的两种主要类型是基于最优化的方法和枚举方法。

  • 谱聚类是一种维归约方法。其一般思想是使用相似矩阵构建新维。

  • 聚类图和网络数据有很多应用,如社会网络分析。挑战包括如何度量图中对象之间的相似性和如何为图和网络数据设计聚类方法。

  • 测地距是图中两个顶点之间的边数,可以用来度量相似性。社会网络这样的图的相似性可以用结构情境和随机游走度量。SimRank是基于结构情境和随机游走的相似性度量。

  • 图聚类可以建模为计算图割。最稀疏的割导致好的聚类,而模块性可以用来度量聚类质量。

  • SCAN是一种图聚类算法,它搜索图,识别良连通的成分作为簇。

  • 约束可以用来表达具体应用丢聚类分析的要求或背景知识。聚类约束可以分为实例、簇和相似性度量上的约束。实例上的约束可以是必须联系约束和不能联系约束。约束可以是硬性的或软性的。

  • 聚类的硬性约束可以通过在聚类指派过程严格遵守约束而强制实施。软性约束聚类是一个优化问题,可以使用启发式方法加快约束聚类的速度。

原文:https://blog.csdn.net/fjssharpsword/article/details/79291001

猜你喜欢

转载自blog.csdn.net/love__live1/article/details/83991146