Spetral Embedded Clustering: A Framework for In-sample and Out-of-Sample Spectral Clustering

Abstract

• 谱聚类方法的成功很大程度上是基于流形假设的,即低维流形的高密度区域的两个临近点具有相同的簇标签;

• 但是这个假设可能并不总是适用于高维数据。当数据不呈现出一个清楚的低维流形结构时(即高维稀疏数据),谱聚类的性能将降低;

• 一个观察:高维数据的真实聚类分配矩阵总是嵌入在数据所跨越的线性空间;

• 基于此提出了谱嵌入聚类的框架,目标函数中加上了线性正则化项。所提 SEC 框架能自然处理 out-of-sample 数据;

• 还提出了一个新的 Laplacian 矩阵,由每个模式的局部回归构造,并添加到 SEC 框架中,提取聚类的局部和全局判别信息。

1  Introduction

• 将高维数据点划分到相关的簇中扔是聚类的主要挑战之一。高维空间中的估计距离和相似度可能不准确。实际中,很多高维数据在低维子空间中可能表现出密集的分组。所以研究者们通常通过某种维数约简方式将高维数据投影到低维子空间,再进行聚类分析。比如:DisKmeans,但是 DisKmeans 没有考虑数据的局部几何结构(又称流形结构);

• 在谱聚类中使用流形信息在许多高维应用中带来了最先进的聚类性能。谱聚类的基本思想是通过使用相似度矩阵的谱来找到数据点的聚类分配,其中相似度矩阵的谱提取了数据的非线性低维流形结构;

• 谱聚类在很大程度上依赖于流形假设,即低维流形的高密度区域中的两个临近点具有相同的簇标签。但是对于高维稀疏数据,最近的近邻实际上可能仍然彼此远离,因此数据的相似度矩阵不能有效反映一个明显的低维流形结构(即流行假设不成立);

• 传统的谱聚类方法通常没有扩展到 out-of-sample 数据点,为此一些方法被提出。

• 提出了一个谱嵌入聚类(SEC)的框架 ,增强高维数据的聚类性能,考虑低维子空间中数据的潜在密集分组结构,并将这些先验知识明确地整合到 SC 方法的不同变式中。

  Main contributions:

(1)采用谱旋转方法得到最终的簇分配矩阵;

(2)证明了当数据的维数足够高时,数据的簇分配矩阵可以嵌入到数据所跨越的线性空间中;

(3)提出了 SEC,在聚类的目标函数上显示地施加一个线性正则化,以控制聚类分配矩阵与数据的低维嵌入之间的不匹配;

(4)为了处理数据不具有清晰流形结构的情况,进一步提出了局部回归中的 Laplacian 矩阵来代替广泛使用的 Laplacian 矩阵来反映数据的局部几何结构,可以提取更多的局部判别信息;

(5)讨论了 SEC 与 SC,K-means, DisKmeans 的联系,在 SEC 框架下提出变式;

(6)实验结果表明,该框架在 in-sample 聚类方面优于 SC,K-means;在 out-of-sample 聚类方面优于 Nystrom,K-means 方法。

猜你喜欢

转载自www.cnblogs.com/klw6/p/12386703.html