论文笔记·流形学习:Laplacian Eigenmaps

Abstract

• 问题:对于嵌入在高维空间的低维流形数据的表示;

• 利用图Laplacian算子、流形上的 Laplacian Beltrami 算子和热方程的对应关系;

• 局部保留能力和与聚类的自然联系。

1  Introduction

• 传统降维方法如PCA、MDS,非线性映射方法如自组织映射和其它基于神经网络的方法,没有有效的方法找到全局最优,没有考虑数据可能存在的流形结构;

• 算法生成的映射可以看作是对流形几何结构连续映射的离散近似;

• 框架:

  1)用 adjacency graph 估计 manifold,用 weighted Laplacian 估计 Laplacian Beltrami 算子;

  2)LE的局部保留能力使之对于离群点和噪声不敏感,由于只用到局部距离所以也不容易短路。算法隐含地强调了数据的聚类结构,这一点与谱聚类相近;

  3)由于算法是基于流形的内在几何结构,所以它在embedding上保持稳定性。

2  The Algorithm

• step 1 ( adjacency graph ):

  (a) ε 近邻:几何直观、自然对称,但容易导致图的不连通;

  (b) k 近邻:可以连通,但几何不直观;

• step 2 ( weights ):

  (a) 热核  (b)无参

• step 3 ( eigenmaps ):

  

3  Justification

3.1  Optimal Embeddings

• Wij 作为惩罚项, 去除任意缩放,去除平移

   一维情况:

   多维情况:

3.2  The Laplacian Beltrami Operator

3.3  Heat Kernels and the Choice of Weight Matrix

• 流形Laplacian的几种可能近似方案:

4  Connections to Spectral Clustering 

 • Normalized cut:

   这个组合优化问题是NP-hard,但是如果我们允许将指标函数放宽到实值,就可转化为最小化图Laplacian:

5  Analysis of Locally Linear Embedding Algorithm

( 关于LE和LLE的区别这个问题,我在保研面试的时候也被问到过 )

• step 1( adjacency information ):(a) ε-ball  (b)k近邻

• step 2( approximation matrix ):

• step 3( embedding ):

  E 与 L 存在如下关系:

6  Examples

     实验,略

7  Conclusions

未解决的问题:

1)不是等距映射。模式识别和数据表示中到底什么样的映射是好的?

2)能估计出流形本征维数的其他几何不变量;

3)隐式地假设了流形上的均匀概率分布;不能清除流形有边界时算法的表现;参数选择问题;需要对嵌入映射的有限样本估计的收敛性进行处理。

猜你喜欢

转载自www.cnblogs.com/klw6/p/11616392.html