流形学习梳理

流形学习方法的优缺点:

优点:能够找到隐藏在高维数据中的低维嵌入、特别是针对非线性分布的数据。

缺点:没有显示的投影矩阵,对新加入的样本必须重新进行操作。

步骤:

1、构造样本点的局部领域

2、得到局部流形结构

3、构造全局优化模型

4、全局低维表示

主要代表性算法:分为全局和局部流形方法;全局主要有ISOMAP、局部主要有LLE、LE、LTSA、SMCE。

ISOMAP:主要原理(保持所有样本点之间的测地距离不变,测地距离:对于近邻点,直接计算欧式距离;对于非近邻,利用近邻图上两点之间的最短路径近似测地距离。)

(1)寻找局部邻域,构造近邻图;

扫描二维码关注公众号,回复: 4725641 查看本文章

(2)然后根据Floyd算法,计算出任意两点之间的最短距离;

(3)构建全局模型(保持降维前后距离不变);

(4)得到全局低维嵌入。

优点:如果高维观测数据所在的低维流形与欧式空间的一个子集等距,且与样本所在流形等距的欧式空间的子集是一个凸集,那么ISOMAP变现结果很好,如果流形曲率很大或者流形上有空洞,则结果会变形。

缺点:计算复杂度很大,当样本很多时,复杂度体现在两个方面,首先是距离的计算,最后是对距离矩阵的分解。

LLE:主要原理(保持近邻重构权重不变)

(1)寻找局部邻域,构造近邻图;

E(w)=\sum_{\limits{i}}\|x_i-\sum{_\limits{j=1}}^{\limits{n}}w_{ij}x_j\|^2

(2)构造全局优化模型(保持降维前后邻接矩阵不变);

\Phi (Y)=\sum{_\limtits{i}^\limits{n}}\|y_i-\sum{_\limtits{j}^\limits{n}}w_{ij}y_j\|^2

(3)得到全局低维嵌入;

优点:计算复杂度小

缺点:对于采样于稀疏的样本,嵌入结果很差(不太理解)。

LE:主要原理(保持近邻不变)

(1)寻找近邻,构造近邻图;

(2)构造全局优化模型(保持降维前后近邻不变)

\Phi (Y)=\sum_{ij}\|y_i-y_j\|^2w_{ij}

(3)得到低维嵌入

优点:计算复杂度小

缺点:对噪声敏感

LTSA:主要原理(保持切空间不变)

(1)寻找近邻,构建邻域切空间(局部邻域切空间近似邻域协方差的特征向量)

(2)构造优化模型(用切空间重构低维坐标)

(3)得到低维嵌入

优点:计算复杂度小

缺点:对样本点的密度和曲率比较敏感

SMCE:主要原理(主要是找到一个权重矩阵,然后用LLE或者LE方法得到低维嵌入)

(1)自动找到近邻,并且近邻就是出于同一个流形上的

(2)构造每个流形内部的权重

(3)采用LLE或者LE得到低维嵌入

优点:能够自动的找到样本的近邻,同时能够找到样本点存在的多个低维流形结构

缺点:未知

猜你喜欢

转载自blog.csdn.net/gf18381303772/article/details/85459890