Locally linear embedding (LLE)算法简介

Locally linear embedding (LLE) (Sam T.Roweis and Lawrence K.Saul, Science，2000)是一种非线性降维方法，它能够使降维后的数据保持原有拓扑结构。

原始特征的数量可能很大，或者说样本是处于一个高维空间中，通过映射或变换的方法，降高维数据降低到低维空间中的数据，这个过程叫特征提取，也称降维。

特征提取得基本任务研究从众多特征中求出那些对分类最有效的特征，从而实现特征空间维数的压缩。传统的降维技术可以分为线性和非线性两类。

(1)线性降维算法主要有PCA(Principal Component Analysis)、MDS（Multidimensional Scaling）及ICA;

(2)非线性降维算法主要有自组织影射网络（Self-organising map, 生成拓扑映射（Generative Topographic mapping）, 主曲线和表面（Principal Curves and Surfaces）, 自编码神经网络（Auto-encoder Neural Networks）和线性混合模型（Mixtures of Linear Models）。其中LLE，作为一种新的降维方法，既有非线性的特点，又有线性方法的优点，这几年成为人们研究的热点。

LLE算法可以有图1所示的一个例子来描述。在图1所示中，LLE能成功地将三维非线性数据映射到二维空间中。如果把图1（B）中红颜色和蓝颜色的数据分别看成是分布在三维空间中的两类数据，通过LLE算法降维后，则数据在二维空间中仍能保持相对独立的两类。在图1（B）中的黑色小圈中可以看出，如果将黑色小圈中的数据映射到二维空间中，如图1（C）中的黑色小圈所示，映射后的数据任能保持原有的数据流形，这说明LLE算法确实能保持流形的领域不变性。由此LLE算法可以应用于样本的聚类。而线性方法，如PCA和MDS，都不能与它比拟的。LLE算法操作简单，且算法中的优化不涉及到局部最小化。该算法能解决非线性映射，但是，当处理数据的维数过大，数量过多，涉及到的稀疏矩阵过大，不易于处理。在图1中的球形面中，当缺少北极面时，应用LLE算法则能很好的将其映射到二维空间中，如图1中的C所示。如果数据分布在整个封闭的球面上，LLE则不能将它映射到二维空间，且不能保持原有的数据流形。那么我们在处理数据中，首先假设数据不是分布在闭合的球面或者椭球面上。

Locally <wbr>linear <wbr>embedding <wbr>(LLE)算法简介

图1 非线性降维实例：B是从A中提取的样本点（三维），通过非线性降维
算法（LLE），将数据映射到二维空间中（C）。从C图中的颜色可以看出
通过LLE算法处理后的数据，能很好的保持原有数据的邻域特性

LLE算法是最近提出的针对非线性数据的一种新的降维方法，处理后的低维数据均能够保持原有的拓扑关系。它已经广泛应用于图像数据的分类与聚类、文字识别、多维数据的可视化、以及生物信息学等领域中。

1 LLE算法

扫描二维码关注公众号，回复： 3825812 查看本文章

LLE算法可以归结为三步: (1)寻找每个样本点的k个近邻点；（2）由每个样本点的近邻点计算出该样本点的局部重建权值矩阵；（3）由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。具体的算法流程如图2所示。

图2 LLE算法流程

算法的第一步是计算出每个样本点的k个近邻点。把相对于所求样本点距离最近的k个样本点规定为所求样本点的k个近邻点。k是一个预先给定值。Sam T.Roweis 和 Lawrence K.Saul算法采用的是欧氏距离，则减轻复杂的计算。然而本文是假定高维空间中的数据是非线性分布的，采用了diijstra距离。Dijkstra 距离是一种测地距离，它能够保持样本点之间的曲面特性，在ISOMAP算法中有广泛的应用。针对样本点多的情况，普通的dijkstra算法不能满足LLE算法的要求。

LLE算法的第二步是计算出样本点的局部重建权值矩阵。这里定义一个误差函数，如下所示：