论文笔记:Nonlinear Dimensionality Reduction by Locally Linear Embedding

一、基本信息

论文题目:《Nonlinear Dimensionality Reduction by Locally Linear Embedding 》

发表时间:Science  2000

论文作者及单位:

论文地址:http://science.sciencemag.org/content/290/5500/2323

二、摘要

       许多科学领域的研究都需要对数据进行分析和可视化。因为数据一般都是大量且多变量的数据,直接处理十分麻烦,所以迫切需要一种能够对数据进行降维的方法,即发现高维数据的紧凑表示。在这里,我们介绍了局部线性嵌入(LLE),一种无监督的学习算法,用于计算高维输入的低维、邻域保护嵌入。与局部降维的聚类方法不同,LLE将其输入映射到一个低维的全局坐标系中,并且其优化不影响局部极小值。利用线性重构的局部对称性,LLE能够学习非线性流形的整体结构,如由人脸图像或文本文档生成的流形。

三、译文

        对于降维问题,以前的方法是基于多维标度(MDS)(2),计算试图保持数据点之间的成对距离[或广义差异(3)]的嵌入;这些距离是沿着直线测量的,或者在更具权威性的MDS用法中,如Isomap(4),沿着限制于观测数据的流形表示的最短路径。在这里,我们采用一种不同的方法,称为局部线性嵌入(LLE),这种方法不需要估计广泛分离的数据点之间的成对距离。与以前的方法不同,LLE从局部线性拟合中恢复全局非线性结构。

  如图2所示,LLE算法基于简单的几何直觉。假设数据由n个实值向量Xi组成,每个维度D都是从一些基础流形中采样的。如果有足够的数据(这样流形就可以很好地进行采样),我们希望每个数据点及其相邻点都位于流形的局部线性面片上或附近。我们用线性系数来描述这些斑块的局部几何特征,这些线性系数从相邻的数据点重建每个数据点。重建误差用损失函数来衡量公式(1)

它将所有数据点之间的距离平方和它们的重建相加。权重Wij表示第j个数据点对第i个数据点重建的贡献。为了计算权重Wij,我们最小化了受两个约束的代价函数:首先,每个数据点Xi仅从其邻居(5)重构,如果Xj不属于Xi的一组邻居,则强制Wij=0;第二,权重矩阵的行和为:\sum _{j}W_{ij}=1。通过求解一个最小二乘问题(7),得到了在这些约束条件(6)下的最优权重wij。

        最小化这些重构错误的约束权重遵循一个重要的对称性:对于任何特定的数据点,它们对该数据点及其相邻点的旋转、重新对齐和转换都是不变的。通过对称性,可以得出重建权重表征每个邻域的固有几何特性,而不是依赖于特定参照系(8)的特性。请注意,对转换的不变性是由权重矩阵行的权重和为1这个约束强制实现的。

        假设数据位于或接近低维D<<D的光滑非线性流形上。那么,有一个很好的近似值,存在一个线性映射-包括平移、旋转和重新缩放,将每个邻域的高维坐标映射到流形上的全局内部坐标。通过设计,重建权重wij反映了数据的内在几何性质,这些性质对此类转换是不变的。因此,我们期望它们在原始数据空间中对局部几何尝试的描述对于流形上的局部补丁同样有效。特别是,重建三维中第i个数据点的同一权重wij也应该在三维中重建其嵌入的流形坐标。
        LLE基于上述思想构造了一个邻域保持映射。在算法的最后一步,每个高维观测XI被映射到代表流形上的全局内部坐标的低维向量YI。这是通过选择d维坐标yi来实现的,以最小化嵌入成本函数:

公式(2)

        与先前的一种方法一样,这种成本函数是基于局部线性重建误差,但在这里我们修正了权重wij,同时优化了坐标yi。公式2中的嵌入成本定义了向量yi中的二次型。在约束条件下,可以通过解一个稀疏的n n特征值问题(9)来最小化问题,该问题的底部d非零特征向量提供了一组以原点为中心的有序正交坐标。
       算法的实现非常简单。在我们的实验中,根据欧几里得距离或归一化点积的测量结果,从它们的k近邻重建数据点。对于LLE的这种实现,该算法只有一个自由参数:邻域数k,一旦选择了邻域,则用线性代数中的标准方法计算出最优权值wij和坐标yi。该算法通过图2中的三个步骤进行一次简单的传递,并在方程组1和2中找到重建和嵌入损失的全局极小值。

       除了图1中已知真实流形结构的示例(10),我们还将LLE应用于人脸(11)的图像和字符文档计数的矢量(12)。人脸和文字的二维嵌入如图3和4所示。请注意,这些嵌入空间的坐标如何与有意义的属性相关,如人脸的姿势和表达以及单词的语义关联。
       许多常用的非线性维数约简学习算法都不具有LLE的优点。自动编码器神经网络(13,14)、自组织映射(15)和潜在变量模型(16)的迭代爬山方法不具有相同的全局可选性或收敛性保证;它们也倾向于提供更多的自由参数,如学习率、收敛标准和体系结构规范。最后,当其他非线性方法依赖确定性退火方案(17)来避免局部极小值时,LLE的优化特别容易处理。

        LLE能很好地与固有的流形维数d进行缩放,并且不需要对嵌入空间进行离散化网格划分。随着嵌入空间中添加了更多的维度,现有的维度不变,因此不必重新运行LLE来计算更高的维度嵌入。与主曲线和曲面(18)或加性分量模型(19)等方法不同,LLE在实践中并不局限于极低维或余维的流形。此外,d的内在值本身可以通过分析互成本函数来估计,其中从嵌入向量Yi导出的重构权重被应用到数据点XI。
        LLE阐述了多方面学习的一般原理,由Martinetz和Schulten(20)和Tenenbaum(4)阐明,重叠的局部社区共同分析可以提供有关全局几何的信息。Tenenbaum算法isomap具有LLE的许多优点,它已成功地应用于非线性维数约简中的相似问题。然而,对等值线图的嵌入进行了优化,以保持一般数据点对之间的测地距离,这只能通过计算通过大数据子格的最短路径来估计。LLE采用不同的方法,分析局部对称性、线性系数和重构误差,而不是全局约束、成对距离和应力函数。因此,它避免了解决大型动态编程问题的需要,而且它还倾向于积累非常稀疏的矩阵,这些矩阵的结构可以利用以节省时间和空间。

        在数据分析和统计学习中,LLE与其他方法的结合可能更有用。例如,观察空间和嵌入空间之间的参数映射可以通过监督神经网络(21)学习,其目标值由LLE生成。LLE也可以推广到更难的设置,例如不相交的数据流形(22),并专门用于更简单的设置,例如时间顺序观测(23)。
        也许最大的潜力在于,除了这里所考虑的问题外,还可以解决各种各样的问题。鉴于传统方法如PCA和MDS的广泛吸引力,该算法应在许多科学领域得到广泛应用。

四、我的理解

       许多科学领域的研究都需要对数据进行分析和可视化。因为数据一般都是大量且高维的数据,直接处理十分麻烦,所以迫切需要一种能够对数据进行降维的方法,来发现高维数据的紧凑表示。在这篇文章中,作者提出了局部线性嵌入(LLE),一种无监督的学习算法,用于计算高维输入的低维、邻域保护嵌入。与局部降维的聚类方法不同,LLE将其输入映射到一个低维的全局坐标系中,并且其优化不影响局部极小值。利用线性重构的局部对称性,LLE能够学习非线性流形的整体结构,如由人脸图像或文本文档生成的流形。

如上图所示,对于二维流形(A)我们可以通过采样得到三维数据(B)。使用LLE算法可以将三维数据(B)映射到二维数据(C)。上图中的颜色编码说明了由LLE发现的邻域保持映射;图(b)和(c)中的黑色轮廓表示单点的邻域。

   但是LLE在有些情况下也并不适用,如果数据分布在整个封闭的球面上,LLE则不能将它映射到二维空间,且不能保持原有的数据流形。因此我们在使用LLE处理数据时,首先要假设数据不是分布在闭合的球面或者椭球面上。

LLE算法认为每一个数据点都可以由其近邻点的线性加权组合构造得到。算法的主要步骤分为三步:

  1. 寻找每个样本点的k个近邻点;
  2. 由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;
  3. 由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。

具体的算法流程如下图所示:

具体的步骤:

步骤一:

假设现有n个待处理的数据点,它们的维数为D维。LLE的第一步是通过K近邻法等方法选取出每个点的若干个近邻。

步骤二:根据近邻点的距离随机赋予权值Wij,不能为0,且。如果为非近邻点,那么。依据以上规则建立每个样本点的局部重建权值矩阵W,并定义重构误差

最小化上式,则可得到最终的重建矩阵W。

步骤三:将所有样本点映射到低维向量空间。每个高维的向量对应于一个低维向量,映射条件为最小化嵌入损失函数:

在以上约束条件下,我们可以将上式转化为一个标准的特征分解问题来便于求解,最终解得的d维非零特征向量提供了一组以原点为中心的有序正交基。

 

 

 

猜你喜欢

转载自blog.csdn.net/qq_35771020/article/details/87928517