局部线性嵌入LLE

[1]https://www.cnblogs.com/pinard/p/6266408.html
[2]Graph Embedding Techniques, Applications, and Performance: A Survey
主要参考和图片来源[1]

局部线性嵌入(Locally Linear Embedding,LLE),一种重要降维方法,与PCA、LDA相比,更注重保持样本局部线性特征,常用语图像识别、高维数据可视化等。

数学意义上的流形:一个不闭合曲面,曲面上数据分布均匀,特征比较稠密,流形降维就是把流形从高维到低维的降维过程,并在降维中保留流形高维的特征。
这里写图片描述

我的理解:数据分布于高维的一个曲面,流行学习就是将这个曲面降维展开表达出来

这里写图片描述

LLE
LLE假设数据在较小的局部是线性的,即样本 x 1 可以由K个近邻样本 x 2 , x 3 , x 4 线性表示

x 1 = w 12 x 2 + w 13 x 3 + w 14 x 4

则希望降维之后依然保持这种线性关系
x 1 w 12 x 2 + w 13 x 3 + w 14 x 4

由于只考虑了局部线性关系,所以复杂度低很多

LLE推导

首先设定邻域大小k,然后寻找某个样本与近邻样本的线性关系,即权重系数。
假设有m个n维样本 { x 1 , x 2 , . . . , x m } ,则有损失函数

J ( w ) = i = 1 m x i j = 1 k w i j x j 2 2

对权重系数有归一化限制
j = 1 k w i j = 1

对损失函数矩阵化
J ( W ) = i = 1 m x i j = 1 k w i j x j 2 2 = i = 1 m j = 1 k w i j x i j = 1 k w i j x j 2 2 = i = 1 m j = 1 k w i j ( x i x j ) 2 2 = i = 1 m W i T ( x i x j ) T ( x i x j ) W i

其中 W i = ( w i 1 , w i 2 , . . . , w i k ) T
表示局部协方差 Z i = ( x i x j ) T ( x i x j )
则简化为

J ( W ) = i = 1 m W i T Z i W i

对约束有
j = 1 k w i j = W i T 1 k = 1

其中1k为k维全1向量

则拉格朗日乘子法:

L ( W ) = i = 1 m W i T Z i W i + λ ( W i T 1 k 1 )

对W求导取0得
2 Z i W i + λ 1 k = 0


W i = λ Z i 1 1 k λ = 1 2 λ

利用约束做归一化有
W i = Z i 1 1 k 1 k T Z i 1 1 k

注:把 1 k T

至此,获得高维的权重系数,希望权重系数保持。设定n维样本集 { x 1 , x 2 , . . . , x m } 在低维的d维度投影为 { y 1 , y 2 , . . . , y m } ,希望保持线性关系且均方差损失函数最小,则最小化损失函数

J ( y ) = i = 1 m y i j = 1 k w i j y j 2 2

区别在于高维的时候是求权重系数W,低维时是求低位数据Y

为了得到标准化低维数据,加入约束条件

i = 1 m y i = 0 ; 1 m i = 1 m y i y i T = I

将目标损失函数矩阵化

J ( Y ) = i = 1 m y i j = 1 k w i j y j 2 2 = i = 1 m Y I i Y W i 2 2 = t r ( Y T ( I W ) T ( I W ) Y )

M = ( I W ) T ( I W ) ,则最小化 J ( Y ) = t r ( Y T M Y ) ,约束函数矩阵化为 Y T Y = m I
通过拉格朗日函数得到
L ( Y ) = t r ( Y T M Y ) + λ ( Y T Y m I )

求导取0得到
2 M Y + 2 λ Y = 0

则求出矩阵M的最小的d个特征值所对应的d个特征向量组成矩阵 Y = ( y 1 , y 2 , . . . , y d )

注,一般最小的特征值为0不能反映数据特征,因此取[1,d+1]小的特征值的特征向量。(这里因为最小化目标,所以取小的特征值)

算法流程

总结一波流程:K近邻=>算权重系数=>算降维后的矩阵
这里写图片描述
这里写图片描述

LLE算法的主要优点有:
1)可以学习任意维的局部线性的低维流形
2)算法归结为稀疏矩阵特征分解,计算复杂度相对较小,实现容易。
LLE算法的主要缺点有:
1)算法所学习的流形只能是不闭合的,且样本集是稠密均匀的。
2)算法对最近邻样本数的选择敏感,不同的最近邻数对最后的降维结果有很大影响。

猜你喜欢

转载自blog.csdn.net/jianbinzheng/article/details/81209668
LLE