LLE(局部线性嵌入)数据降维
原理解释
当数据具备某些非线性结构,如流形结构时,我们希望降维后的数据仍然保持这些结构。那么就提出了LLE降维算法。
LLE (Locally linear embedding):在数据降维后仍然保留原始高维数据的拓扑结构,这种拓扑结构表现为数据点的局部邻接关系。
此算法我们首先要寻求每个数据点的k个最近邻,然后将当前数据点用k个最近邻线性表出,那么就有相对的权重系数。
我们希望数据在降维后数据点之间依然能保持这种线性表出的关系,并且在满足另外一些约束条件的前提下,我们很容易求得降维后的数据。
具体原理和公式网络上有很多人整理得很好,这里不提了。
LLE算法流程
下面时LLE算法的算法流程,输入为矩阵p*N矩阵X,输出为d*N矩阵Y。矩阵的每一列都表示一个对象,每一行都表示对象的一个特征表示。
源代码
%%
%编写程序,实现PCA和LEE算法
%对图像进行降维实验,并显示降维重建后的图像
%运行已有程序,和自己的对比
%实验报告(伪代码(或流程图)、源代码、实验结果及分析)
%% 预处理和数据输入
clc
clear
addpath(genpath(pwd));%将子孙文件添加到工作目录
load face_images; %导入数据
data = images;
%data = data(:,1:50);
%% 初始化参数
d = 2;
len = 64;
wid = 64;
k = 12;
%%
[p ,N] = size(data);%特征维度和对象数目
[IDX,~] = knnsearch(data',data','K',k+1);
IDX = IDX(:,2:end);
W = zeros(N);
for i = 1:N
xk = data(:,i);
index = IDX(i,:);
Qk_temp = repmat(xk,1,k) - data(:,index);
Qk = Qk_temp'*Qk_temp;
wk_temp = Qk\ones(k,1);
wk = wk_temp/sum(wk_temp);
W(i,index) = wk;
end
W = W';
I = eye(N);
M = (I-W)*(I-W)';
[P,L] = eigs(M,d+1,0);
P = P(:,2:end);
Y = (P*sqrt(N))';
实验结果与分析
实验结果
选取了409×698的图像数据集进行了测试,选取降维后维数为2,选取最近邻个数 ,实验后的部分结果如下:
实验结果分析
我们使用别人制作的降维工具箱“drtoolbox”重新进行计算并和我的程序结果进行比较。工具箱的使用代码和结果如下:
%% 使用工具箱进行进行降维来和我的实验结果进行比较
clc
clear
close all
method = 'LLE';%可选LLE或者PCA
addpath(genpath(pwd));
% 产生测试数据
%[X, labels] = generate_data('helix', 2000);
if strcmp(method,'PCA')
load AR %导入数据
[p,N] = size(AR);
X = double(AR);%导入数据
else
load face_images %导入数据
[p,N] = size(images);
X = double(images);%导入数据
end
% 估计本质维数
%no_dims = round(intrinsic_dim(X, 'MLE'));
%disp(['MLE estimate of intrinsic dimensionality: ' num2str(no_dims)]);
d = 2;
k = 12;
% PCA降维或LLE降维
[mappedX, mapping] = compute_mapping(X', method,d);
Y = mappedX';
if strcmp(method,'PCA')
x0 = (mapping.mean)';
W = (mapping.M);
AR_shift = X - repmat(x0,1,N);
%%
close all;
k = 1;
y = Y(:,k);
X_rebuid = W*y + x0;%第k个图像的重建还原
image = AR(:,k);
image = reshape(image,50,40);
imshow(mat2gray(image));%对原矩阵归一化
figure;
image_re = X_rebuid;
image_re = reshape(image_re,50,40);
imshow(mat2gray(image_re));%对原矩阵归一化
end
降维后的部分数据截图如下:
为了比较性能,找个一个别人写的LEE算法,算是网络版本,代码如下:
% LLE ALGORITHM (using K nearest neighbors)
% [Y] = lle(X,K,dmax)
% X :data as D x N matrix (D = dimensionality, N = #points)
% K :number of neighbors
% dmax :max embedding dimensionality
% Y :embedding as dmax x N matrix
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%function [Y] = lle(X,K,d)
addpath(genpath(pwd));%将子孙文件添加到工作目录
load face_images; %导入数据
data = images;
X = data;
K = 12;
d = 2;
%%
[D,N] = size(X);
fprintf(1,'LLE running on %d points in %d dimensions\n',N,D);
%% Step1: compute pairwise distances & find neighbour
fprintf(1,'-->Finding %d nearest neighbours.\n',K);
X2 = sum(X.^2,1);
distance = repmat(X2,N,1)+repmat(X2',1,N)-2*X'*X;
[sorted,index] = sort(distance);
neighborhood = index(2:(1+K),:);
% Step2: solve for recinstruction weights
fprintf(1,'-->Solving for reconstruction weights.\n');
if(K>D)
fprintf(1,' [note: K>D; regularization will be used]\n');
tol=1e-3; % regularlizer in case constrained fits are ill conditioned
else
tol=0;
end
W = zeros(K,N);
for ii=1:N
z = X(:,neighborhood(:,ii))-repmat(X(:,ii),1,K); % shift ith pt to origin
C = z'*z; % local covariance
C = C + eye(K,K)*tol*trace(C); % regularlization (K>D)
W(:,ii) = C\ones(K,1); % solve Cw=1
W(:,ii) = W(:,ii)/sum(W(:,ii)); % enforce sum(w)=1
end;
% Step 3: compute embedding from eigenvects of cost matrix M=(I-W)'(I-W)
fprintf(1,'-->Computing embedding.\n');
% M=eye(N,N); % use a sparse matrix with storage for 4KN nonzero elements
M = sparse(1:N,1:N,ones(1,N),N,N,4*K*N);
for ii=1:N
w = W(:,ii);
jj = neighborhood(:,ii);
M(ii,jj) = M(ii,jj) - w';
M(jj,ii) = M(jj,ii) - w;
M(jj,jj) = M(jj,jj) + w*w';
end;
% calculation of embedding
options.disp = 0;
options.isreal = 1;
options.issym = 1;
[Y,eigenvals] = eigs(M,d+1,0,options);
Y = Y(:,2:d+1)'*sqrt(N); % bottom evect is [1,1,1,1...] with eval 0
fprintf(1,'Done.\n');
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% other possible regularizers for K>D
% C = C + tol*diag(diag(C)); % regularlization
% C = C + eye(K,K)*tol*trace(C)*K; % regularlization
“网络版”的数据结果和我的版本的结果是一样的。我们开启Matlab的探查功能来比较耗时,结果如下: