降维方法(LDA、PCA、KLDA、MDS和ISOMAP)总结

线性降维

PCA(无监督)

1.协方差矩阵:随机变量组成的向量,每组随机变量的协方差构成的一个对称矩阵,其对角元是每组随机变量的方差
2.矩阵的对角化:对于矩阵M,有可逆矩阵V,使得成为对角矩阵,而M的特征值对应的特征向量组成了该可逆矩阵V。(换而言之,矩阵V的每一列对应着M的特征向量)
3.正交矩阵:转置矩阵等于其逆矩阵(),构成矩阵的列向量彼此正交。
4.数据中心化:对每组随机变量减去均值,再除以标准差。本质是将每组随机变量变为标准的高斯分布。
PCA(Principal component analysis)是用投影的方法将高维空间压缩到低维。

LDA(有监督)

1.均值向量:由多组随机变量组成的向量,对每一组随机变量取均值所构成的向量。
2.厄米矩阵(Hermitan ):转置等于其本身的矩阵。
3.广义瑞利熵(Rayleigh quotient ):若x为非零向量,则为A,B的广义瑞利熵,它的最大值是的最大特征值。
4.矩阵的奇异值分解:任何实矩阵M都可以被分解成为这三个矩阵的乘积。U和V均为正交矩阵。U的列向量是的特征向量,V的列向量是的特征向量,同时奇异值的大小是的特征值的平方根。
LDA(Linear Discriminant Analysis)的基本思想也是将高维空间的样本投影到低维空间,使信息损失最少。
与PCA不同在于,PCA只针对样本矩阵,希望投影到低维空间之后,样本投影点的方差最大;但LDA不仅针对样本矩阵,还使用了类别信息,它希望投影到低维空间后,相同样本的方差最小(相同样本的集中化),不同样本的距离最大(不同样本离散化)。

非线性降维

MDS(多维缩放)和ISOMAP(等度量映射)

1.流形(manifold):局部近似欧氏空间的拓扑空间,流形上的任意一点都有邻域近似为欧几里得空间。(举个例子,你将一张忽略厚度的纸卷成一个桶状,那么这张纸就变成了一个三维空间的二维流形,且这张纸每一点和其邻域近似平整)
2.内蕴空间(intrinsic space):流形内部结构的空间
3.测地线:黎曼流形上连接两点的局部最短的线,它于弯曲空间,类似于直线对于平直空间。
4.迹(trace):矩阵对角元的和
MDS(Multiple Dimensional Scaling)的目标是尽可能在低维空间保持高维空间的距离信息。

KLDA(核化的线性判别分析)

1.kernel trick:将样本从低维空间映射到高维空间,可以将一个非线性问题转化为线性问题,且有核函数:
2.表示定理(Representer theorem):正则化项单调递增的关于的优化函数,它的解总可以写成
3.LDA:线性判别分析
KLDA(Kernelized Linear Discriminant Analysis)就是使用了kernel trick的LDA。

小结

线性降维

• 降维在表示论中属于低维表示,本质是将原本空间压缩到更小的空间,在这个过程中保证信息损失的最小化。与之相对的是稀疏表示,它是将原本的空间嵌入到更大的空间,在这过程中保证信息损失的最小化。
• PCA有多种理解方式,除了在低维空间使得样本方差最大化,也可以理解为最小重构均方误差,将问题转化为所选低维空间重构的数据与实际数据的差。引入贝叶斯视角,还可以将PCA理解为最小化高斯先验误差。如果从流形的角度看,就是把数据看作一个拓扑空间的点集,在高斯概率空间内找到一个对应的线性流形。
• PCA和LDA的优化目标均可以用拉格朗日乘子法解决。PCA同样也可以通过奇异值分解来解决。奇异值分解方法可以理解为是特征值分解的推广,因为特征值分解要求矩阵为一个方阵,但奇异值分解并无此要求。

非线性降维

• ISOMAP属于流形学习,流形重要特点就是局部结构对应于欧几里得空间,使得我们可以在低维空间保持流形的结构,而结构的关键属性就是样本间的距离,也正因为如此,我们对测地线的计算仍然需要对领域的样本进行收集,实际上往往得不到有效满足。也就是说,流形学习的好坏很大程度上取决于数据本身。
• KLDA之所以是非线性的,原因就在与对高维空间的变换,然后再进行投影,投影是线性的,但变换却是非线性的。监督学习体现在那个指示变量,它乘以核矩阵,就可以将属于一类样本挑出来,因为其他的为零。
• 其他常见的流形学习方法有,拉普拉斯特征映射,局部线性嵌入,和局部切空间对齐,t分布的随机临近嵌入等。

猜你喜欢

转载自blog.csdn.net/Geek_/article/details/107582978