SIGAI机器学习第九集数据降维2

讲授LDA基本思想，寻找最佳投影矩阵，PCA与LDA的比较，LDA的实际应用

大纲：

非线性降维算法
流形的概念
流形学习的概念
局部线性嵌入
拉普拉斯特征映射
局部保持投影
等距映射
实验环节

非线性降维算法：

上节介绍了经典的PCA算法，它虽然在很多问题上取得了成功，但是它有它的局限性，因为在现实世界中我们要处理的很多数据它是非线性的，而PCA本身是一个线性化的算法，用线性算法处理非线性问题是不太合适的，所以我们要有非线性的降维技术。

通过一个非线性的函数将x映射到另一个空间中去，得到一个向量y，x的维度一般比y大很多。

非线性降维技术有很多经典的实现：

①核主成分分析，它用一个函数把向量映射到另外一个空间里去处理。

②神经网络，如自动编码器E，受限玻尔兹曼机RBM等。

③流行学习

流形的概念：

英文是manifold，流行是微分几何和拓扑里边的一个概念，可以认为是高维空间里的一个几何结构，如三维空间里边的一个球面，二维空间的曲线，是曲线，曲面在高维空间中的推广。

流形学习的概念：

假设数据在高维空间的分布服从某种几何形状，利用这种几何约束来完成对数据的处理，如降维，分类，聚类。

下面介绍几种经典的流行学习算法，这里是要完成数据降维任务的：

局部线性嵌入
[1] Roweis, Sam T and Saul, Lawrence K. Nonlinear dimensionality reduction by locally linear embedding. Science, 290(5500). 2000: 2323-2326.
拉普拉斯特征映射
[2] Belkin, Mikhail and Niyogi, Partha. Laplacian eigenmaps for dimensionality reduction and data representation. Neural computation. 15(6). 2003:1373-1396.
局部保持投影
[3] He Xiaofei and Niyogi, Partha. Locality preserving projections. NIPS. 2003:234-241.
等距映射
[4] Tenenbaum, Joshua B and De Silva, Vin and Langford, John C. A global geometric framework for nonlinear dimensionality reduction. Science, 290(5500). 2000: 2319-2323.

其中拉普拉斯特征映射和局部保持投影都是一种基于图论的算法。

局部线性嵌入：LLE

[1] Roweis, Sam T and Saul, Lawrence K. Nonlinear dimensionality reduction by locally linear embedding. Science, 290(5500). 2000: 2323-2326.

是整个流行学习算法的开端和鼻祖，有举足轻重的地位。

高维空间中的每个样本点可以由它周围的点近似的线性组合，用周围几个点的加权平均近似表达它，投影到低维空间里还是要保持这种局部的线性关系。

每个样本可以用它邻居的线性组合近似重构：，点数是有限制的，如限定为距离它最近的k个点来表达它，这体现了局部性，同PCA一样让所有样本x_i的重构误差最小化，

求解下面的最优化问题可以得到重构系数：。第一个约束是：当x_i和x_j的距离||x_i-x_j||≤ε时它的重构权重w_ij非0否则为0，还有一种就是把x_i最近的k个点挑出来让这些点的w_ij非0其他的点为0。第二个约束是权重矩阵的每一行权重系数加起来等于1。基于这些假设最终求解最优化问题得到重构洗漱w_ij。

得到重构系数之后，就要完成向低维空间的投影，将向量映射到低维空间，保持这种线性重构关系：，求解该关系的最优化问题。由于局部线性嵌入会保留原始数据的拓扑结构，故降维得到的低维数据具有同高维数据一样的局部线性结构，即w_ij已知求低维空间的映射向量y，y还有别的约束条件，最终将y求出。

以下推理来自https://www.cnblogs.com/pinard/p/6266408.html?utm_source=itdadao&utm_medium=referral

拉普拉斯特征映射：

基于图论的方法
用样本构造图，然后计算拉普拉斯矩阵，最后对矩阵进行特征值分解

SIGAI机器学习第九集 数据降维2

猜你喜欢

SIGAI机器学习第九集数据降维2