机器学习(10) -- 降维与度量学习

10.1 k近邻学习

懒惰学习:在训练阶段仅仅把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理;

急切学习:在训练阶段就对样本进行学习处理的方法。

 

最近邻分类器的泛化错误率不超过贝叶斯最优分类器的错误率的两倍

给定样本x,其最近邻样本为z,则最近邻分类器出错的概率:

假设样本独立同分布,且对任意x和任意小正数δ,在x附近δ范围内总能找到一个训练样本。于是得证

 

10.2 低维嵌入

上面最近邻分类器成立的重要假设是密采样,即训练样本的采样密度足够大。

而现实应用中满足密采样条件所需样本数目很大,无法满足。

于是在高维情形下出现的数据样本稀疏、距离计算困难的等问题,是所有机器学习方法共同面临的严重障碍,被称为“维数灾难”

缓解维数灾难的一个重要途径是降维,亦称维数约简,即通过某种数学变换将原始高维属性空间转变为一个低维子空间,在这个子空间中样本密度大幅度提高,距离计算也变容易。

为什么能进行降维?观测或收集到的训练样本是高维的,但是与学习任务密切相关的也许仅是某个低维分布,即高维空间中的一个低维嵌入。

 

要求原始空间中样本之间的距离在低维空间中得以保持,即得到“多维缩放”。

MDS算法

d维空间样本,线性变换:

基于线性变换来进行降维的方法称为线性降维方法,符合的基本形式,不同之处是对低维子空间的性质由不同要求,相当于对W施加了不同约束

10.3 主成分分析

对于正交属性空间中的样本点,如何用一个超平面(直线的高维推广)对所有样本进行恰当的表达?

若存在这样的超平面,应具有这样的性质:

最近重构性:样本点到这个超平面的距离都足够近

最大可分性:样本点在这个超平面上的投影能尽可能分开

PCA算法:

PCA仅需保留W与样本的均指向量即可通过简单的向量减法和矩阵-向量乘法将新样本投影至低维空间中。显然,低维空间与原始高维空间必有不同,因为对应于最小的d-d'个特征值的特征向量被舍弃了,这是降维导致的结果。但舍弃这部分信息往往是必要的:一方面,舍弃这部分信息之后能使样本的采样密度增大,这正是降维的重要动机;另一方面,当数据受到噪声影响时,最小的特征值所对应的特征向量往往与噪声有关,将它们舍弃能在一定程度上起到去噪的效果。

10.4 核化线性降维

线性降维方法假设从高维空间到低维空间的函数映射是线性的

非线性降维的一种常用方法是基于核技巧对线性降维方法进行“核化”

KPCA(核主成分分析):

引入核函数,得

KA=λA,其中K为核矩阵

10.5 流形学习

“流形”是在局部与欧式空间同胚的空间,即它在局部具有欧式空间的性质,能用欧式距离来进行距离计算。

若低维流形嵌入到高维空间中,则数据样本在高维空间的分布虽然看上去非常复杂,但在局部上扔具有欧式空间的性质,因此可以容易地在局部建立映射关系,然后再设法将局部映射关系推广到全局。

 

10.5.1 等度量映射

等度量映射的基本出发点,是认为低维流形嵌入到高维空间之后,直接在高维空间中计算直线距离具有误导性,因为高维空间中的直线距离在低维嵌入流形上是不可达的。直接在高维空间中计算直线距离是不恰当的。

Isomap算法:

Isomap算法只得到了训练样本在低维空间的坐标,并没有给出映射关系,那么对于新样本就无法给出低维空间的坐标

解决办法是,将训练样本的高维空间坐标作为输入、低维空间坐标作为输出,训练一个回归学习器来对新样本的低维空间坐标进行预测,只是权宜之计,但没有更好的办法

 

对近邻图的构建两种方法,一是指定近邻点个数,二是指定距离阈值ε。

若近邻范围大,“短路问题”,若近邻范围小,“断路问题”

 

10.5.2 局部线性嵌入LLE

Isomap试图保持近邻样本之间的距离

局部性嵌入试图保持邻域样本之间的线性关系,即  的线性关系在低维空间中得以保持

先找到每个样本Xi的近邻下标集合Qi,然后计算基于Qi中的样本点对Xi进行线性重构的Wi:

LLE在低维空间中保持Wij不变,于是Xi在低维空间对应的坐标Zi:

求解

M最小的d'个特征值对应的特征向量组成的矩阵即为Z.T

第4行显示,对于不在Xi邻域的样本,无论如何变化都对Xi和Zi没有影响;将变动限制在局部的思想

10.6 度量学习

对高维数据降维的目的是希望找到一个合适的低维空间,在此空间中进行学习能比原始空间性能更好。事实上,每个空间对应了在样本属性上定义

一个距离度量,而寻找合适的空间,实质上就是在寻找一个合适的距离度量。那么,为何不直接“学习”出一个适合的距离度量呢?这是度量学习的基本动机。

之前有许多距离度量表达式,但是都是固定的,没有可调节的参数,因此不能通过对数据样本学习来加以改善。

 

平方欧氏距离, 在k个维度上距离求和

属性重要程度不同,引入权重w:

其中,,W=diag(w)是一个对角阵,Wii=wi,即最标轴正交,属性无关,但是现实往往相关

于是将W替换为一个普通的半正定对称矩阵M

其中,M称为度量矩阵,度量学习是对M进行学习,M必须是(半)正定对称矩阵,即必有正交基P使M=P*P.T

 

以近邻成分分析为例讨论:

将多数投票法替换为概率投票法:

若以留一法正确率最大化为目标,则可它被自身之外所有样本正确分类的概率

于是整个样本集上:

代入,于是得优化目标:

不同度量学习方法针对不同目标获得不同距离度量矩阵M,若M是一个低秩矩阵,则对M特征值分解,总能找到一组正交基,衍生出一个降维矩阵P,用于降维目的。

发布了27 篇原创文章 · 获赞 2 · 访问量 203

猜你喜欢

转载自blog.csdn.net/weixin_43575791/article/details/105452614