AML 3

第十章 降维与度量学习

K近邻学习器(k-Nearest Neighbor,kNN)

是懒惰学习(lazy learning)的代表 投票法、平均法

最近邻学习器和贝叶斯最优分类器:给定的测试样本x,若其最近邻样本为z,则其最近邻分类器出错的概率就是x和z类别标记不同的概率。

Perr=1-c∈YPcxPcz.

维数灾难 高维空间给距离计算带来很大的麻烦。

在高维情形下出现的数据样本稀疏、距离计算困难等问题。

一个方法是降维。

多维缩放方法(Multiple Dimensional Scaling,MDS)寻找一个低维子空间,样本在此空间内的距离和样本原有距离尽量保持不变。

主成分分析(Principal Component Analysis,PCA)

最常用的一种降维方法。正交属性空间中的样本点,如何使用一个超平面对所有样本进行恰当的表达?超平面需要有两个性质:1.最近重构性:样本点到这个超平面的距离都足够近2.最大可分性:样本点在这个超平面的投影能尽可能分开。

PCA应用。d'的设置:用户指定;在低维空间中对k近邻或其他分类器进行交叉验证;设置重构阈值。PCA 是最常用的降维方法,在不同领域有不同的称谓。人脸识别中该技术称为“特征脸”。

非线性降维:核化线性降维KPCE,KLDA;流形学习(manifold leaining)

核化PCA 首先对PCA解的结构进行分析(i=1mziziT)W=λW 

W=1λ(i=1mziziT)W=i=1mziziTWλ=i=1mziαi

假定zi是由原始属性空间中样本点通过映射ϕ产生,

即zixi,i=1,2,…,m。于是有(i=1mϕxiϕxiT) W=λW

W=i=1mϕxiαi

令κxi,xjxiTϕ(xj)可得KA=λA,A=(a1,a2,…)

取K中最大的d’个特征值,得到zj=wjTϕx=i=1mαijϕxiTϕx=i=1mαijκ(xi,x)

流形学习(ISOMAP)

距离度量学习

猜你喜欢

转载自blog.csdn.net/panthera_1/article/details/84259422
3