机器学习第10章(降维与度量学习)

                                                降维与度量学习

10.1 k近邻度量学习

工作机制:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测。

在分类任务中多使用投票法,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任务中多使用平均法,即将这k个样本的实值输出标记的平均值作为预测结果。

给定测试样本x,若其最近邻样本为z,则最近邻分类器出错的概率就是x与z类别标记不同的概率,即:

P(err)=1-\sum_{c\in y}P(c|x)P(c|z)                                                                                                                                  公式(1)

10.2 低维嵌入

在高维情况下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为“维数灾难(curse of dimensionality)”。缓解维数灾难的方法就是降维。基于线性变换来进行降维的方法称为线性降维方法,对降维效果的评估,通常是比较降维前后学习器的性能,若性能有所提高则认为降维起了作用。

10.3 主成分分析

Principal Component Analysisi,简称PCA是最常用的一种降维方法。

PCA仅需保留W*与样本的均值向量即可通过简单的向量减法和矩阵-向量乘法将新样本投影至低维空间中。

低维空间与原始高维空间必有不同,因为对应于最小的d-d'个特征值的特征向量被抛弃了,这是降维导致的结果。但舍弃这部分信息往往是必要的:(1)舍弃这部分信息之后能使样本的采样密度增大;(2)当数据受到噪声影响时,最小的特征值所对应的特征向量往往与噪声有关,将它们舍弃能在一定程度上起到去噪的效果。

10.4 核化线性降维

10.5 流性学习

manifold learning是一类借鉴了拓扑流形概念的降维方法,“流形”是在局部与欧式空间同胚的空间。流型学习也可被用来可视化。

等度量映射(Isometric Mapping):

局部线性嵌入(Locally Linear Embedding):

10.6 度量学习(metric learning)

 

猜你喜欢

转载自blog.csdn.net/jinhualun911/article/details/108849646