降维与度量学习
10.1 k近邻度量学习
工作机制:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测。
在分类任务中多使用投票法,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任务中多使用平均法,即将这k个样本的实值输出标记的平均值作为预测结果。
给定测试样本x,若其最近邻样本为z,则最近邻分类器出错的概率就是x与z类别标记不同的概率,即:
公式(1)
10.2 低维嵌入
在高维情况下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为“维数灾难(curse of dimensionality)”。缓解维数灾难的方法就是降维。基于线性变换来进行降维的方法称为线性降维方法,对降维效果的评估,通常是比较降维前后学习器的性能,若性能有所提高则认为降维起了作用。
10.3 主成分分析
Principal Component Analysisi,简称PCA是最常用的一种降维方法。
PCA仅需保留W*与样本的均值向量即可通过简单的向量减法和矩阵-向量乘法将新样本投影至低维空间中。
低维空间与原始高维空间必有不同,因为对应于最小的d-d'个特征值的特征向量被抛弃了,这是降维导致的结果。但舍弃这部分信息往往是必要的:(1)舍弃这部分信息之后能使样本的采样密度增大;(2)当数据受到噪声影响时,最小的特征值所对应的特征向量往往与噪声有关,将它们舍弃能在一定程度上起到去噪的效果。
10.4 核化线性降维
10.5 流性学习
manifold learning是一类借鉴了拓扑流形概念的降维方法,“流形”是在局部与欧式空间同胚的空间。流型学习也可被用来可视化。
等度量映射(Isometric Mapping):
局部线性嵌入(Locally Linear Embedding):
10.6 度量学习(metric learning)