度量学习指距离度量学习，是通过特征变换得到特征子空间，通过使用度量学习，让类似的目标距离更近，不同的目标距离更远.
也就是说，度量学习需要得到目标的某些核心特征（特点）。比如区分两个人，2只眼睛1个鼻子－这是共性，柳叶弯眉樱桃口－这是特点。
度量学习分为两种，一种是基于监督学习的，另外一种是基于非监督学习的。

1.KNN

有监督学习

工作机制

给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k个“邻居”的信息进行预测。
(分类中用投票法，回归中用平均法，还可以基于距离远近进行加权投票或平均。)

注意：KNN没有显示的训练过程，它是“懒惰学习”的代表，它在训练阶段只是把数据保存下来，训练时间开销为0，等收到测试样本后进行处理。

错误率

KNN错误率的上下界在1-2倍贝叶斯决策方法的错误率范围内
以最近邻分类器(K=1)在二分类问题为例：
令 $c^*=argmax_{c \in \mathcal Y}P(c|x)$ 表示贝叶斯最优分类器的结果。给定测试样本x，若其最近邻样本为z，则1NN出错的概率为x与z类标不同的概率：
$P(err)=1-\sum_{c \in \mathcal Y}P(c|x)P(c|z)\approx 1-\sum_{c \in \mathcal Y}P^2(c|x)\le1-P^2(c^*|x)=(1+P(c^*|x))(1-P(c^*|x))\le2(1-P(c^*|x))$

2.主成分分析

无监督学习
主成分分析通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。

模型表示

设投影矩阵为W，样本点 $x_i$ 在新空间超平面上的投影是 $W^Tx_i$ 。我们希望所有样本点的投影能够尽可能地分开，所以目标是使得投影后样本点的方差最大化。
$\max_W\quad tr(W^TXX^TW)$ $s.t.\quad W^TW=I$

模型求解

等式条件下求解最优问题用拉格朗日乘子法，得：
$XX^Tw_i=\lambda_iw_i$
于是，只需要对协方差矩阵 $XX^T$ 进行特征值分解，将特征值降序排序，前d个特征值所对应的特征向量即为投影矩阵W。

3.因子分析

模型表示

在这里插入图片描述

变量意义

因子载荷 $a_{ij}$ ：反映了第i 个变量在第j个公共因子上的相对重要性。
变量 $X_i$ 的共同度 $\sum_{j=1}^m a_{ij}^2$ ：是 $X_i$ 方差的主要部分，共同度越大说明公共因子包含 $X_i$ 的变异信息越多。
公共因子 $F_j$ 对X的方差贡献 $\sum_{i=1}^p a_{ij}^2$ ：方差贡献越大，则该公共因子越重要。

计算步骤

第一步：将原始数据标准化。
第二步：建立变量的相关系数R。
第三步：求R 的特征根及其相应的单位特征向量。
第四步：对因子载荷矩阵施行最大正交旋转。
第五步：计算因子得分。

降维与度量学习

1.KNN

工作机制

错误率

2.主成分分析

模型表示

模型求解

3.因子分析

模型表示

变量意义

计算步骤

猜你喜欢