降维简介
降维或嵌入式指将原始的高维数据映射到低维空间.
实质的想法:高度冗余的数据通常是可以被压缩的,即高维复杂的数据其内在的维度可能比较小,或与任务相关的维度比较小.
降维方法
- 维度选择
选择已有维度的一个子集 - 维度抽取
通过组合已有的维度构建新的维度
映射:原始空间 ,为了实际价值,我们要求 .
维度选择
- Pros
简单,流行,具有较好的泛华性能(不止近似距离). - Cons
没有精度保证,差的例子上错误很大(重尾分布),稀疏数据上大多数是0. - 手工移除特征
- 冗余的(multicollinearity/VIFs)
- 不相关(文本挖掘中的停用词)
- 质量差的特征(值得缺失比例超过50%)
- 监督方法
- 为每个特征打分:
- 训练或交叉验证单特征分类器
- 估计每个特征与分类label得互信息
- 用 统计量度量每个特征和类别之间的独立性
- 搜索有用的特征子集
- 前向
- 从零个特征开始
- 一遍式或迭代式地选择
- 后向
- 从所有特征开始
- 一遍式或迭代式地选择
- 前向
维度抽取
基础知识
矩阵和矩阵的乘法本质上式在做线性变换.
一个 实值矩阵 对应一个线性变换 ,映射向量 到结果向量 .
特征分解
矩阵分解是将一个矩阵分解为几个矩阵的乘法.
高维矩阵的低秩近似.
输入:方阵
特征向量和特征值
是矩阵的特征向量,
是对应的特征值,
是矩阵的特征向量,
是由特征值组成的对角阵
奇异值分解
输入:矩阵
SVD
中的各项
为奇异值
、 :奇异值 对应的向量
: 和 是正交矩阵
特征值或奇异值的物理意义
- 统计角度: 方差
- 物理角度: 能量
奇异值向量的含义
的每行、列代表一个方向
列与列、行与行之间相互正交
如果我们将 中的奇异值降序排列,并且 中 也相应调整
- :最大能量的方向
- :和 正交的能量最大的方向
- :和 、 正交的能量最大的方向
方法
常用的数据降维方法如下
线性方法
- PCA主成分分析
- LDA线性判别分析
- MDS多维缩放
非线性方法
局部嵌入
- 局部线性嵌入LLE
全局嵌入
- 等距离特征映射ISOMAP
- 核方法KPCA
- 拉普拉斯特征映射LE
- 自编码器
- TSNE