数据降维(一)基础篇

降维简介

降维或嵌入式指将原始的高维数据映射到低维空间.

实质的想法:高度冗余的数据通常是可以被压缩的,即高维复杂的数据其内在的维度可能比较小,或与任务相关的维度比较小.

降维方法

  • 维度选择
    选择已有维度的一个子集
  • 维度抽取
    通过组合已有的维度构建新的维度
    映射:原始空间 f : R d R d f:R^d \rightarrow R^{d'} ,为了实际价值,我们要求 d d d'\ll d .

维度选择

  • Pros
    简单,流行,具有较好的泛华性能(不止近似距离).
  • Cons
    没有精度保证,差的例子上错误很大(重尾分布),稀疏数据上大多数是0.
  • 手工移除特征
    • 冗余的(multicollinearity/VIFs)
    • 不相关(文本挖掘中的停用词)
    • 质量差的特征(值得缺失比例超过50%)
  • 监督方法
  1. 为每个特征打分:
    • 训练或交叉验证单特征分类器
    • 估计每个特征与分类label得互信息
    • χ 2 \chi^2 统计量度量每个特征和类别之间的独立性
  2. 搜索有用的特征子集
    • 前向
      • 从零个特征开始
      • 一遍式或迭代式地选择
    • 后向
      • 从所有特征开始
      • 一遍式或迭代式地选择

维度抽取

基础知识

矩阵和矩阵的乘法本质上式在做线性变换.

一个 m × n m\times n 实值矩阵 A A 对应一个线性变换 R n R m R^n\rightarrow R^m ,映射向量 x R n x\in R^n 到结果向量 A x R m Ax \in R^m .

特征分解

矩阵分解是将一个矩阵分解为几个矩阵的乘法.

高维矩阵的低秩近似.

输入:方阵 A m × m A_{m\times m}
特征向量和特征值
A v = λ v Av=\lambda v
v v 是矩阵的特征向量, λ \lambda 是对应的特征值, v T v = I v^Tv=I
A = V Σ V 1 A = V\Sigma V^{-1}
V V 是矩阵的特征向量, S i g m a Sigma 是由特征值组成的对角阵

奇异值分解

输入:矩阵 A m × n A_{m\times n}

SVD
A = i = 1 r σ i u i v i T = U Σ V T A = \sum_{i=1}^r\sigma_iu_iv_i^T = U\Sigma V^T
Σ = [ θ 0 0 0 0 0 0 θ r ] \Sigma = \Bigg[ \begin{matrix} \theta&0&0\\ 0 & \ddots &0\\ 0 & 0 & \theta_r \end{matrix} \Bigg]
Σ \Sigma 中的各项 θ \theta 为奇异值

u i u_i v i T v_i^T :奇异值 θ i \theta_i 对应的向量

U T U = I , V T V = I U^TU=I, V^TV = I U U V V 是正交矩阵

特征值或奇异值的物理意义

  • 统计角度: 方差
  • 物理角度: 能量

奇异值向量的含义

U ( V ) U(V) 的每行、列代表一个方向

列与列、行与行之间相互正交

如果我们将 Σ \Sigma 中的奇异值降序排列,并且 U ( V ) U(V) u i ( v i T ) u_i(v_i^T) 也相应调整

  • u 1 u_1 :最大能量的方向
  • u 2 u_2 :和 u 1 u_1 正交的能量最大的方向
  • u 3 u_3 :和 u 1 u_1 u 2 u_2 正交的能量最大的方向

方法

常用的数据降维方法如下

线性方法

  • PCA主成分分析
  • LDA线性判别分析
  • MDS多维缩放

非线性方法

局部嵌入

  • 局部线性嵌入LLE

全局嵌入

  • 等距离特征映射ISOMAP
  • 核方法KPCA
  • 拉普拉斯特征映射LE
  • 自编码器
  • TSNE

猜你喜欢

转载自blog.csdn.net/JN_rainbow/article/details/84570603