数据降维(一)基础篇

其他 2018-12-27 01:01:48 阅读次数: 0

文章目录

降维简介

降维方法

维度选择
维度抽取

基础知识

特征分解
奇异值分解
特征值或奇异值的物理意义
奇异值向量的含义

方法

线性方法
非线性方法

局部嵌入
全局嵌入

降维简介

降维或嵌入式指将原始的高维数据映射到低维空间.

实质的想法：高度冗余的数据通常是可以被压缩的，即高维复杂的数据其内在的维度可能比较小，或与任务相关的维度比较小.

降维方法

维度选择
选择已有维度的一个子集
维度抽取
通过组合已有的维度构建新的维度
映射：原始空间 $f:R^d \rightarrow R^{d'}$ ，为了实际价值，我们要求 $d'\ll d$ .

维度选择

Pros
简单，流行，具有较好的泛华性能（不止近似距离）.
Cons
没有精度保证，差的例子上错误很大(重尾分布)，稀疏数据上大多数是0.
手工移除特征
- 冗余的(multicollinearity/VIFs)
- 不相关(文本挖掘中的停用词)
- 质量差的特征(值得缺失比例超过50%)
监督方法

为每个特征打分：
- 训练或交叉验证单特征分类器
- 估计每个特征与分类label得互信息
- 用 $\chi^2$ 统计量度量每个特征和类别之间的独立性
搜索有用的特征子集
- 前向
  - 从零个特征开始
  - 一遍式或迭代式地选择
- 后向
  - 从所有特征开始
  - 一遍式或迭代式地选择

维度抽取

基础知识

矩阵和矩阵的乘法本质上式在做线性变换.

一个 $m\times n$ 实值矩阵 $A$ 对应一个线性变换 $R^n\rightarrow R^m$ ，映射向量 $x\in R^n$ 到结果向量 $Ax \in R^m$ .

特征分解

矩阵分解是将一个矩阵分解为几个矩阵的乘法.

高维矩阵的低秩近似.

输入：方阵 $A_{m\times m}$
特征向量和特征值
$Av=\lambda v$
$v$ 是矩阵的特征向量， $\lambda$ 是对应的特征值, $v^Tv=I$
$A = V\Sigma V^{-1}$
$V$ 是矩阵的特征向量， $Sigma$ 是由特征值组成的对角阵

奇异值分解

输入：矩阵 $A_{m\times n}$

SVD
$A = \sum_{i=1}^r\sigma_iu_iv_i^T = U\Sigma V^T$
$\Sigma = \Bigg[ \begin{matrix} \theta&0&0\\ 0 & \ddots &0\\ 0 & 0 & \theta_r \end{matrix} \Bigg]$
$\Sigma$ 中的各项 $\theta$ 为奇异值

$u_i$ 、 $v_i^T$ ：奇异值 $\theta_i$ 对应的向量

$U^TU=I, V^TV = I$ ： $U$ 和 $V$ 是正交矩阵

特征值或奇异值的物理意义

统计角度：方差
物理角度：能量

奇异值向量的含义

$U(V)$ 的每行、列代表一个方向

列与列、行与行之间相互正交

如果我们将 $\Sigma$ 中的奇异值降序排列，并且 $U(V)$ 中 $u_i(v_i^T)$ 也相应调整

$u_1$ ：最大能量的方向
$u_2$ ：和 $u_1$ 正交的能量最大的方向
$u_3$ ：和 $u_1$ 、 $u_2$ 正交的能量最大的方向

方法

常用的数据降维方法如下

线性方法

PCA主成分分析
LDA线性判别分析
MDS多维缩放

非线性方法

局部嵌入

局部线性嵌入LLE

全局嵌入

等距离特征映射ISOMAP
核方法KPCA
拉普拉斯特征映射LE
自编码器
TSNE

猜你喜欢

转载自blog.csdn.net/JN_rainbow/article/details/84570603

数据降维(一)基础篇

降维基础

数据降维

数据降维PCA

数据的降维

数据降维方法

sklearn数据的降维

数学基础-数据预处理-降维-PCA & SVD

机器学习基础——降维

特征工程——数据降维

数据降维（Dimension Reduction）

机器学习——数据降维

数据降维(Dimensionality reduction)

数据降维(四)ISOMAP

04_数据降维

数据降维，特征选择

【机器学习】数据降维

机器学习--数据降维

【特征工程】数据降维

Excel中二维数据表快速降维变为一维表的方法

使用Python进行数据降维｜线性降维

降维（一）维度灾难与降维主要方法

机器学习——综合篇（降维，……）

python从入门到放弃篇23（numpy函数，sklearn函数)实现数据降维

【数据降维-第1篇】主成分分析（PCA）快速理解，及MATLAB实现

【数据降维-第2篇】核主成分分析（KPCA）快速理解，及MATLAB实现

【数据降维-第4篇】多维尺度变换（MDS）快速理解，及MATLAB实现

主成分降维python代码实现（承接上一篇）

机器学习基础（二）：降维

数据预处理--数据降维

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)