第八章——降维（Dimensionality Reduction） - 代码天地

第八章——降维（Dimensionality Reduction）

其他 2018-04-30 19:51:17 阅读次数: 9

机器学习问题可能包含成百上千的特征。特征数量过多，不仅使得训练很耗时，而且难以找到解决方案。这一问题被称为维数灾难（curse of dimensionality）。为简化问题，加速训练，就需要降维了。

降维会丢失一些信息（比如将图片压缩成jpeg格式会降低质量），所以尽管会提速，但可能使模型稍微变差。因此首先要使用原始数据进行训练。如果速度实在太慢，再考虑降维。

8.1 维数灾难（The Curse of Dimensionality）

我们生活在三维空间，连四维空间都无法直观理解，更别说更高维空间了（wiki有关四维空间的介绍，以及油管上的一个视频，将四维空间展开为三维空间）。高维空间和低维空间相比，还是用很大区别的。比如一个单位正方形，只有大概0.4%的部分是距离边界0.001以内的（这部分边缘的面积大概是$0.001 \times 1 \times 4 = 0.004$，占总体面积的0.4%）。但是在一个一万维的单位超立方体中，这一概率却变成了99.999999%，绝大多数点都在距离某一维度很近的地方。一个有趣的事实是，人类有许多不同的属性，你认识的所有人都可能是某一特征的极端分子（比如咖啡里的放糖量）。

还有一个更麻烦的区别：如果在单位正方形中任意选取两点，其距离平均大概是0.52。在单位立方体中这一距离是0.66。而在1000000维单位超立方体中，这一距离就增大到了408.25（大概$\sqrt{1000000/6}$）。这说明高维数据集很可能是相当稀疏的，样本实例间距离很大，预测是新的样本距离训练集样本的距离也很大，预测可信度远低于地位数据集。简单来说，高维数据集很容易过拟合。

理论上，维数灾难的一个解决方案是增加样本数量，从而使训练集达到足够的密度。可是这在实践中并不可行，因为计算复杂度是指数级的。

猜你喜欢

转载自www.cnblogs.com/royhoo/p/dimensionality-reduction.html

第八章——降维（Dimensionality Reduction）

Dimensionality Reduction(降维)

数据降维(Dimensionality reduction)

Dimensionality Reduction

机器学习笔记——降维（dimensionality reduction）

Andrew Ng 机器学习笔记 13 ：降维(dimensionality reduction)

聚类之降维(Dimensionality Reduction)算法详解

数据降维（Dimension Reduction）

维数约减--Dimensionality Reduction

dimension reduction （降维）方法总结

【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 14—Dimensionality Reduction 降维

机器学习课程-第8周-降维(Dimensionality Reduction)—主成分分析(PCA)

吴恩达机器学习课程笔记+代码实现(21)14.降维(Dimensionality Reduction)

单细胞数据高级分析之初步降维和聚类 | Dimensionality reduction | Clustering

论文笔记：Nonlinear Dimensionality Reduction by Locally Linear Embedding

Orthogonal Neighborhood Preserving Projections: A projection-based dimensionality reduction technique

[CS131] Lecture 12 Face Recognition & Dimensionality Reduction

Review of Feature Selection, Dimensionality Reduction and Classification for Chronic Disease Diagnos

吴恩达机器学习之降维(Dimensionality Reduction)（二）：动机二——数据可视化（详细笔记，建议收藏，已有专栏）

吴恩达机器学习之降维(Dimensionality Reduction)（一）：动机一——数据压缩（详细笔记，建议收藏，已有专栏）

Directions Reduction

Reduction: the word AT

leetcode reduction

Reduction operations

Dimension reduction

机器学习Machine Learning：特征选择Feature Selection 与数据降维Dimension Reduction的区别？

Unsupervised Learning: Linear Dimension Reduction---无监督学习：线性降维

13、Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

第八章

机器学习实战——基于Scikit-Learn和TensorFlow 阅读笔记之第八章：降维

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)