机器学习: 正如本文所讨论的,机器学习不过是一个研究领域,它允许计算机像人类一样“学习”而无需显式编程。
什么是预测建模: 预测建模是一个概率过程,允许我们根据一些预测变量来预测结果。这些预测变量基本上是在决定最终结果(即模型的结果)时发挥作用的特征。
降维是在保留尽可能多的信息的同时减少数据集中特征(或维度)数量的过程。出于多种原因,可以这样做,例如降低模型的复杂性、提高学习算法的性能或使数据更容易可视化。有几种降维技术,包括主成分分析 (PCA)、奇异值分解 (SVD) 和线性判别分析 (LDA)。每种技术都使用不同的方法将数据投影到低维空间,同时保留重要信息。
什么是降维?
在机器学习分类问题中,最终分类所依据的因素往往太多。这些因素基本上是称为特征的变量。特征的数量越多,就越难可视化训练集然后对其进行处理。有时,这些特征中的大多数是相关的,因此是多余的。这就是降维算法发挥作用的地方。降维是通过获取一组主变量来减少所考虑的随机变量数量的过程。它可以分为特征选择和特征提取。
为什么降维在机器学习和预测建模中很重要?
降维的一个直观例子可以通过一个简单的电子邮件分类问题来讨论,我们需要对电子邮件是否为垃圾邮件进行分类。这可能涉及大量的特征,例如电子邮件是否具有通用标题、电子邮件的内容、电子邮件是否使用模板等。但是,其中一些特征可能会重叠. 在另一种情况下,依赖于湿度和降雨量的分类问题可以分解为仅一个基本特征,因为上述两者高度相关。因此,我们可以减少此类问题中的特征数量。3-D 分类问题可能难以形象化,而 2-D 分类问题可以映射到简单的二维空间,而 1-D 问题可以映射到简单的直线。下图说明了这个概念,
降维的组成部分
降维有两个组成部分:
- 特征选择:在此,我们尝试找到原始变量集或特征的子集,以获得可用于对问题建模的较小子集。通常涉及三种方式:
- 筛选
- 包装纸
- 嵌入式
- 特征提取:这将高维空间中的数据减少到较低维空间,即具有较小编号的空间。尺寸。
降维方法
用于降维的各种方法包括:
- 主成分分析 (PCA)
- 线性判别分析 (LDA)
- 广义判别分析 (GDA)
降维可以是线性的也可以是非线性的,这取决于所使用的方法。下面讨论称为主成分分析或 PCA 的主要线性方法。
主成分分析
这种方法是由 Karl Pearson 介绍的。它的工作条件是,当高维空间中的数据映射到低维空间中的数据时,低维空间中数据的方差应最大。
它涉及以下步骤:
- 构造数据的协方差矩阵。
- 计算该矩阵的特征向量。
- 对应于最大特征值的特征向量用于重建原始数据的大部分方差。
因此,我们只剩下较少数量的特征向量,并且在此过程中可能会丢失一些数据。但是,最重要的方差应该由剩余的特征向量保留。
降维的优势
- 它有助于数据压缩,从而减少存储空间。
- 它减少了计算时间。
- 它还有助于删除冗余功能(如果有)。
降维的缺点
- 它可能会导致一些数据丢失。
- PCA 倾向于发现变量之间的线性相关性,这有时是不可取的。
- 在均值和协方差不足以定义数据集的情况下,PCA 会失败。
- 我们可能不知道要保留多少主成分——在实践中,应用了一些经验法则。
要点:
- 降维是在保留尽可能多的信息的同时减少数据集中特征数量的过程。
这样做可以降低模型的复杂性,提高学习算法的性能,或使数据更容易可视化。 - 降维的技术包括:主成分分析(PCA)、奇异值分解(SVD)和线性判别分析(LDA)。
- 每种技术都将数据投射到低维空间,同时保留重要信息。
- 在构建模型之前的预处理阶段执行降维以提高性能
- 重要的是要注意降维也会丢弃有用的信息,因此在应用这些技术时必须小心。