机器学习-降维简介

  机器学习: 正如本文所讨论的机器学习不过是一个研究领域,它允许计算机像人类一样“学习”而无需显式编程。 

什么是预测建模: 预测建模是一个概率过程,允许我们根据一些预测变量来预测结果。这些预测变量基本上是在决定最终结果(即模型的结果)时发挥作用的特征。

降维是在保留尽可能多的信息的同时减少数据集中特征(或维度)数量的过程。出于多种原因,可以这样做,例如降低模型的复杂性、提高学习算法的性能或使数据更容易可视化。有几种降维技术,包括主成分分析 (PCA)、奇异值分解 (SVD) 和线性判别分析 (LDA)。每种技术都使用不同的方法将数据投影到低维空间,同时保留重要信息。

什么是降维?

在机器学习分类问题中,最终分类所依据的因素往往太多。这些因素基本上是称为特征的变量。特征的数量越多,就越难可视化训练集然后对其进行处理。有时,这些特征中的大多数是相关的,因此是多余的。这就是降维算法发挥作用的地方。降维是通过获取一组主变量来减少所考虑的随机变量数量的过程。它可以分为特征选择和特征提取。

为什么降维在机器学习和预测建模中很重要?

降维的一个直观例子可以通过一个简单的电子邮件分类问题来讨论,我们需要对电子邮件是否为垃圾邮件进行分类。这可能涉及大量的特征,例如电子邮件是否具有通用标题、电子邮件的内容、电子邮件是否使用模板等。但是,其中一些特征可能会重叠. 在另一种情况下,依赖于湿度和降雨量的分类问题可以分解为仅一个基本特征,因为上述两者高度相关。因此,我们可以减少此类问题中的特征数量。3-D 分类问题可能难以形象化,而 2-D 分类问题可以映射到简单的二维空间,而 1-D 问题可以映射到简单的直线。下图说明了这个概念,

 

降维的组成部分

降维有两个组成部分:

  • 特征选择:在此,我们尝试找到原始变量集或特征的子集,以获得可用于对问题建模的较小子集。通常涉及三种方式:
    1. 筛选
    2. 包装纸
    3. 嵌入式
  • 特征提取:这将高维空间中的数据减少到较低维空间,即具有较小编号的空间。尺寸。

降维方法

用于降维的各种方法包括:

  • 主成分分析 (PCA)
  • 线性判别分析 (LDA)
  • 广义判别分析 (GDA)

降维可以是线性的也可以是非线性的,这取决于所使用的方法。下面讨论称为主成分分析或 PCA 的主要线性方法。

主成分分析

这种方法是由 Karl Pearson 介绍的。它的工作条件是,当高维空间中的数据映射到低维空间中的数据时,低维空间中数据的方差应最大。

它涉及以下步骤:

  • 构造数据的协方差矩阵。
  • 计算该矩阵的特征向量。
  • 对应于最大特征值的特征向量用于重建原始数据的大部分方差。

因此,我们只剩下较少数量的特征向量,并且在此过程中可能会丢失一些数据。但是,最重要的方差应该由剩余的特征向量保留。 

降维的优势

  • 它有助于数据压缩,从而减少存储空间。
  • 它减少了计算时间。
  • 它还有助于删除冗余功能(如果有)。

降维的缺点

  • 它可能会导致一些数据丢失。
  • PCA 倾向于发现变量之间的线性相关性,这有时是不可取的。
  • 在均值和协方差不足以定义数据集的情况下,PCA 会失败。
  • 我们可能不知道要保留多少主成分——在实践中,应用了一些经验法则。

要点:

  • 降维是在保留尽可能多的信息的同时减少数据集中特征数量的过程。
    这样做可以降低模型的复杂性,提高学习算法的性能,或使数据更容易可视化。
  • 降维的技术包括:主成分分析(PCA)、奇异值分解(SVD)和线性判别分析(LDA)。
  • 每种技术都将数据投射到低维空间,同时保留重要信息。
  • 在构建模型之前的预处理阶段执行降维以提高性能
  • 重要的是要注意降维也会丢弃有用的信息,因此在应用这些技术时必须小心。

猜你喜欢

转载自blog.csdn.net/tianqiquan/article/details/129970311