7 主成分分析

7.1 引言

  • 数据分析时,涉及(间隔)变量多,带复杂
  • 这些变量间常存在一定、有时甚至相当高的相关
    • 使观测数据中的信息一定程度重叠
  • 正是变量间信息重叠,使变量降维可能

  • pca由Pearson,01,后霍特林33
  • 降维把多个变量 \to 少数几个主成分(综合变量)
  • 主成分能反映原始变量大部分信息
    • 常为原始变量某种线性组合
  • 为有效降维,应使这些主成分所含的信息(线性意义)不重叠
    • 即互不相关
  • pca用较少的不相关(综合)变量代替大量相关变量的统计降维法

  • 主成分的应用分两
  • 用前少数几个主成分替代众原始变量以作分析,
    • 主成分本身就成了分析的目标。
    • 它们要能够派用处,其大致的含义必须明白
    • 也就是需要给出这前几个主成分一个符合实际背景和意义的解释
  • 更多的另一些中,主成分只是要达到目标的中间结果(或步骤),而非目标本身
    • 将主成分用于聚类(主成分聚类)、回归(主成分回归)、评估正态性和寻找异常值,
    • 通过方差接近于零的主成分
      • 发现原始变量间的多重共线性关系
    • 此时主成分不必给出解释

  • 考虑(间隔)变量个数 p = 2 p=2
  • n样品,都测两变量 ( x 1 , x 2 ) (x_1,x_2)
  • 分布在椭圆
  • 坐标系 x 1 O x 2 x_1Ox_2 中,点坐标 x 1 x_1 x 2 x_2 呈现线性相关
  • 坐标系逆时针 θ \theta 变成新, y 1 y_1 是椭圆长轴, y 2 y_2 短轴

在这里插入图片描述

  • 点在新系下坐标 y 1 y_1 y 2 y_2 不相关
  • y 1 y_1 上方差最大,此方向上 n n 样品间差异的信息最多
  • 若欲将二维空间的点投影到某个方向
    • 则选 y 1 y_1 轴能使信息损失降到最小
    • y 1 y_1 为第一主成分。
  • 而与 y 1 y_1 正交的 y 2 y_2 上,有较小方差,称 y 2 y_2 为第二主成分。
  • 图中,第一主成分效果与椭圆形状有关
    • 越扁( x 1 x_1 x 2 x_2 越相关),n个点在 y 1 y_1 上方差越大(同时 y 2 y_2 上方差就越小),用第一主成分代替二维空间所造成的信息损失也越小
  • 变圆,第一主成分只含二维空间点一半信息
    • 仅用这一个主成分,则损失50%信息
    • 原因是,原始变量 x 1 x_1 x 2 x_2 的相关程度几乎零
    • x 1 x_1 x 2 x_2 所含信息几乎不重叠,无法用一维的综合变量来代替
  • 扁到成轴上一条线
    • 第一主成分含二维空间点100%信息
    • 仅用这一个主成分代替原始二维变量不会有信息损失

7.2 总体的主成分

一、主成分的定义及导出

  • x \pmb{x} p p 维随机向量
  • 假定二阶矩存在
  • μ = E ( x ) \pmb{\mu}=E(\pmb{x})
    • Σ = V ( x ) \pmb{\Sigma}=V(\pmb{x})
  • 如下线性变换

在这里插入图片描述

  • y 1 , y 2 , , y p y_1,y_2,\cdots,y_p 在本章有特定的含义。
  • 先用一个变量来代表原始 p p
    • 为使 y 1 y_1 在一切线性组合中最具代表性,
      • 应使其方差最大化,以最大保留这组变量的方差和协方差结构的信息
    • V ( k a 1 x ) = k 2 V ( a 1 x ) V(ka_1'\pmb{x})=k^2V(a_1'\pmb{x}) ,如不对 a 1 \pmb{a_1} 限制,方差最大就没意义
  • 限制 a 1 a_1 为单位向量,希望在此约束条件下寻求向量 a 1 \pmb{a}_1
  • 使 V ( y 1 ) = a 1 Σ a 1 V(y_1)=a_1'\Sigma a_1 最大,
    • 就称第一主成分

  • Σ \Sigma 特征值

    • λ 1 λ r > λ r + 1 = = λ p = 0 \lambda_1\ge\cdots\ge\lambda_r>\lambda_{r+1}=\cdots=\lambda_{p}=0
    • 正交特征向量 t 1 , t 2 , , t p t_1,t_2,\cdots,t_p
  • (1.8.3)式知,

  • a 1 = t 1 a_1=t_1 时,达到最大

    • y 1 = t 1 x y_1=t_1'x 就是第一主成分
发布了458 篇原创文章 · 获赞 257 · 访问量 5万+

猜你喜欢

转载自blog.csdn.net/zhoutianzi12/article/details/104053940