文章目录
7.1 引言
- 数据分析时,涉及(间隔)变量多,带复杂
- 这些变量间常存在一定、有时甚至相当高的相关
- 使观测数据中的信息一定程度重叠
- 正是变量间信息重叠,使变量降维可能
- pca由Pearson,01,后霍特林33
- 降维把多个变量 少数几个主成分(综合变量)
- 主成分能反映原始变量大部分信息
- 常为原始变量某种线性组合
- 为有效降维,应使这些主成分所含的信息(线性意义)不重叠
- 即互不相关
- pca用较少的不相关(综合)变量代替大量相关变量的统计降维法
- 主成分的应用分两
- 用前少数几个主成分替代众原始变量以作分析,
- 主成分本身就成了分析的目标。
- 它们要能够派用处,其大致的含义必须明白
- 也就是需要给出这前几个主成分一个符合实际背景和意义的解释
- 更多的另一些中,主成分只是要达到目标的中间结果(或步骤),而非目标本身
- 将主成分用于聚类(主成分聚类)、回归(主成分回归)、评估正态性和寻找异常值,
- 通过方差接近于零的主成分
- 发现原始变量间的多重共线性关系
- 此时主成分不必给出解释
- 考虑(间隔)变量个数
- n样品,都测两变量
- 分布在椭圆
- 坐标系 中,点坐标 和 呈现线性相关
- 坐标系逆时针 变成新, 是椭圆长轴, 短轴
- 点在新系下坐标 和 不相关
- 上方差最大,此方向上 样品间差异的信息最多
- 若欲将二维空间的点投影到某个方向
- 则选 轴能使信息损失降到最小
- 称 为第一主成分。
- 而与 正交的 上,有较小方差,称 为第二主成分。
- 图中,第一主成分效果与椭圆形状有关
- 越扁( 和 越相关),n个点在 上方差越大(同时 上方差就越小),用第一主成分代替二维空间所造成的信息损失也越小
- 变圆,第一主成分只含二维空间点一半信息
- 仅用这一个主成分,则损失50%信息
- 原因是,原始变量 和 的相关程度几乎零
- 和 所含信息几乎不重叠,无法用一维的综合变量来代替
- 扁到成轴上一条线
- 第一主成分含二维空间点100%信息
- 仅用这一个主成分代替原始二维变量不会有信息损失
7.2 总体的主成分
一、主成分的定义及导出
- 为 维随机向量
- 假定二阶矩存在
-
- 如下线性变换
- 在本章有特定的含义。
- 先用一个变量来代表原始
个
- 为使
在一切线性组合中最具代表性,
- 应使其方差最大化,以最大保留这组变量的方差和协方差结构的信息
- ,如不对 限制,方差最大就没意义
- 为使
在一切线性组合中最具代表性,
- 限制 为单位向量,希望在此约束条件下寻求向量
- 使
最大,
- 就称第一主成分
-
特征值
- 正交特征向量
-
(1.8.3)式知,
-
当 时,达到最大
- 就是第一主成分