7 主成分分析

其他 2020-01-20 17:37:07 阅读次数: 0

文章目录

7.1 引言
7.2 总体的主成分

一、主成分的定义及导出

7.1 引言

数据分析时,涉及(间隔)变量多,带复杂
这些变量间常存在一定、有时甚至相当高的相关
- 使观测数据中的信息一定程度重叠
正是变量间信息重叠,使变量降维可能

pca由Pearson,01,后霍特林33
降维把多个变量 $\to$ 少数几个主成分(综合变量)
主成分能反映原始变量大部分信息
- 常为原始变量某种线性组合
为有效降维,应使这些主成分所含的信息(线性意义)不重叠
- 即互不相关
pca用较少的不相关(综合)变量代替大量相关变量的统计降维法

主成分的应用分两
用前少数几个主成分替代众原始变量以作分析,
- 主成分本身就成了分析的目标。
- 它们要能够派用处,其大致的含义必须明白
- 也就是需要给出这前几个主成分一个符合实际背景和意义的解释
更多的另一些中,主成分只是要达到目标的中间结果(或步骤),而非目标本身
- 将主成分用于聚类(主成分聚类)、回归(主成分回归)、评估正态性和寻找异常值,
- 通过方差接近于零的主成分
  - 发现原始变量间的多重共线性关系
- 此时主成分不必给出解释

考虑(间隔)变量个数 $p=2$
n样品,都测两变量 $(x_1,x_2)$
分布在椭圆
坐标系 $x_1Ox_2$ 中,点坐标 $x_1$ 和 $x_2$ 呈现线性相关
坐标系逆时针 $\theta$ 变成新, $y_1$ 是椭圆长轴, $y_2$ 短轴

在这里插入图片描述

点在新系下坐标 $y_1$ 和 $y_2$ 不相关
$y_1$ 上方差最大,此方向上 $n$ 样品间差异的信息最多
若欲将二维空间的点投影到某个方向
- 则选 $y_1$ 轴能使信息损失降到最小
- 称 $y_1$ 为第一主成分。
而与 $y_1$ 正交的 $y_2$ 上,有较小方差,称 $y_2$ 为第二主成分。
图中,第一主成分效果与椭圆形状有关
- 越扁( $x_1$ 和 $x_2$ 越相关),n个点在 $y_1$ 上方差越大(同时 $y_2$ 上方差就越小),用第一主成分代替二维空间所造成的信息损失也越小
变圆,第一主成分只含二维空间点一半信息
- 仅用这一个主成分,则损失50%信息
- 原因是,原始变量 $x_1$ 和 $x_2$ 的相关程度几乎零
- $x_1$ 和 $x_2$ 所含信息几乎不重叠,无法用一维的综合变量来代替
扁到成轴上一条线
- 第一主成分含二维空间点100%信息
- 仅用这一个主成分代替原始二维变量不会有信息损失

7.2 总体的主成分

一、主成分的定义及导出

$\pmb{x}$ 为 $p$ 维随机向量
假定二阶矩存在
$\pmb{\mu}=E(\pmb{x})$
- $\pmb{\Sigma}=V(\pmb{x})$
如下线性变换

在这里插入图片描述

$y_1,y_2,\cdots,y_p$ 在本章有特定的含义。
先用一个变量来代表原始 $p$ 个
- 为使 $y_1$ 在一切线性组合中最具代表性,
  - 应使其方差最大化,以最大保留这组变量的方差和协方差结构的信息
- $V(ka_1'\pmb{x})=k^2V(a_1'\pmb{x})$ ,如不对 $\pmb{a_1}$ 限制,方差最大就没意义
限制 $a_1$ 为单位向量,希望在此约束条件下寻求向量 $\pmb{a}_1$
使 $V(y_1)=a_1'\Sigma a_1$ 最大,
- 就称第一主成分

$\Sigma$ 特征值
- $\lambda_1\ge\cdots\ge\lambda_r>\lambda_{r+1}=\cdots=\lambda_{p}=0$
- 正交特征向量 $t_1,t_2,\cdots,t_p$
(1.8.3)式知,
当 $a_1=t_1$ 时,达到最大
- $y_1=t_1'x$ 就是第一主成分

fgh431

发布了458 篇原创文章 · 获赞 257 · 访问量 5万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/zhoutianzi12/article/details/104053940

7 主成分分析

机器学习7——降维，主成分分析

主成分分析

吴恩达机器学习课后作业7——K-means聚类与主成分分析

机器学习与高维信息检索 - Note 7 - 核主成分分析（Kernel Principal Component Analysis，K-PCA）

主成分分析（PCA）

pca（主成分分析）

主成分分析推导

R: 主成分分析

主成分分析PCA

python主成分分析

主成分分析(PCA)

[Rscript]主成分分析

主成分分析 PCA

主成分分析教程

PCA主成分分析

主成分分析的理解

主成分分析及应用

主成分分析算法

主成分分析-PCA

PCA 主成分分析

主成分分析（PCA)

主成分分析（转）

主成分分析---PCA

SAS 主成分分析

主成分分析——PCA

主成分分析的步骤

MATLAB 主成分分析

PCA：主成分分析

理解主成分分析

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)