PCA原理
主成分分析(PCA)是将研究对象的多个相关变量化为少数几个不相关的变量的一种多元统计方法。为了尽可能完整的收集过程的运行信息或产品质量信息,要检测许多个过程变量或质量参数,当然这可以避免重要信息的遗漏,然而从统计的角度看,这些变量可能存在很强的相关性,使得分析问题增加了复杂性。因而,自然想到用少数几个不相关的综合变量来代替原来较多的相关变量方法的研究;而且要求这些不相关的综合变量能够反映原变量提供的大部分信息,这就是降维的思想。
我们以二维的情况来说明,如上图所示。从图上看
和
的变化范围都相差不大,但如果我们将坐标轴进行旋转,不难看出样本点的差异主要体现在
轴上,若 所体现的差异占了大部分,譬如85%以上,那么我们可将
忽略,只考虑
,这样两个变量就缩减了一个,问题也就相对的简化了。如下示要求第一主成分
拥有最多的原变异信息。V是X的协方差阵,
是V的特征向量,
对应的V的特征值最大 。
协方差
我们知道方差表示变量的离散程度的指标,方差只能表示单变量在自轴方向上的传播。如果一个数据点的x值增加,则y值也将增加,这产生了正相关。这种相关性可以通过协方差捕捉到,当X中的变量均是标准化变量时,V就是X 的相关系数阵。
详细内容可以参考 这里写链接内容
说明:PCA以方差最大化来衡量保留最多的信息,我们知道方差是衡量数据离散度的指标,信息熵才是衡量信息量的指标,PCA中采用方差来衡量信息量的合理性可以参考这里写链接内容
SVD
特征值分解局限于方阵,现实世界里,为了实现类似特征值分解的计算,我们使用奇异值分解。奇异值分解适用于任何矩阵,如下所示,其中A是一个m*n的矩阵:
是一个m*m的正交矩阵,其向量被称为左奇异向量
也是一个n*n的正交矩阵,其向量被成为右奇异向量
是一个m*n的矩阵,其对角线上的元素为奇异值,其余元素皆为0
当选取top k个奇异值时,可以将矩阵降维成为:
奇异值可以通过特征值来得出:
求出
的特征值和特征向量, (
)
=
计算奇异值
右奇异向量等于
左奇异向量等于
写博客的目的是学习的总结和知识的共享,如有侵权,请与我联系,我将尽快处理