最大方差理论
PCA(主成分分析),旨在找到数据中的主成分,并利用这些主成分表征原始数据从而达到降维的目的。在信号处理领域,我们认为信号具有较大方差,而噪声具有较小方差。因此我们不难引出PCA的目标即最大化投影方差,也就是让数据在主轴上投影的方差最大(在我们假设中方差最大的有用信号最大化减少了噪声的影响)。
对于给定的一组数据点
{v1,...,vn},均为列向量。中心化后可以这样表示
{x1,...,xn}={v1−μ,...,vn−μ},其中
μ=n1∑i=1nvi接下来我要找个一个投影的方向
ω使得
{x1,...,xn}在
ω(单位方向向量)上的投影方差最大。向量
xi在
ω上的投影坐标可以表示为
(xi,ω)=xiTω,所以投影之后的方差可以表示为
D(x)=n1i=1∑n(xiTω)2=n1i=1∑n(xiTω)T(xiTω)=n1i=1∑nωTxixiTω=ωT(n1i=1∑nxixiT)ω
n1∑i=1nxixiT是样本的协方差矩阵,记做
Σ,由于
ω是单位方向向量,所以
ωTω=1,因此我们可以表示成一个最大化问题
max{ωTΣω}
s.t.ωTω=1用拉格朗日乘式可以得到
Σω=λω,代入
D(x)得到
D(x)=ωTΣω=λωTω=λ,所以投影后的方差就是协方差矩阵的特征值。最大方差即为协方差矩阵最大的特征值,最佳投影方向就是最大特征值所对应的特征向量。我们将特征值从大到小排列,取特征值前
d大对应的特征向量
ω1,...,ωd,通过以下映射的方式将n维样本映射到d维
xi′=⎣⎢⎢⎢⎢⎡ω1Txi...ωdTxi⎦⎥⎥⎥⎥⎤
最小平方误差理论
如果是二维空间中的样本点,那么我们就是求解出一条直线使得样本投影到该直线上的方差最大。从回归的角度来看其实就是求解出一个线性函数来拟合样本点集合。在高维空间中,我们需要找到一个d维超平面,使得数据点到这个超平面的距离平方和最小。我们假设该超平面由d个标准正交基
W={w1,...,wd},那么数据点
xk投影到该超平面可以表示成
xk~=∑i=1d(wiTxk)wi。所以我们可以写出PCA优化的目标
w1,...,wdarg mink=1∑n∣∣xk−xk~∣∣22
s.t.wiTwj=δij
我们将平方项展开
∣∣xk−xk~∣∣22=(xk−xk~)T(xk−xk~)=xkTxk−2xkTxk~+xk~Txk~
xkTxk~=xkTi=1∑d(wiTxk)wi=i=1∑dwiTxkxkTwi
xk~Txk~=i=1∑dj=1∑d((wiTxk)wi)T(wjTxk)wj=i=1∑dwiTxkxkTwi所以
∣∣xk−xk~∣∣22=−i=1∑dwiTxkxkTwi+xkTxk=−tr(WTxkxkTW)+xkTxk带入到优化目标中
arg Wmaxk=1∑ntr(WTxkxkTW)=arg Wmaxtr(WTXXTW)
s.t.WTW=I当d=1时,
arg wmaxwTXXTw
s.t.wTw=1