7.2 伪逆和线性方程
Ax=b
矩阵
4 个空间的正交基
1、根据
Avi=σiui ,大于零的奇异值
σi>0 对应的左奇异向量
u1,⋯,ur 是矩阵
A 列空间的正交基;
2、根据
ATui=σivi ,等于零的奇异值
σi=0 对应的左奇异向量
ur+1,⋯,um 是矩阵
A 左零空间的正交基;
3、根据
ATui=σivi ,大于零的奇异值
σi>0 对应的右奇异向量
v1,⋯,vr 是矩阵
A 行空间的正交基;
4、根据
Avi=σiui ,等于零的奇异值
σi=0 对应的右奇异向量
vr+1,⋯,vn 是矩阵
A 零空间的正交基。
伪逆
根据
Avi=σiui ,矩阵
A 把解空间
Rn 中的正交基
vi 变换为列空间
Rm 的向量
σiui ,如果存在矩阵
B 能把列空间
Rm 的向量
σiui 变换为
Rn 空间中的正交基
vi ,则矩阵
B 就是矩阵
A 的逆变换!即
Bσiui=vi 则
Bui=1/σivi=σi′vi ,所以有
B=σ1′v1u1T+⋯+σr′vrurT=VΣ+UT ,注意矩阵
Σ+ 尺寸为
(n,m),并不是对角阵,但其前
(r,r) 子矩阵
Σr+ 是对角阵,对角元素为
1/σi>0 ,矩阵其它元素均为
0 。矩阵
B=VΣ+UT 称为矩阵
A=UΣVT 的伪逆,记为
A+ 或称为加号逆,或Moore-Penrose逆。
通解结构
方程
Ax=b 的特解可表示为
xp=A+b ,零解为
vr+1,⋯,vn ,故通解为
x=xp+xz=A+b+(k1vr+1+⋯+kn−rvn),ki是任意实数
向量
b 进行正交分解得
b=u1u1Tb+⋯+umumTb=b1Uu1+⋯+bmUum=Udiag(b1U,⋯,bmU),其中biU=uiTb为在坐标系U下的坐标分量 ,代入特解公式得
xp=A+b=VΣ+UTUdiag(b1U,⋯,bmU)=VΣ+diag(b1U,⋯,bmU)=b1U/σ1v1+⋯+brU/σrvr
故通解为
x=xp+xz=b1U/σ1v1+⋯+brU/σrvr+(k1vr+1+⋯+kn−rvn),bi=uiTb为坐标分量,ki是任意实数
上述通解结构和矩阵
A 为满秩矩阵时的解结构一致,下面论述。
1、当矩阵
A 是方阵且可逆时即
r=rankA=m=n ,根据
A=UΣVT 知矩阵
Σ 可逆,故对角元素均大于零,则
A−1=(UΣVT)−1=VΣ−1UT ,矩阵
Σ−1 对角元素为
1/σi ,等于矩阵
Σ+ ,故
A−1=A+ 。
2、当矩阵
A 是列满秩矩阵时即
r=rankA=n<m ,左逆
AL−1=(ATA)−1AT=[(UΣVT)TUΣVT]−1(UΣVT)T=(VΣUTUΣVT)−1(VΣUT)=(VΣ2VT)−1(VΣUT)=VΣ−2VTVΣUT=VΣ−2ΣUT=VΣ−1UT ,故
AL−1=A+ ,又
r=n 故不存在零解。
3、当矩阵
A 是行满秩矩阵时即
r=rankA=m<n ,右逆
AR−1=AT(AAT)−1=(UΣVT)T[UΣVT(UΣVT)T]−1=(VΣUT)(UΣVTVΣUT)−1=(VΣUT)(UΣ2UT)−1=VΣUTUΣ−2UT=VΣΣ−2UT=VΣ−1UT ,故
AR−1=A+ ,又
r=m<n 故存在零解。
当矩阵
A 为秩亏矩阵时即
r=rankA<(m,n) ,研究下特解
xp=A+b 具有什么性质?
AA+=(UΣVT)(VΣ+UT)=UΣΣ+UT=UrUrT=u1u1T+⋯+ururTAxp=A(A+b)=(u1u1T+⋯+ururT)b=u1u1Tb+⋯+ururTb
故
Axp 是向量
b 在空间
u1,⋯,ur 的投影,空间
u1,⋯,ur 就是矩阵
A 列空间,所以
Axp 就是向量
b 在矩阵
A 列空间的投影即
Axp=bp,矩阵
P=AA+ 是投影矩阵,解
A+b 是最小二乘解。
又因为向量
b 在列空间进行正交分解得
b=u1u1Tb+⋯+umumTb
所以残差向量为
b−bp=ur+1ur+1Tb+⋯+umumTb ,其范数为
∥b−bp∥=(ur+1Tb)2+⋯+(umTb)2
。
又因为
xp=A+b=(σ1′v1u1T+⋯+σr′vrurT)b=σ1′v1u1Tb+⋯+σr′vrurTb=k1v1+⋯+krvrki=σi′uiTb=uiTb/σi
即特解
xp 位于空间
v1,⋯,vr ,垂直于矩阵
A 的零空间
vr+1,⋯,vn ,所以特解
xp 是最小范数解。
故特解
A+b 是最小范数最小二乘解,具有极好的性质。
因为
A+A=(VΣ+UT)(UΣVT)=VΣΣ+VT=VrVrT=v1v1T+⋯+vrvrTE−A+A=VnVnT−VrVrT=vr+1vr+1T+⋯+vnvnT
AA+=UrUrT=u1u1T+⋯+ururTE−AA+=UmUmT−UrUrT=ur+1ur+1T+⋯+umumT
矩阵
P=A+A 是向矩阵
A 的行空间投影,矩阵
P=AA+ 是向矩阵
A 的列空间投影。
E−A+A 是零空间映射矩阵,
E−AA+ 是列空间残差映射矩阵。
故方程零解也可表示为
xz=(E−A+A)aa是任意向量
方程
Ax=b 通解也可表示为
x=xp+xz=A+b+(E−A+A)aa是任意向量
或
x=xp+xz=A+b+(k1vr+1+⋯+kn−rvn),ki是任意实数
特解的数值稳定性和正则化
xp=A+b=VΣ+UTb=(1/σ1v1u1T+⋯+1/σrvrurT)b
可见当奇异值
σi 趋近
0 时,
1/σi 趋近无穷大,导致特解数值变得无穷大,数值不稳定。
σi 趋近
0 对应的分量
σiuiviT 占矩阵
A 的比例很小,主要由误差造成的,理论上应该等于
0,所以希望
1/σi 趋近
0,这可以采用第五章介绍的阻尼倒数法处理,此时
vi 应该作为一个零解。
第五章解释了正则化解为
x^λ=(ATA+λE)−1ATb ,采用矩阵
A=UΣVT 代入上式,可以看到本质,注意矩阵
A 是列满秩矩阵。
x^λ=(VΣ2VT+λVEVT)−1VΣUTb=(V(Σ2+λE)VT)−1VΣUTb=V(Σ2+λE)−1VTVΣUTb=V(Σ2+λE)−1ΣUTb=(σ12+λσ1v1u1T+⋯+σn2+λσnvnunT)b
与无正则化解
x^0=1/σ1v1u1T+⋯+1/σnvnunT 对比,发现正则化就是
σi1 变换为
σi2+λσi ,就是阻尼倒数法!且对所有的奇异值采用相同的参数
λ 。
但必须指出,奇异值
σr 趋近
0 时不一定会导致解的数值不稳定,
根据通解为
x=xp+xz=b1U/σ1v1+⋯+brU/σrvr+(k1vr+1+⋯+kn−rvn),biU=uiTb为在坐标系U下的坐标分量,ki是任意实数
如果此时有
brU=0 ,则解还是稳定的。即向量
b 在很小奇异值
σu 对应的奇异向量
ui 的坐标分量也很小时,此时
biU/σi 是个有限值,则解稳定。
伪逆性质
先把前面重要性质罗列如下:
矩阵奇异值分解
A=UΣVT=σ1u1v1T+⋯+σrurvrT,r=rankA,U,V是正交矩阵,Σ是伪对角阵,σ1≥σ2≥⋯≥σr>0 。
A+=VΣ+UT=1/σ1v1u1T+⋯+1/σrvrurTAT=VΣUT=σ1v1u1T+⋯+σrvrurTA+A=VrVrT=v1v1T+⋯+vrvrTAA+=UrUrT=u1u1T+⋯+ururTATA=VΣ2VT=σ12v1v1T+⋯+σr2vrvrTAAT=UΣ2UT=σ12u1u1T+⋯+σr2ururT
当
r=m=n 即矩阵
A 可逆时,
A+=A− 。
当
r=n<m 即矩阵
A 列满秩时,
A+=(ATA)−1AT 。
当
r=m<n 即矩阵
A 行满秩时,
A+=AT(AAT)−1 。
矩阵
D=diag(d1,⋯,dn) 是对角阵时,则
D+=diag(d1+,⋯,dn+) 其中
di+=1/difordi=0else0
伪逆还具有如下性质:
AA+A=AA+AA+=A+(A+A)T=A+A(AA+)T=AA+
通过这四个性质可以定义伪逆,或者说伪逆
A+ 由这四个性质唯一定义,这四个性质称为 Moore-Penrose方程。
(A+)+=A(AT)+=(A+)T=A+T(ATA)+=A+(AT)+rankA=rankA+=rankA+A=rankAA+A+=(ATA)+AT=AT(AAT)+
这些性质通过简单的计算即可验证,可见伪逆
A+ 和逆矩阵
A−1 性质很近似,但特别注意不成立
(AB)+=B+A+ 。
**对任意矩阵,伪逆存在且唯一。**这个性质十分好,这保证任意线性方程都存在最小范数最小二乘解。对比下,只有矩阵的列向量组是基时,逆才存在且唯一;只有矩阵的列向量组是无关组时,左逆才存在但不唯一;只有矩阵的行向量组是无关组时,右逆才存在但不唯一。伪逆存在性由对称矩阵谱分解定理保证,唯一性由Moore-Penrose方程保证,具体证明方法从略。
根据
AA+A=A 得
AA+ai=ai ,又因为
AA+=UrUrT 得
UrUrTai=ai 即矩阵
A 列向量都位于子空间
Ur 。