清华大学公开课线性代数2——第6讲:伪逆

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/you1314520me/article/details/78857759

此博客停止更新,迁移至SnailDove’s blog,查看本文请点击此处,清华大学线性代数2笔记汇总:线性代数总结

笔记源自:清华大学公开课:线性代数2——第6讲:伪逆

**提示:**如果文中图片看不清文字,请右键单击鼠标,选择在新窗口打开图片,然后放大图片(这边上传之前都是可以看清的,由于网页正文部分大小固定,因此图片被自动缩小以便适配网页),截图部分是课堂ppt老师随手的板书。

引言

本文基础:SVD分解原理

introductory_content_of_pseudo-inverse
矩阵的奇异值分解可以理解成从 R n R^n R m R^m 的线性变换在不同基底下矩阵表示,接下来利用矩阵的奇异值分解
来定义矩阵的伪逆,然后再利用矩阵的伪逆来讨论线性方程组Ax=b无解时的最小二乘解,线性代数的中心问题是
求解线性方程组 A x = b Ax=b ,最简单的情况是如果系数矩阵A是n阶的可逆矩阵,那么这时对于任意的n维向量 b b ,线性方程组 A x = b Ax=b 有唯一的解,这个解是 A 1 b A^{-1} b ,那这就启发去对于不可逆的矩阵或者是对于 A m × n A_{m\times n} 的矩阵,我们来定义它的一个逆矩阵,那么这时候逆矩阵我们叫做伪逆或者是叫广义逆

##定义

伪逆的定义来自于奇异值分解:
definition_of_pseudo_inverse
(1)若 A A 可逆,即 r = m = n r=m=n ,则: A 1 = ( U Σ V T ) 1 = V Σ 1 U T = A + A^{-1}=(U\Sigma V^T)^{-1}=V\Sigma^{-1}U^T=A^+ ,注意:由奇异值分解公式 A V = U Σ ,   ( v 1   . . .   v r ) C ( A T ) ,   ( v r + 1   . . .   v n ) N ( A ) ,   ( u 1   . . .   u r ) C ( A ) ,   ( u r + 1   . . .   u m ) N ( A T ) AV=U\Sigma,\ (v_1\,...\,v_r)\in C(A^T),\ (v_{r+1}\,...\,v_n)\in N(A),\ (u_1\,...\,u_r)\in C(A),\ (u_{r+1}\,...\,u_m)\in N(A^T) 得: A V = U Σ : C ( A T ) C ( A ) AV=U\Sigma: C(A^T)\rightarrow C(A) ,同理可得: A + U T = V Σ + : C ( A ) C ( A T ) A^+U^T=V\Sigma^{+}:C(A)\rightarrow C(A^T)

(2) A A + = ( U Σ m × n V T ) ( V Σ n × m + U T ) = U Σ m × n Σ n × m + U T = U ( I r 0 0 0 ) m × m U T AA^+=(U\Sigma_{m\times n} V^T)(V\Sigma^+_{n\times m}U^T)=U\Sigma_{m\times n}\Sigma^+_{n\times m}U^T=U\begin{pmatrix}I_r&0\\0&0\end{pmatrix}_{m\times m}U^T 得出以下3个性质:

  • 对称性: ( A A + ) T = A A + (AA^+)^T=AA^+
  • A A + = u 1 u 1 T +   . . .   + u r u r T , U = ( u 1 ,   . . .   u r ,   u r + 1   . . .   , u n ) AA^+=u_1u_1^T+\,...\,+u_ru_r^T, U=(u_1,\,...\,u_r,\,u_{r+1}\,...\,,u_n)
  • A A + = R m AA^+=R^m C ( A ) C(A) 的正交投影矩阵, A A + C ( A ) = i d , A A + N ( A T ) = 0 AA^+|_{C(A)}=id, AA^+|_{N(A^T)}=0
    • 证明1: A A + x = ( u 1 u 1 T +   . . .   + u r u r T ) x = ( u 1 T x ) u 1 +   . . .   + ( u r T x ) u r AA^+x=(u_1u_1^T+\,...\,+u_ru_r^T)x=(u_1^Tx)u_1+\,...\,+(u_r^Tx)u_r ,由奇异值svd分解得到 V = ( v 1 ,   . . .   , v r ) V=(v_1,\,...\,,v_r) A T A^T 列空间(即 C ( A T ) C(A^T) )的单位正交特征向量基,而 U = ( u 1 ,   . . .   , u r ) U=(u_1,\,...\,,u_r) C ( A ) C(A) 的单位正交特征向量基,所以 A A + AA^+ 是投影到 C ( A ) C(A) 的正交投影矩阵(即保留了 C ( A ) C(A) 的部分),因此 A A + AA^+ 限制在 C ( A ) C(A) 的变换即变成了恒等变换。而 U U ( u r + 1   . . .   u m ) (u_{r+1}\,...\,u_m) U T U^T ( u r + 1   . . .   u m ) T (u_{r+1}\,...\,u_m)^T 即属于 N ( A T ) N(A^T) 的基乘以矩阵 ( I r 0 0 0 ) m × m \begin{pmatrix}I_r&0\\0&0\end{pmatrix}_{m\times m} 中右下角的 0 0 相当于对属于 N ( A T ) N(A^T) 的部分做了零变换。
    • 证明2: A + u j = 1 σ j v j A A + u j = A ( 1 σ j v j ) = 1 σ j A v j A^+u_j={1\over \sigma_j}v_j\Rightarrow AA^+u_j=A({1\over\sigma_j}v_j)={1\over \sigma_j}Av_j 再根据奇异值分解中 A v j = σ u j , ( 1 j r ) Av_j=\sigma u_j, (1\le j \le r) A A + u j = u j ( 1 j r ) ,   A A + u j = 0 ( r + 1 j m ) AA^+u_j=u_j(1\le j\le r),\ AA^+u_j=0(r+1\le j \le m)
    • 验证: ( A A + ) ( A A + ) = U ( I r 0 0 0 ) m × m U T U ( I r 0 0 0 ) m × m U T (AA^+)(AA^+)=U\begin{pmatrix}I_r&0\\0&0\end{pmatrix}_{m\times m}U^TU\begin{pmatrix}I_r&0\\0&0\end{pmatrix}_{m\times m}U^T ,由于从svd分解知道 U U 是单位正交特征向量基 ,因此: U T = U 1 ( A A + ) ( A A + ) = U ( I r 0 0 0 ) m × m U T = A A + U^T=U^{-1}\Rightarrow (AA^+)(AA^+)=U\begin{pmatrix}I_r&0\\0&0\end{pmatrix}_{m\times m}U^T=AA^+ ,这正是投影的性质:多次投影结果还是第一次投影结果。
    • 结果:   p R m , b = p + e , p C ( A ) , e N ( A T ) , A A + b = p \forall\ p\in R^m, b=p+e, p\in C(A), e\in N(A^T), AA^+b=p

(3) A + A = ( V Σ n × m + U T ) ( U Σ m × n V T ) = V ( I r 0 0 0 ) n × n V T A^+A=(V\Sigma^+_{n\times m}U^T)(U\Sigma_{m\times n} V^T)=V\begin{pmatrix}I_r&0\\0&0\end{pmatrix}_{n\times n}V^T 得到以下三个性质(证明同上):

  • ( A + A ) T = A + A (A^+A)^T=A^+A
  • A + A = v 1 v 1 T +   . . .   + v r v r T A^+A=v_1v_1^T+\,...\,+v_rv_r^T
  • A + A = R n A^+A=R^n C ( A T ) C(A^T) 的正交投影矩阵( A + A C ( A T ) = i d , A + A N ( A ) = 0 A^+A|_{C(A^T)}=id,\quad A^+A|_{N(A)}=0 ):
    •   x R n = C ( A T ) N ( A ) ) ,   x = x 1 , r + x r + 1 , n ,   x 1 , r C ( A T ) ,   x r + 1 , n N ( A T ) , A + A x = A + A ( x 1 ,   . . .   x r , x r + 1 ,   . . .   x n ) = x 1 , r \forall\ x\in R^n=C(A^T)\bigoplus N(A)),\ x=x_{1,r}+x_{r+1,n}, \ x_{1,r}\in C(A^T),\ x_{r+1,n}\in N(A^T),\\ A^+Ax=A^+A(x_1,\,...\,x_r,x_{r+1},\,...\,x_n)=x_{1,r}

为什么称为伪逆、左逆、右逆

why_call_it_as_pseudo-inverse
##例子
example_of_pseudo-inverse
注: u 1 , u 2 , u 3 u_1, u_2,u_3 R m R^m 的一组基底那么它是 A v 1 σ 1 {Av_1\over \sigma_1} ,那么很容易计算出来,是 1 2 ( 1 1 0 ) {1\over\sqrt{2}}\begin{pmatrix}1\\1\\0\end{pmatrix} u 2 u_2 u 3 u_3 分别是0所对应的特征向量, u 2 u_2 u 3 u_3 可以看成是三维空间里头, u 1 u_1 的正交补所给出来的单位正交的向量

特例

a_special_case_of_pseudo_inverse

Jordan标准形的伪逆

pseudo-inverse_of_normal_Jordan_form
推导结论: J n + = J n T J_n^+=J_n^T ,Jordan标准形的伪逆是它自己的转置。
##Moore-Penrose伪逆
###E.H.Moore伪逆
pseudo-inverse_of_E.H.Moore

Penrose伪逆

pseudo-inverse_of_Penrose
注:

  1. A可以是mxn的复数矩阵,这样的话(3)(4)里面就变成共轭转置。
  2. Penrose伪逆与E.H.Moore伪逆定义是等价的。

( 1 ) A X A = A A X A X = A X ( A X ) N = A X A X (1)AXA =A \Rightarrow AXAX=AX\Rightarrow (AX)^N=AX\Rightarrow AX 是幂等矩阵,投影矩阵
( 2 ) X A X = X X A X A = X A ( X A ) N = X A X A (2)XAX=X\Rightarrow XAXA=XA\Rightarrow (XA)^N=XA\Rightarrow XA 是幂等矩阵,投影矩阵
( 3 ) ( A X ) T = A X A X (3)(AX)^T=AX\Rightarrow AX 是对称矩阵
( 4 ) ( X A ) T = X A X A (4)(XA)^T=XA\Rightarrow XA 是对称矩阵

通过奇异值分解得到的伪逆矩阵 A + A^+ A A + : R m C ( A ) AA^+: R^m \rightarrow C(A) A + A : R n C ( A T ) = C ( A + ) A^+A:R^n\rightarrow C(A^T)=C(A^+) ,前文已经证明两者都是对称的,所以符合Penrose对伪逆矩阵的定义。对于伪逆唯一性的证明上文图片太小可以放大来看。

伪逆的应用之最小二乘法

引言

introductory_content_of_least_squares_approximations_by_pseudo-inverse
**但是我们需要求 e e 即误差最小的解!**但是这时候 A m × n A_{m\times n} 不是列满秩不存在逆矩阵,于是自然地想到利用伪逆求解。
###伪逆求解正规方程——最佳最小二乘解
the_best_solution_of_least_squares_approximations_by_pseudo-inverse
注:由于 A + A^+ 来自于: A + U T = V Σ + ,   ( v 1   . . .   v r ) C ( A T ) ,   ( v r + 1   . . .   v n ) N ( A ) ,   ( u 1   . . .   u r ) C ( A ) ,   ( u r + 1   . . .   u m ) N ( A T ) , Σ + = ( 1 σ 1 1 σ 2 . . 1 σ r 0 ) n × m A + : C ( A ) C ( A T ) A^+U^T=V\Sigma^{+},\ (v_1\,...\,v_r)\in C(A^T),\ (v_{r+1}\,...\,v_n)\in N(A),\ (u_1\,...\,u_r)\in C(A),\ (u_{r+1}\,...\,u_m)\in N(A^T),\\\Sigma^+=\begin{pmatrix}{1\over \sigma_1}\\&{1\over \sigma_2}\\&&.\\&&&.\\&&&&{1\over \sigma_r}\\&&&&&0\end{pmatrix}_{n\times m}\Rightarrow A^+: C(A)\rightarrow C(A^T) ,另外由于 A T A x = 0 , A x = 0 A^TAx=0, Ax=0 同解所以零空间相同。

最佳最小二乘解的四个基本子空间

4_subspaces_of_best_solution_of_least_squares_approximations

猜你喜欢

转载自blog.csdn.net/you1314520me/article/details/78857759