矩阵论(二):广义逆矩阵

关于复向量空间、內积、范数,零矩阵的判定条件等请参考:
线性代数基础知识(上)
线性代数基础知识(下)


广义逆矩阵

  • 左逆矩阵与右逆矩阵
  • {1}逆
  • Moore-Penrose广义逆
  • {1,4}逆与极小范数解
  • {1,3}逆与最小二乘解
  • PM逆与极小范数最小二乘解

左逆矩阵与右逆矩阵

我们知道,只有方阵才有逆矩阵,且可逆方阵对方阵是有限制条件的,只有行列式不为零的方阵才可逆。可逆方阵给我们解线性方程组带来了很大的方便:设 A x = y Ax=y (A称为 A x = y Ax=y 的系数矩阵)是关于x的方程,若A是方阵且A可逆,则 x = A 1 y x=A^{-1}y 。然而对于一般的 m × n m\times{n} 系数矩阵A,有没有简洁的办法来求解该线性方程组呢?我们注意到,实际上只需有一个矩阵L,如果我们用L左乘 A x = y Ax=y 的两端,能够“抵消”掉A,得到 x = L y x=Ly ,那么就得到了解。显然这样的L应满足 L A x = x LAx=x ,考虑其中一种最简单的情形: L A = I LA=I ,这就引出了左逆矩阵的概念:

  • 定义:设A是 m × n m\times{n} 矩阵,若存在 n × m n\times{m} 矩阵L,使得 L A = I LA=I ,则称L是A的一个左逆矩阵

先来看一下左逆矩阵存在的条件:

  • 定理:设A是m×n矩阵,若A的左逆矩阵L存在,则 m n m\geqslant{n}
    证明:(反证法)
    假设 m < n m\lt{n} ,则可设 L = [ U m × m V ( n m ) × m ] L=\begin{bmatrix}U_{m\times{m}}\\V_{(n-m)\times{m}}\end{bmatrix} A = [ R m × m S m × ( n m ) ] A=\begin{bmatrix}R_{m\times{m}}&S_{m\times{(n-m)}}\end{bmatrix} ,由 L A = [ U R U S V R V S ] = [ I O O I ] LA=\begin{bmatrix}UR&US\\VR&VS\end{bmatrix}=\begin{bmatrix}I&O\\O&I\end{bmatrix} ,得 U R = I , U S = O UR=I,US=O ,故U可逆,故 S = O S=O ,这与 V S = I VS=I 是矛盾的。故假设不成立,得证。
  • 定理:设A是m×n矩阵,则A的左逆矩阵L存在的充要条件为A是列满秩矩阵
    证明:
    必要性:若 L A = I LA=I ,则 n = r ( I ) = r ( L A ) r ( A ) n=r(I)=r(LA)\leqslant{r(A)} ,故 r ( A ) = n r(A)=n ,即A是列满秩的。
    充分性:若A是列满秩的,则由 r ( A H A ) = r ( A ) = n r(A^HA)=r(A)=n 知, A H A A^HA 是满秩方阵,即 A H A A^HA 可逆。设 L = ( A H A ) 1 A H L=(A^HA)^{-1}A^H ,则 L A = ( A H A ) 1 A H A = I LA=(A^HA)^{-1}A^HA=I ,故A的左逆矩阵存在。

这说明并非所有 m × n m\times{n} 矩阵A都有左逆矩阵。既然有左逆矩阵,自然也有右逆矩阵的概念。

  • 定义:设A是 m × n m\times{n} 矩阵,若存在 n × m n\times{m} 矩阵R,使得 A R = I AR=I ,则称R是A的一个右逆矩阵
  • 定理:设A是m×n矩阵,若A的右逆矩阵R存在,则 m n m\leqslant{n}
  • 定理:设A是m×n矩阵,则A的右逆矩阵R存在的充要条件为A是行满秩矩阵

{1}逆

我们讨论了左逆、右逆的概念及其存在的条件,显然它们不是求解线性方程组的最有力工具,左逆矩阵只能用来求解系数矩阵列满秩的线性方程组。现在我们从一般的线性方程组出发,探究什么样的矩阵可以用来求解任意的线性方程组。
对于一般的线性方程组 A m × n x = y A_{m\times{n}}x=y ,如果它有解,我们不妨作最简单的假定,即假定它的解具有 x = B y x=By 的形式。现在我们来探究一下这样的矩阵B究竟是什么:

  • 定理:命题(1)“ y C m \forall{y}\in{C^m} ,若关于x的线性方程组 A m × n x = y A_{m\times{n}}x=y 有解,则 x = B y x=By 是它的一个解,其中B只与A有关”成立的充要条件为命题(2)“矩阵B满足 A B A = A ABA=A ”成立
    证明:
    必要性: z C m \forall{z}\in{C^m} ,当 y = A z y=Az 时,关于x的线性方程组 A x = y = A z Ax=y=Az 必有解(显然z就是它的一个解)。若命题(1)成立,则命题“ z C m \forall{z}\in{C^m} ,关于x的线性方程组 A x = A z Ax=Az 的一个解是 x = B A z x=BAz ”也成立。
    (注意,这里只是对命题1中的条件“若线性方程组 A m × n x = y A_{m\times{n}}x=y 有解”作了一个转化,当y任取时, A m × n x = y A_{m\times{n}}x=y 是不一定有解的,而当y具有形式 y = A z y=Az 时, A m × n x = y A_{m\times{n}}x=y 就有解了,此时命题(1)后半部分的断言依然成立)
    故“ z C m , A B A z = A z \forall{z}\in{C^m},ABAz=Az ”成立。则 z C m , ( A B A A ) z = 0 \forall{z}\in{C^m},(ABA-A)z=0 ,由零矩阵的判定条件知 A B A A = O ABA-A=O ,故 A B A = A ABA=A
    充分性:若ABA=A,则 y C m \forall{y}\in{C^m} ,若关于x的线性方程组 A m × n x = y A_{m\times{n}}x=y 有解,那么可设 x = x 0 x=x_0 是它的一个解,则有 y = A x 0 y=Ax_0 ,因为 A B y = A B A x 0 = A x 0 = y ABy=ABAx_0=Ax_0=y ,所以 x = B y x=By 也是它的一个解。故命题(1)成立。

上述定理说明,我们期望找到的矩阵B其实就是满足 A B A = A ABA=A 的矩阵B,我们把满足该条件的矩阵B称为A的一个广义逆矩阵,更确切地,B称为A的一个{1}逆(因为还有其他类型的广义逆矩阵):

  • 定义:设A是一个 m × n m\times{n} 矩阵,若存在一个 n × m n\times{m} 矩阵B使得 A B A = A ABA=A ,则称B是A的一个{1}逆,记作 B = A ( 1 ) B=A^{(1)} 。通常,将A的全体{1}逆的集合写作 A { 1 } A\{1\}

任意一个 m × n m\times{n} 矩阵A的{1}逆一定存在吗?下面的定理给出了肯定的回答:

  • 定理:设 A C r m × n A\in{}C^{m\times{n}}_r (即A是一个秩为r的 m × n m\times{n} 复矩阵)。若 r = 0 r=0 ,则 A { 1 } = C n × m A\{1\}=C^{n\times{m}} ;若 r > 0 r\gt{0} ,存在可逆矩阵P、Q使得 P A Q = [ I r O O O ] PAQ=\begin{bmatrix}I_r&O\\O&O\end{bmatrix} ,则
    A { 1 } = { Q [ I r L 12 L 21 L 22 ] P L 12 C r × ( m r ) , L 21 C ( n r ) × r , L 22 C ( n r ) × ( m r ) } A\{1\}=\left\{Q\begin{bmatrix}I_r&L_{12}\\L_{21}&L_{22}\end{bmatrix}P\middle|L_{12}\in{C^{r\times{(m-r)}}},L_{21}\in{C^{(n-r)\times{r}}},L_{22}\in{C^{(n-r)\times{}(m-r)}}\right\}
    证明:只证 r > 0 r\gt{0} 的情况。由于 A = P 1 [ I r O O O ] Q 1 A=P^{-1}\begin{bmatrix}I_r&O\\O&O\end{bmatrix}Q^{-1} ,故任意矩阵 X = Q [ I r L 12 L 21 L 22 ] P X=Q\begin{bmatrix}I_r&L_{12}\\L_{21}&L_{22}\end{bmatrix}P ,易验证 A X A = A AXA=A ,故 X A { 1 } X\in{A\{1\}} 。任意矩阵 A ( 1 ) A { 1 } A^{(1)}\in{A\{1\}} ,设 A ( 1 ) = Q [ L 11 L 12 L 21 L 22 ] P A^{(1)}=Q\begin{bmatrix}L_{11}&L_{12}\\L_{21}&L_{22}\end{bmatrix}P ,由 A A ( 1 ) A = A AA^{(1)}A=A [ I r O O O ] [ L 11 L 12 L 21 L 22 ] [ I r O O O ] = [ I r O O O ] \begin{bmatrix}I_r&O\\O&O\end{bmatrix}\begin{bmatrix}L_{11}&L_{12}\\L_{21}&L_{22}\end{bmatrix}\begin{bmatrix}I_r&O\\O&O\end{bmatrix}=\begin{bmatrix}I_r&O\\O&O\end{bmatrix} ,故 L 11 = I r L_{11}=I_r ,即 A ( 1 ) = Q [ I r L 12 L 21 L 22 ] P A^{(1)}=Q\begin{bmatrix}I_r&L_{12}\\L_{21}&L_{22}\end{bmatrix}P 。得证。

上述定理不仅证明了任意矩阵A都有{1}逆,还给出了{1}逆的求法,即对A进行初等变换,求出变换所用的可逆矩阵P、Q,就可以求出A的任意一个{1}逆。

  • 推论:设 A C r m × n A\in{}C^{m\times{n}}_r ,则A的{1}逆唯一的充要条件为 r = m = n > 0 r=m=n\gt{0}
    【注】此时A的{1}逆就是A的逆矩阵。

回到求解线性方程组的问题上来。我们已经知道任取A的一个{1}逆 A ( 1 ) A^{(1)} , 若 A x = y Ax=y 有解,则 x = A ( 1 ) y x=A^{(1)}y 一定是它的一个解。那什么条件下 A x = y Ax=y 才有解?它的通解又是什么?如果我们将 x = A ( 1 ) y x=A^{(1)}y 代入原方程,就得到 A A ( 1 ) y = y AA^{(1)}y=y ,这是在原方程有解的条件下得到的结论。然而,如果 A A ( 1 ) y = y AA^{(1)}y=y ,这不就说明 x = A ( 1 ) y x=A^{(1)}y 是原方程的一个解吗?这就得到了线性方程组有解的充要条件。

  • 定理:线性方程组 A m × n x = y A_{m\times{n}}x=y 有解的充要条件是存在A的一个{1}逆 A ( 1 ) A^{(1)} 使得 A A ( 1 ) y = y AA^{(1)}y=y
    证明:
    必要性:若 A m × n x = y A_{m\times{n}}x=y 有解,则 y = A x = A A ( 1 ) A x = A A ( 1 ) y y=Ax=AA^{(1)}Ax=AA^{(1)}y
    充分性:若 A A ( 1 ) y = y AA^{(1)}y=y ,则 x = A ( 1 ) y x=A^{(1)}y 是原方程的一个解,故原方程有解。
  • 定理:线性方程组 A m × n x = y A_{m\times{n}}x=y 有解的充要条件是任意A的一个{1}逆 A ( 1 ) A^{(1)} 都有 A A ( 1 ) y = y AA^{(1)}y=y
    证明:同上。

关于 A x = y Ax=y 的通解(这里是指 A x = y Ax=y 的所有解都要能写成通解的形式,不仅仅是找到 A x = y Ax=y 的很多个解,还要找到 A x = y Ax=y 的全部解),有以下定理:

  • 定理:若 A m × n x = y A_{m\times{n}}x=y 有解,则任取A的一个{1}逆 A ( 1 ) A^{(1)} A x = y Ax=y 的通解是 x = A ( 1 ) y + ( I A ( 1 ) A ) z x=A^{(1)}y+(I-A^{(1)}A)z ,其中 z C n z\in{C^n} 任取
    证明:
    x = A ( 1 ) y + ( I A ( 1 ) A ) z , z C n x=A^{(1)}y+(I-A^{(1)}A)z,z\in{C^n} 代入原方程,可得 A x = A A ( 1 ) y + A ( I A ( 1 ) A ) z = y + ( A A A ( 1 ) A ) z = y Ax=AA^{(1)}y+A(I-A^{(1)}A)z=y+(A-AA^{(1)}A)z=y ,可见 x = A ( 1 ) y + ( I A ( 1 ) A ) z , z C n x=A^{(1)}y+(I-A^{(1)}A)z,z\in{C^n} 都是原方程的解。
    任取原方程的一个解 x 0 x_0 ,则 A x 0 = y Ax_0=y ,令 z = x 0 z=x_0 ,则 x = A ( 1 ) y + ( I A ( 1 ) A ) z = A ( 1 ) y + ( I A ( 1 ) A ) x 0 = x 0 + A ( 1 ) y A ( 1 ) y = x 0 \begin{aligned}x&=A^{(1)}y+(I-A^{(1)}A)z\\&=A^{(1)}y+(I-A^{(1)}A)x_0\\&=x_0+A^{(1)}y-A^{(1)}y\\&=x_0\end{aligned} 可见 x = A ( 1 ) y + ( I A ( 1 ) A ) z , z C n x=A^{(1)}y+(I-A^{(1)}A)z,z\in{C^n} 还包括了原方程的所有解。得证。

上述定理说明,A的任意一个{1}逆都能给出 A x = y Ax=y 的解的完整表述。这说明{1}逆就是解线性方程组的一个完备的工具。细心的朋友可能已经发现,既然A的任意一个{1}逆 A ( 1 ) A^{(1)} 都能写出原方程的全部解,而我们又知道 x = A ( 1 ) y x=A^{(1)}y 必然是原方程的解,那么我们可以推断:若给定A的一个{1}逆G,那么对于A的任意一个{1}逆M,必存在 z C m z\in{C^m} ,使得 M y = G y + ( I G A ) z My=Gy+(I-GA)z 。现在的问题是,对于任意的 z C m z\in{C^m} ,是否存在A的一个{1}逆M,使得 M y = G y + ( I G A ) z My=Gy+(I-GA)z 成立?就是说,集合 { M y M A { 1 } } \{My|M\in{A\{1\}}\} 是否包含了原方程的所有解?当y=0时,只有A列满秩时, { M y M A { 1 } } \{My|M\in{A\{1\}}\} 才包含了原方程的所有解(因为此时原方程只有零解)。那么当 y 0 y\neq0 时呢?在解决这个问题之前,我们先将{1}逆这个工具运用到更一般的矩阵方程上。

  • 定理:关于 X m × n X_{m\times{n}} 的矩阵方程 A X B = D AXB=D 有解的充要条件为存在(或任意)A的一个{1}逆 A ( 1 ) A^{(1)} 和B的一个{1}逆 B ( 1 ) B^{(1)} 使得 D = A A ( 1 ) D B ( 1 ) B D=AA^{(1)}DB^{(1)}B 成立;任取A的一个{1}逆 A ( 1 ) A^{(1)} 和B的一个{1}逆 B ( 1 ) B^{(1)} ,若 A X B = D AXB=D 有解,则其通解为 X = A ( 1 ) D B ( 1 ) + Y A ( 1 ) A Y B B ( 1 ) X=A^{(1)}DB^{(1)}+Y-A^{(1)}AYBB^{(1)} ,其中 Y C m × n Y\in{C^{m\times{n}}} 任取
    证明:
    A X B = D AXB=D 有解,则 D = A X B = A A ( 1 ) A X B B ( 1 ) B = A A ( 1 ) D B ( 1 ) B D=AXB=AA^{(1)}AXBB^{(1)}B=AA^{(1)}DB^{(1)}B D = A A ( 1 ) D B ( 1 ) B D=AA^{(1)}DB^{(1)}B ,则 X = A ( 1 ) D B ( 1 ) X=A^{(1)}DB^{(1)} 是原方程的一个解。
    X = A ( 1 ) D B ( 1 ) + Y A ( 1 ) A Y B B ( 1 ) X=A^{(1)}DB^{(1)}+Y-A^{(1)}AYBB^{(1)} 代入原方程得 A X B = A A ( 1 ) D B ( 1 ) B + A Y B A A ( 1 ) A Y B B ( 1 ) B = D + A Y B A Y B = D \begin{aligned}AXB&=AA^{(1)}DB^{(1)}B+AYB-AA^{(1)}AYBB^{(1)}B\\&=D+AYB-AYB\\&=D\end{aligned} X = A ( 1 ) D B ( 1 ) + Y A ( 1 ) A Y B B ( 1 ) X=A^{(1)}DB^{(1)}+Y-A^{(1)}AYBB^{(1)} 都是原方程的解。
    任取原方程的一个解 X 0 X_0 ,则 A X 0 B = D AX_0B=D ,令 Y = X 0 Y=X_0 ,则 X = A ( 1 ) D B ( 1 ) + Y A ( 1 ) A Y B B ( 1 ) = A ( 1 ) D B ( 1 ) + X 0 A ( 1 ) A X 0 B B ( 1 ) = X 0 + A ( 1 ) D B { 1 } A ( 1 ) D B ( 1 ) = X 0 \begin{aligned}X&=A^{(1)}DB^{(1)}+Y-A^{(1)}AYBB^{(1)}\\&=A^{(1)}DB^{(1)}+X_0-A^{(1)}AX_0BB^{(1)}\\&=X_0+A^{(1)}DB^{\{1\}}-A^{(1)}DB^{(1)}\\&=X_0\end{aligned} X = A ( 1 ) D B ( 1 ) + Y A ( 1 ) A Y B B ( 1 ) X=A^{(1)}DB^{(1)}+Y-A^{(1)}AYBB^{(1)} 还包含了原方程的所有解。得证。

现在,我们考虑关于M的矩阵方程 A M A = A AMA=A ,解该方程,得到如下结论:

  • 定理:给定 A m × n A_{m\times{n}} 的一个{1}逆G,则 M = G + Y G A Y A G , Y C m × n M=G+Y-GAYAG,Y\in{C^{m\times{n}}} 给出了A的全部{1}逆
    证明:解方程 A M A = A AMA=A ,可得方程的通解为 M = G A G + Z G A Z A G , Z C m × n M=GAG+Z-GAZAG,Z\in{C^{m\times{n}}} Y = Z G Y=Z-G ,得 M = G A G + Y + G G A Y A G G A G A G = G + Y + G A G G A G G A Y A G = G + Y G A Y A G \begin{aligned}M&=GAG+Y+G-GAYAG-GAGAG\\&=G+Y+GAG-GAG-GAYAG\\&=G+Y-GAYAG\end{aligned} 得证。

这说明A的所有{1}逆都可以用A的某个给定的{1}逆表达出来。现在回到问题:集合 { M y M A { 1 } } \{My|M\in{A\{1\}}\} 是否包含了 A x = y Ax=y 的所有解?有了上面的结论的铺垫,我们现在可以解决这个问题:

  • 定理:若 A m × n x = y , y 0 A_{m\times{n}}x=y,y\neq0 有解,则其通解是 x = M y , M A { 1 } x=My,M\in{A\{1\}}
    证明:
    设G是A的一个{1}逆,则由 A x = y Ax=y 有解知 A G y = y AGy=y ,且原方程的通解是 x = G y + ( I G A ) z x=Gy+(I-GA)z 。设M是A的任意一个{1}逆,则存在矩阵Y,使得 M = G + Y G A Y A G M=G+Y-GAYAG 。问题转化为,对任意 z C n z\in{C^n} ,能否找到Y,使得 G y + ( I G A ) z = M y = G y + Y y G A Y A G y = G y + ( I G A ) Y y \begin{aligned}Gy+(I-GA)z&=My\\&=Gy+Yy-GAYAGy\\&=Gy+(I-GA)Yy\end{aligned} 成立。即是否存在Y使得 ( I G A ) ( Y y z ) = 0 (I-GA)(Yy-z)=0 。显然,只要找到Y满足 Y y = z Yy=z 即可。因为 y 0 y\neq0 ,故容易验证 y ( 1 ) = ( y H y ) 1 y H y^{(1)}=(y^Hy)^{-1}y^H 是y的一个{1}逆,且满足 y ( 1 ) y = 1 y^{(1)}y=1 。由于 z = z y ( 1 ) y z=zy^{(1)}y ,故关于Y的矩阵方程 Y y = z Yy=z 有解,且 Y = z y ( 1 ) Y=zy^{(1)} 就是它的一个解。综上,找到了Y,即找到了M使得 M y = G y + ( I G A ) z My=Gy+(I-GA)z ,故得证。

实际上,设x是 A x = y Ax=y 的一个解,则有 x = G y + ( I G A ) x = G y + ( I G A ) x y ( 1 ) y = ( G + ( I G A ) x y ( 1 ) ) y x=Gy+(I-GA)x=Gy+(I-GA)xy^{(1)}y=(G+(I-GA)xy^{(1)})y 容易验证 G + ( I G A ) x y ( 1 ) G+(I-GA)xy^{(1)} 是A的一个{1}逆,故上述定理成立。
在机器学习中,线性回归模型是最基础也最简单的模型之一,在对实际数据进行拟合时,往往是不可能做到完全拟合的。故对于一般的线性回归问题,我们往往考虑其最小二乘解(或者完全等价地,最小化线性回归的代价函数,即均方误差函数)。而且我们通常不希望解的范数太大,故还需考虑其极小范数解。有了上面的结论,我们在寻找这些特殊解时,就可以把目标定在寻找特殊的{1}逆上。那么都有哪些特殊的{1}逆呢?我们先来看一下其中性质优良的Penrose-Moore广义逆。


Penrose-Moore广义逆

Penrose于1955年提出了Penrose-Moore条件,满足这些条件中的任何一个的矩阵G都可以称为A的一个广义逆矩阵,它们分别是:

  1. AGA=A
  2. GAG=G
  3. AG是共轭对称的
  4. GA是共轭对称的

{1}逆是满足第一个条件的广义逆矩阵,这也是{1}逆的记法的来源。类似的还有{1,2}逆、{1,3,4}逆等等。共有 2 4 1 = 15 2^4-1=15 类广义逆矩阵,其中得到重要应用的有{1,2}逆(自反广义逆矩阵)、{1,2,3}逆(正规化广义逆矩阵)、{1,2,4}逆(弱广义逆矩阵)、{1,2,3,4}逆(Penrose-Moore广义逆)等。

定义:设 A C m × n A\in{C^{m\times{n}}} G C n × m G\in{C^{n\times{m}}} ,若G满足如下四个条件,则称G是A的Penrose-Moore广义逆矩阵,简称PM逆,记为 G = A + G=A^+

  1. A G A = A AGA=A
  2. G A G = G GAG=G
  3. ( A G ) H = A G (AG)^H=AG
  4. ( G A ) H = G A (GA)^H=GA

PM逆不仅在数学规划中有着重要的应用,还在概率统计、数值分析、系统控制、博弈论、信号处理和网络理论等领域有着广泛的应用。这是因为PM逆具有着非常优良的数学性质,使得其在各个领域的理论分析中占有着重要的地位。现在,我们就来看看PM逆都有哪些优良的性质。

  • 定理:任意矩阵 A C r m × n A\in{C^{m\times{n}}_r} ,A的PM逆是存在且唯一的
    证明:
    存在性:当 r = 0 r=0 时,易验证 O n × m O_{n\times{m}} 是A的一个PM逆。
    r > 0 r\gt{0} 时,存在A的满秩分解 A = K L A=KL ,其中 K C m × r K\in{C^{m\times{r}}} 是列满秩矩阵, L C r × n L\in{C^{r\times{n}}} 是行满秩矩阵。由于 r ( K H K ) = r ( K ) = r r(K^HK)=r(K)=r 以及 r ( L L H ) = r ( L ) = r r(LL^H)=r(L)=r ,故 K H K K^HK L L H LL^H 是满秩方阵。故 K H K L L H K^HKLL^H 是可逆方阵。设 G = L H ( K H K L L H ) 1 K H G=L^H(K^HKLL^H)^{-1}K^H ,现在证明G是A的一个PM逆:
    A G A = K L L H ( K H K L L H ) 1 K H K L = K ( L L H ) ( L L H ) 1 ( K H K ) 1 ( K H K ) L = K L = A AGA=KLL^H(K^HKLL^H)^{-1}K^HKL=K(LL^H)(LL^H)^{-1}(K^HK)^{-1}(K^HK)L=KL=A G A G = L H ( K H K L L H ) 1 K H K L L H ( K H K L L H ) 1 K H = L H ( L L H ) 1 ( K H K ) 1 ( K H K ) ( L L H ) ( L L H ) 1 ( K H K ) 1 K H = L H ( K H K L L H ) 1 K H = G GAG=L^H(K^HKLL^H)^{-1}K^HKLL^H(K^HKLL^H)^{-1}K^H\\=L^H(LL^H)^{-1}(K^HK)^{-1}(K^HK)(LL^H)(LL^H)^{-1}(K^HK)^{-1}K^H=L^H(K^HKLL^H)^{-1}K^H=G G A = L H ( K H K L L H ) 1 K H K L = L H ( L L H ) 1 ( K H K ) 1 ( K H K ) L = L H ( L L H ) 1 L GA=L^H(K^HKLL^H)^{-1}K^HKL=L^H(LL^H)^{-1}(K^HK)^{-1}(K^HK)L=L^H(LL^H)^{-1}L ( G A ) H = L H ( ( L L H ) 1 ) H L = L H ( L L H ) 1 L = G A (GA)^H=L^H((LL^H)^{-1})^HL=L^H(LL^H)^{-1}L=GA A G = K L L H ( K H K L L H ) 1 K H = K ( L L H ) ( L L H ) 1 ( K H K ) 1 K H = K ( K H K ) 1 K H AG=KLL^H(K^HKLL^H)^{-1}K^H=K(LL^H)(LL^H)^{-1}(K^HK)^{-1}K^H=K(K^HK)^{-1}K^H ( A G ) H = K ( ( K H K ) 1 ) H K H = K ( K H K ) 1 K H = A G (AG)^H=K((K^HK)^{-1})^HK^H=K(K^HK)^{-1}K^H=AG 这就证明了A的PM逆的存在性。
    唯一性:设 X , Y X,Y 分别是A的一个PM逆,则 X = X A X = ( X A ) H X = A H X H X = ( A Y A ) H X H X = A H Y H A H X H X = ( Y A ) H ( X A ) H X = Y A X A X = Y A X = Y ( A X ) H = Y X H A H = Y X H ( A Y A ) H = Y X H A H Y H A H = Y ( A X ) H ( A Y ) H = Y A X A Y = Y A Y = Y X=XAX=(XA)^HX=A^HX^HX=(AYA)^HX^HX=A^HY^HA^HX^HX=(YA)^H(XA)^HX\\=YAXAX=YAX=Y(AX)^H=YX^HA^H=YX^H(AYA)^H=YX^HA^HY^HA^H\\=Y(AX)^H(AY)^H=YAXAY=YAY=Y 这就证明了PM逆的唯一性。得证。

该定理不仅证明了PM逆的存在性和唯一性,还给出了求PM逆的一种算法:满秩分解法。

  • 定理: r ( A ) = r ( A + ) = r ( A A + ) = r ( A + A ) = r ( A A + A ) = r ( A + A A + ) r(A)=r(A^+)=r(AA^+)=r(A^+A)=r(AA^+A)=r(A^+AA^+)
    证明:
    因为 r ( A ) = r ( A A + A ) r ( A A + ) r ( A + ) r(A)=r(AA^+A)\leqslant{}r(AA^+)\leqslant{r(A^+)} r ( A + ) = r ( A + A A + ) r ( A + A ) r ( A ) r(A^+)=r(A^+AA^+)\leqslant{}r(A^+A)\leqslant{}r(A) r ( A A + ) r ( A ) r(AA^+)\leqslant{}r(A) r ( A + A ) r ( A + ) r(A^+A)\leqslant{}r(A^+) 所以 r ( A ) = r ( A + ) = r ( A A + ) = r ( A + A ) = r ( A A + A ) = r ( A + A A + ) r(A)=r(A^+)=r(AA^+)=r(A^+A)=r(AA^+A)=r(A^+AA^+) 得证。

PM逆有以下列出的一些计算性质(通过定义容易验证):

  • ( A + ) + = A (A^+)^+=A
  • ( A T ) + = ( A + ) T (A^T)^+=(A^+)^T
  • ( A H ) + = ( A + ) H (A^H)^+=(A^+)^H
  • ( k A ) + = 1 k A + , k C , k 0 (kA)^+=\frac{1}{k}A^+,k\in{C},k\neq0
  • 若A是n阶 ( n 2 ) (n\geqslant{2}) 方阵,则 ( A ) + = ( A + ) (A^*)^+=(A^+)^*
  • 一般 ( A B ) + B + A + (AB)^+\neq{}B^+A^+ ,但 ( A H A ) + = A + ( A H ) + (A^HA)^+=A^+(A^H)^+ ( A A H ) + = ( A H ) + A + (AA^H)^+=(A^H)^+A^+
  • ( A + A ) + = A + A (A^+A)^+=A^+A ( A A + ) + = A A + (AA^+)^+=AA^+ (通过验证 A + A A^+A A A + AA^+ 是幂等矩阵易得)
  • ( I A + A ) + = I A + A (I-A^+A)^+=I-A^+A ( I A A + ) + = I A A + (I-AA^+)^+=I-AA^+ (通过验证 I A + A I-A^+A I A A + I-AA^+ 是幂等矩阵易得)
  • 若U、V为酋矩阵,则 ( U A V ) + = V H A + U H (UAV)^+=V^HA^+U^H

从PM逆的特性上看,PM逆可能是最接近逆矩阵的广义逆了(唯一性、秩的关系、计算性质等)。当方阵A可逆时, A + A^+ 就是A的逆矩阵。此外,如果对矩阵 A m × n A_{m\times{n}} 作一些限定,则能得到类似于逆矩阵的如下性质:

  • 定理: A + A = I n A^+A=I_n 的充要条件为 A m × n A_{m\times{n}} 是列满秩矩阵
    证明:
    必要性:若 A + A = I A^+A=I ,则由 r ( A ) = r ( A + A ) = n r(A)=r(A^+A)=n 知A是列满秩矩阵
    充分性:若A是列满秩矩阵,则由 r ( A + A ) = r ( A ) = n r(A^+A)=r(A)=n A + A A^+A 是满秩方阵,用 ( A + A ) 1 (A^+A)^{-1} 左乘 A + A A + A = A + A A^+AA^+A=A^+A ,即得 A + A = I A^+A=I
    【注】实际上,当A列满秩时,A的左逆矩阵存在, L = ( A H A ) 1 A H L=(A^HA)^{-1}A^H 就是A的一个左逆矩阵。容易验证该左逆矩阵就是A的PM逆。
  • 定理: A A + = I m AA^+=I_m 的充要条件为 A m × n A_{m\times{n}} 是行满秩矩阵
    证明:与上同理。
    【注】实际上,当A行满秩时,A的右逆矩阵存在, R = A H ( A A H ) 1 R=A^H(AA^H)^{-1} 就是A的一个右逆矩阵。容易验证该右逆矩阵就是A的PM逆。

PM逆作为一种特殊的{1}逆,当然可以像{1}逆那样表达线性方程组的解的结构:

  • 定理:线性方程 A m × n x = y A_{m\times{n}}x=y 有解的充要条件为 y = A A + y y=AA^+y ,若它有解,则通解为 x = A + y + ( I A + A ) z , z C n x=A^+y+(I-A^+A)z,z\in{C^n}
  • 定理:关于 X m × n X_{m\times{n}} 的矩阵方程 A X B = D AXB=D 有解的充要条件为 D = A A + D B + B D=AA^+DB^+B ,若它有解,则通解为 X = A + D B + + Y A + A Y B B + , Y C m × n X=A^+DB^++Y-A^+AYBB^+,Y\in{C^{m\times{n}}}

借助PM逆,我们还能解决方程解的唯一性问题:

  • 定理:若线性方程 A m × n x = y A_{m\times{n}}x=y 有解,则解唯一的充要条件为A是列满秩矩阵
    证明:
    必要性:考虑方程的通解 x = A + y + ( I A + A ) z , z C n x=A^+y+(I-A^+A)z,z\in{C^n} ,显然若方程的解唯一,则必有 z C n , ( I A + A ) z = 0 \forall{z}\in{C^n},(I-A^+A)z=0 。故由零矩阵的判定条件知 A + A = I A^+A=I ,故A列满秩。
    充分性:若A列满秩,则 A + A = I A^+A=I ,故方程的通解 x = A + y + ( I A + A ) z = A + y x=A^+y+(I-A^+A)z=A^+y ,可见方程的解是唯一的。

如果A列满秩,则A的左逆矩阵存在, L = ( A H A ) 1 A H L=(A^HA)^{-1}A^H 就是A的一个左逆矩阵,且有 L A x = x = L y LAx=x=Ly 。所以上面的定理的结论可以再强一些:

  • 定理:线性方程 A m × n x = y A_{m\times{n}}x=y 的解存在且唯一的充要条件为A是列满秩矩阵

  • 定理:若关于 X m × n X_{m\times{n}} 的矩阵方程 A X B = D AXB=D 有解,则解唯一的充要条件为A列满秩且B行满秩
    证明:
    必要性:考虑通解 X = A + D B + + Y A + A Y B B + , Y C m × n X=A^+DB^++Y-A^+AYBB^+,Y\in{C^{m\times{n}}} ,若解唯一,则 Y C m × n , Y = A + A Y B B + \forall{Y}\in{C^{m\times{n}}},Y=A^+AYBB^+ 。下面分情况讨论:
    m n m\geqslant{n} ,则可取Y列满秩,由 r ( Y ) = r ( A + A Y B B + ) r ( B ) r(Y)=r(A^+AYBB^+)\leqslant{r(B)} 得,B行满秩。故 B B + = I BB^+=I ,故 Y C m × n , Y = A + A Y \forall{Y}\in{C^{m\times{n}}},Y=A^+AY ( I A + A ) Y = O (I-A^+A)Y=O 。则 z C m , ( I A + A ) z = 0 \forall{z}\in{C^m},(I-A^+A)z=0 。由零矩阵的判定条件得, A + A = I A^+A=I ,故A列满秩。
    m n m\leqslant{n} ,则可取Y行满秩,由 r ( Y ) = r ( A + A Y B B + ) r ( A ) r(Y)=r(A^+AYBB^+)\leqslant{r(A)} 得,A列满秩。故 A + A = I A^+A=I ,故 Y C m × n , Y = Y B B + \forall{Y}\in{C^{m\times{n}}},Y=YBB^+ Y ( I B B + ) = O Y(I-BB^+)=O 。则 z T C n , z ( I B B + ) = 0 \forall{z^T}\in{C^n},z(I-BB^+)=0 。由零矩阵的判定条件得, B B + = I BB^+=I ,故B行满秩。
    综上,无论何种情况,若方程的解唯一,则A列满秩且B行满秩。
    充分性:若A列满秩且B行满秩,则 A + A = I A^+A=I B B + = I BB^+=I 。故方程的通解 X = A + D B + + Y A + A Y B B + = A + D B + + Y Y = A + D B + X=A^+DB^++Y-A^+AYBB^+=A^+DB^++Y-Y=A^+DB^+ ,可见方程的解是唯一的。得证。

当A列满秩、B行满秩时, L = ( A H A ) 1 A H L=(A^HA)^{-1}A^H R = B H ( B B H ) 1 R=B^H(BB^H)^{-1} 分别是A和B的左逆矩阵和右逆矩阵,则 L A X B R = X = L D R LAXBR=X=LDR 。故上述定理的结论可以再强一些:

  • 定理:矩阵方程 A X B = D AXB=D 的解存在且唯一的充要条件为A列满秩且B行满秩

至此,关于PM逆如何计算的问题,我们只提到了一种方法:满秩分解法。实际上,求解PM逆还有很多行之有效的方法。这里介绍两例:

  • 奇异值分解法:设矩阵 A C m × n A\in{C^{m\times{n}}} ,A的奇异值分解为 A = U Σ V H A=U\Sigma{V^H} ,其中U、V均为酋矩阵, Σ \Sigma 是对角矩阵。则 A + = V Σ + U H A^+=V\Sigma{}^+U^H

  • Greville递推法
    递推法求PM逆
    【注】若初始列向量 a 1 = 0 a_1=0 ,图中公式不适用,此时这样计算: a 1 + = a 1 T a_1^+=a_1^T

接下来,我们探讨极小范数解和最小二乘解,在探讨这个问题之前,先看下相容方程组的定义:

  • 定义:关于x的线性方程组 A x = y Ax=y 称为相容方程组或一致方程,当且仅当该方程组有解

说白了就是给有解方程组起个名称而已。显然齐次线性方程组都是相容的,即都是一致方程。


{1,4}逆与极小范数解

什么是极小范数解?顾名思义,就是范数最小的解。既然极小范数解是一个解,我们当然要在一致方程的范畴中讨论这个问题(后面会讨论非一致方程的极小范数最小二乘解,此时极小范数是另一个含义,不过与此大体相同)。

  • 定义:一致方程 A m × n x = y A_{m\times{n}}x=y 的极小范数解定义为 x ^ \hat{x} 满足 x ^ = min A x = y x ||\hat{x}||=\min_{Ax=y}{||x||}

我们已经知道,一致方程 A m × n x = y A_{m\times{n}}x=y y 0 y\neq{0} 时的通解为 x = A ( 1 ) y , A ( 1 ) A { 1 } x=A^{(1)}y,A^{(1)}\in{A\{1\}} 。显然,当 y = 0 y=0 时, A x = y Ax=y 唯一的极小范数解是 x = 0 x=0 ;当 y 0 y\neq{0} 时,我们可以寻求一类特殊的{1}逆M使得 x = M y x=My 是极小范数解。现在,我们来看A的{1}逆M应该满足什么样的条件:

  • 定理:若 M A { 1 } M\in{A\{1\}} ,则命题(1)“ y C m , x = M y \forall{y}\in{C^m},x=My 是一致方程 A m × n x = y A_{m\times{n}}x=y 的极小范数解”成立的充要条件为命题(2)“ M A = A + A MA=A^+A ”成立
    证明:
    命题(1)等价于“ b C m , x = M A b \forall{b}\in{C^m},x=MAb 是方程 A m × n x = A b A_{m\times{n}}x=Ab 的极小范数解”。 b C m \forall{b\in{C^m}} ,方程 A m × n x = A b A_{m\times{n}}x=Ab 的通解为 x = A + A b + ( I A + A ) z , z C n x=A^+Ab+(I-A^+A)z,z\in{C^n} 。因为 M A { 1 } M\in{A\{1\}} ,故必存在 z ^ C n \hat{z}\in{C^n} ,使得 M A b = A + A b + ( I A + A ) z ^ MAb=A^+Ab+(I-A^+A)\hat{z} 。设有实值函数 f ( z ) = A + A b + ( I A + A ) z 2 , z C n f(z)=||A^+Ab+(I-A^+A)z||^2,z\in{C^n}
    必要性:由命题(1)知,f在 z = z ^ z=\hat{z} 处取得最小值。则对 v C n \forall{v}\in{C^n} ,实值函数 g v ( t ) = f ( z ^ + t v ) , t R g_v(t)=f(\hat{z}+tv),t\in{R} h v ( t ) = f ( z ^ + i t v ) , t R h_v(t)=f(\hat{z}+itv),t\in{R} 都在 t = 0 t=0 处取得最小值(i是虚数单位)。由极值的必要条件, d g v d t t = 0 = 0 \frac{dg_v}{dt}|_{t=0}=0 d h v d t t = 0 = 0 \frac{dh_v}{dt}|_{t=0}=0 。以 d g v d t \frac{dg_v}{dt} 为例: d g v d t = d d t A + A b + ( I A + A ) ( z ^ + t v ) 2 = d d t M A b + t ( I A + A ) v 2 = d d t ( M A b 2 + t 2 ( I A + A ) v 2 + 2 t R e { < M A b , ( I A + A ) v > } ) = 2 t ( I A + A ) v 2 + 2 R e { < M A b , ( I A + A ) v > } \begin{aligned}\frac{dg_v}{dt}&=\frac{d}{dt}||A^+Ab+(I-A^+A)(\hat{z}+tv)||^2\\&=\frac{d}{dt}||MAb+t(I-A^+A)v||^2\\&=\frac{d}{dt}(||MAb||^2+t^2||(I-A^+A)v||^2+2tRe\{<MAb,(I-A^+A)v>\})\\&=2t||(I-A^+A)v||^2+2Re\{<MAb,(I-A^+A)v>\}\end{aligned} 【注】 R e { } Re\{\} 是指实部, I m { } Im\{\} 是指虚部。
    t = 0 t=0 时, d g v d t = 2 R e { < M A b , ( I A + A ) v > } = 0 \frac{dg_v}{dt}=2Re\{<MAb,(I-A^+A)v>\}=0 。同理,当 t = 0 t=0 时, d h v d t = 2 i I m { < M A b , ( I A + A ) v > } = 0 \frac{dh_v}{dt}=2iIm\{<MAb,(I-A^+A)v>\}=0 。故 < M A b , ( I A + A ) v > = 0 <MAb,(I-A^+A)v>=0 ,即 b H ( M A ) H ( I A + A ) v = 0 b^H(MA)^H(I-A^+A)v=0 。由零矩阵的判定条件得 b H ( M A ) H ( I A + A ) = O b^H(MA)^H(I-A^+A)=O ,再由零矩阵的判定条件得 ( M A ) H ( I A + A ) = O (MA)^H(I-A^+A)=O 。两端取共轭转置得 ( I A + A ) M A = M A A + A = O (I-A^+A)MA=MA-A^+A=O ,即 M A = A + A MA=A^+A
    充分性:若 M A = A + A MA=A^+A ,则 ( M A ) H ( I A + A ) = O (MA)^H(I-A^+A)=O 。因为 f ( z ) = A + A b + ( I A + A ) z 2 = M A b + ( I A + A ) ( z z ^ ) 2 = M A b 2 + ( I A + A ) ( z z ^ ) 2 + 2 R e { < M A b , ( I A + A ) ( z z ^ ) > } = M A b 2 + ( I A + A ) ( z z ^ ) 2 + 2 R e { b H ( M A ) H ( I A + A ) ( z z ^ ) } = M A b 2 + ( I A + A ) ( z z ^ ) 2 M A b 2 \begin{aligned}f(z)&=||A^+Ab+(I-A^+A)z||^2\\&=||MAb+(I-A^+A)(z-\hat{z})||^2\\&=||MAb||^2+||(I-A^+A)(z-\hat{z})||^2+2Re\{<MAb,(I-A^+A)(z-\hat{z})>\}\\&=||MAb||^2+||(I-A^+A)(z-\hat{z})||^2+2Re\{b^H(MA)^H(I-A^+A)(z-\hat{z})\}\\&=||MAb||^2+||(I-A^+A)(z-\hat{z})||^2\\&\geqslant{||MAb||^2}\end{aligned} 对任意 z C n z\in{C^n} 成立,故 x = M A b x=MAb 是原方程的极小范数解。

我们找到了M应满足的条件: M A = A + A MA=A^+A ,这个条件看上去并不那么“显然”,接下来对它作个等价转化:

  • 定理:若 M A { 1 } M\in{A\{1\}} ,则命题(1)“ y 0 , y C m , x = M y \forall{y\neq{0}},y\in{C^m},x=My 是一致方程 A m × n x = y A_{m\times{n}}x=y 的极小范数解”成立的充要条件为命题(2)“ ( M A ) H = M A (MA)^H=MA ”成立
    证明:只需证明若 M A { 1 } M\in{A\{1\}} ,则 M A = A + A       ( M A ) H = M A MA=A^+A\iff{}(MA)^H=MA
    \Rightarrow
    由于 A + A A^+A 是共轭对称的,故 ( M A ) H = M A (MA)^H=MA
    \Leftarrow
    先用PM逆的定义证明 M A A + = A + MAA^+=A^+
    A ( M A A + ) A = A A + A = A A(MAA^+)A=AA^+A=A
    ( M A A + ) A ( M A A + ) = M ( A M A ) A + = M A A + (MAA^+)A(MAA^+)=M(AMA)A^+=MAA^+
    A ( M A A + ) = A A + A(MAA^+)=AA^+ ,因为 A A + AA^+ 是共轭对称的,故 A ( M A A + ) A(MAA^+) 是共轭对称的
    ( M A A + ) A = M A (MAA^+)A=MA ,因为 M A MA 是共轭对称的,故 ( M A A + ) A (MAA^+)A 是共轭对称的
    这就证明了 M A A + = A + MAA^+=A^+ 。用A右乘该式,就得到 M A = A + A MA=A^+A

上面的定理告诉我们M就是A的{1,4}逆,而且在定理的证明过程中容易发现{1,4}逆的一个充要条件:

  • 定理:矩阵M是A的一个{1,4}逆的充要条件为 M A = A + A MA=A^+A
    证明:根据前面的定理已有的结论,只需证明若 M A = A + A MA=A^+A ,则 A M A = A AMA=A 即可。用A左乘 M A = A + A MA=A^+A ,就得到 A M A = A AMA=A 。得证。

至此,我们基本上已经解决了极小范数解的问题。现在还剩下一个问题:极小范数解是唯一的还是有多个?实际上,有了前面的结论的支撑,我们很容易证明极小范数解是唯一的:

  • 定理:一致方程的极小范数解是唯一的
    证明:我们已经知道一致方程 A x = y Ax=y 的全部极小范数解是 x = M y , M A { 1 , 4 } x=My,M\in{A\{1,4\}} 。现在任取 M 1 , M 2 A { 1 , 4 } M_1,M_2\in{A\{1,4\}} ,由于 A x = y Ax=y 是一致方程,故 A M 1 y = A M 2 y = y AM_1y=AM_2y=y M 1 y = ( M 1 A ) M 2 y = ( A + A ) M 2 y = ( M 2 A ) M 2 y = M 2 y M_1y=(M_1A)M_2y=(A^+A)M_2y=(M_2A)M_2y=M_2y 这就证明了极小范数解是唯一的。

{1,3}逆与最小二乘解

在线性回归问题中,在给定的数据集下一般是没有精确解的,那么这时我们就希望找到的解“尽量精确”。如何做到尽量精确呢?注意到线性方程组 A x = y Ax=y 实际上是说, A x Ax 这个向量与 y y 这个向量之间无偏差,故对于非一致方程(不相容方程组、无解线性方程组) A x = y Ax=y ,我们可以用 A x Ax y y 之间的偏差有多大来反映“解” x x 有多精确。常采用的“偏差”是 A x Ax y y 之间的欧式距离,即 A x y ||Ax-y|| 。这就引出了最小二乘解的定义:

  • 定义:非一致方程 A m × n x = y A_{m\times{n}}x=y 的最小二乘解 x ^ \hat{x} 定义为 x ^ \hat{x} 满足 A x ^ y = min x C n A x y ||A\hat{x}-y||=\min_{x\in{C^n}}{||Ax-y||}

在求解极小范数解的问题时,我们一开始就已经知道极小范数解具有 x = A ( 1 ) y x=A^{(1)}y 的形式。在最小二乘问题中,我们并不好知道最小二乘解会具有怎样的形式。不过,注意到实际上最小二乘解的定义对任何线性方程组都是适用的(对于一致方程,容易看出它的精确解与最小二乘解是等价的),我们可以将一致方程的情形下的最小二乘解看作是一个特例(这里只是猜测),这样我们可以推测非一致方程的最小二乘解会具有类似于 x = A ( 1 ) y x=A^{(1)}y 的形式(至少某一些是)。不过,在搞清一致和非一致情形下的最小二乘解究竟是否有这样的关系前,我们不能妄加限制非一致情形下的最小二乘解的形式。所以就像最初研究{1}逆一样,我们假定 x = M y x=My A x = y Ax=y 的最小二乘解,来探究一下这样的矩阵M具有怎样的性质。

  • 定理:命题(1)“ y C m \forall{y}\in{C^m} x = M y x=My 是方程组 A m × n x = y A_{m\times{n}}x=y 的最小二乘解”成立的充要条件为命题(2)“ A H A M = A H A^HAM=A^H ”成立
    证明:
    y C m \forall{y}\in{C^m} ,设有实值函数 f ( x ) = A x y 2 , x C n f(x)=||Ax-y||^2,x\in{C^n}
    必要性:记 x ^ = M y \hat{x}=My ,若命题(1)成立,则f在 x = x ^ x=\hat{x} 处取得最小值。故对 v C n \forall{v}\in{C^n} ,实值函数 g v ( t ) = f ( x ^ + t v ) , t R g_v(t)=f(\hat{x}+tv),t\in{R} h v ( t ) = f ( x ^ + i t v ) , t R h_v(t)=f(\hat{x}+itv),t\in{R} (i是虚数单位)都在 t = 0 t=0 处取得最小值。由极值的必要条件, d g v d t t = 0 = 0 \frac{dg_v}{dt}|_{t=0}=0 d h v d t t = 0 = 0 \frac{dh_v}{dt}|_{t=0}=0 。以 d g v d t \frac{dg_v}{dt} 为例: d g v d t = d d t A ( x ^ + t v ) y 2 = d d t ( A M I ) y + t A v 2 = d d t ( ( A M I ) y 2 + t 2 A v 2 + 2 t R e { < ( A M I ) y , A v > } ) = 2 t A v 2 + 2 R e { < ( A M I ) y , A v > } \begin{aligned}\frac{dg_v}{dt}&=\frac{d}{dt}||A(\hat{x}+tv)-y||^2\\&=\frac{d}{dt}||(AM-I)y+tAv||^2\\&=\frac{d}{dt}(||(AM-I)y||^2+t^2||Av||^2+2tRe\{<(AM-I)y,Av>\})\\&=2t||Av||^2+2Re\{<(AM-I)y,Av>\}\end{aligned} t = 0 t=0 时, d g v d t = 2 R e { < ( A M I ) y , A v > } = 0 \frac{dg_v}{dt}=2Re\{<(AM-I)y,Av>\}=0 。同理,当 t = 0 t=0 时, d h v d t = 2 i I m { < ( A M I ) y , A v > } = 0 \frac{dh_v}{dt}=2iIm\{<(AM-I)y,Av>\}=0 。故 < ( A M I ) y , A v > = 0 <(AM-I)y,Av>=0 ,即 y H ( A M I ) H A v = 0 y^H(AM-I)^HAv=0 。由零矩阵的判定条件得, y H ( A M I ) H A = O y^H(AM-I)^HA=O ,再由零矩阵的判定条件得 ( A M I ) H A = O (AM-I)^HA=O 。两端取共轭转置得 A H ( A M I ) = O A^H(AM-I)=O ,即 A H A M = A H A^HAM=A^H
    充分性:若 A H A M = A H A^HAM=A^H ,则 ( A M I ) H A = O (AM-I)^HA=O 。因为 f ( x ) = A x y 2 = ( A M I ) y + A ( x M y ) = ( A M I ) y 2 + A ( x M y ) 2 + 2 R e { < ( A M I ) y , A ( x M y ) > } = ( A M I ) y 2 + A ( x M y ) 2 + 2 R e { y H ( A M I ) H A v } = ( A M I ) y 2 + A ( x M y ) 2 A M y y 2 \begin{aligned}f(x)&=||Ax-y||^2\\&=||(AM-I)y+A(x-My)||\\&=||(AM-I)y||^2+||A(x-My)||^2+2Re\{<(AM-I)y,A(x-My)>\}\\&=||(AM-I)y||^2+||A(x-My)||^2+2Re\{y^H(AM-I)^HAv\}\\&=||(AM-I)y||^2+||A(x-My)||^2\\&\geqslant{}||AMy-y||^2\end{aligned} x C n \forall{x}\in{C^n} 成立。故 x = M y x=My 是原方程的最小二乘解。

同样地,条件 A H A M = A H A^HAM=A^H 看起来不是那么“显然”,所以我们对它作个等价转化:

  • 定理:命题(1)“ y C m \forall{y}\in{C^m} x = M y x=My 是方程组 A m × n x = y A_{m\times{n}}x=y 的最小二乘解”成立的充要条件为命题(2)“ A M A = A AMA=A ( A M ) H = A M (AM)^H=AM ”成立
    证明:
    只需证明 A H A M = A H       A M A = A ( A M ) H = A M A^HAM=A^H\iff{}AMA=A\land{}(AM)^H=AM
    \Rightarrow
    用A右乘 A H A M = A H A^HAM=A^H A H A M A = A H A A^HAMA=A^HA ,即 A H A ( M A I ) = O A^HA(MA-I)=O 。因为 r ( A H A ) = r ( A ) r(A^HA)=r(A) ,故由零矩阵的判定条件得 A ( M A I ) = O A(MA-I)=O ,即 A M A = A AMA=A 。用 M H M^H 左乘 A H A M = A H A^HAM=A^H ( A M ) H A M = ( A M ) H (AM)^HAM=(AM)^H ,两端取共轭转置得 ( A M ) H A M = A M (AM)^HAM=AM ,故 ( A M ) H = A M (AM)^H=AM
    \Leftarrow
    A H A M = A H ( A M ) H = ( A M A ) H = A H A^HAM=A^H(AM)^H=(AMA)^H=A^H

上面的定理告诉我们,M就是A的{1,3}逆。现在,像研究一致方程的通解一样,我们还能找到最小二乘解的“通解”:

  • 定理:线性方程组 A x = y Ax=y 的全部最小二乘解为 x = A ( 1 , 3 ) y + ( I A ( 1 , 3 ) A ) z , z C n x=A^{(1,3)}y+(I-A^{(1,3)}A)z,z\in{C^n}
    证明:
    因为 A ( A ( 1 , 3 ) y + ( I A ( 1 , 3 ) A ) z ) y = A A ( 1 , 3 ) y + ( A A A ( 1 , 3 ) A ) z y = A A ( 1 , 3 ) y y ||A(A^{(1,3)}y+(I-A^{(1,3)}A)z)-y||=||AA^{(1,3)}y+(A-AA^{(1,3)}A)z-y||=||AA^{(1,3)}y-y|| ,故 x = A ( 1 , 3 ) y + ( I A ( 1 , 3 ) A ) z , z C n x=A^{(1,3)}y+(I-A^{(1,3)}A)z,z\in{C^n} 都是原方程的最小二乘解。
    任取原方程的任一最小二乘解 x x ,由于 A x y 2 = A A ( 1 , 3 ) y y + A ( x A ( 1 , 3 ) y ) 2 = A A ( 1 , 3 ) y y 2 + A ( x A ( 1 , 3 ) y 2 + 2 R e { < A A ( 1 , 3 ) y y , A ( x A ( 1 , 3 ) y ) > } = A A ( 1 , 3 ) y y 2 + A ( x A ( 1 , 3 ) y 2 = A A ( 1 , 3 ) y y 2 \begin{aligned}||Ax-y||^2&=||AA^{(1,3)}y-y+A(x-A^{(1,3)}y)||^2\\&=||AA^{(1,3)}y-y||^2+||A(x-A^{(1,3)}y||^2+2Re\{<AA^{(1,3)}y-y,A(x-A^{(1,3)}y)>\}\\&=||AA^{(1,3)}y-y||^2+||A(x-A^{(1,3)}y||^2\\&=||AA^{(1,3)}y-y||^2\end{aligned} A ( x A ( 1 , 3 ) y 2 = 0 ||A(x-A^{(1,3)}y||^2=0 A x = A A ( 1 , 3 ) y Ax=AA^{(1,3)}y 。该方程的通解为 x = A ( 1 , 3 ) y + ( I A ( 1 , 3 ) A ) z , z C n x=A^{(1,3)}y+(I-A^{(1,3)}A)z,z\in{C^n} ,故 x = A ( 1 , 3 ) y + ( I A ( 1 , 3 ) A ) z , z C n x=A^{(1,3)}y+(I-A^{(1,3)}A)z,z\in{C^n} 包含了原方程的所有最小二乘解。综上,得证。

在上述定理的证明过程中,容易看出 A x = y Ax=y 的全部最小二乘解就是 A x = A A ( 1 , 3 ) y Ax=AA^{(1,3)}y 的通解。此外,最小二乘解与正规方程有着紧密的联系:

  • 定理: A x = y Ax=y 的全部最小二乘解是正规方程 A H A x = A H y A^HAx=A^Hy 的通解
    证明:
    只需证明方程 A x = A A ( 1 , 3 ) y Ax=AA^{(1,3)}y A H A x = A H y A^HAx=A^Hy 等价即可。
    \Rightarrow :
    A H A^H 左乘 A x = A A ( 1 , 3 ) y Ax=AA^{(1,3)}y A H A x = A H A A ( 1 , 3 ) y = ( ( A A ( 1 , 3 ) ) H A ) H y = ( A A ( 1 , 3 ) A ) H y = A H y A^HAx=A^HAA^{(1,3)}y=((AA^{(1,3)})^HA)^Hy=(AA^{(1,3)}A)^Hy=A^Hy \Leftarrow
    与上同理可得 A H A x = A H A A ( 1 , 3 ) y A^HAx=A^HAA^{(1,3)}y ,即 A H A ( x A ( 1 , 3 ) y ) = O A^HA(x-A^{(1,3)}y)=O 。因为 r ( A H A ) = r ( A ) r(A^HA)=r(A) ,故由零矩阵的判定条件得 A ( x A ( 1 , 3 ) y ) = O A(x-A^{(1,3)}y)=O ,即 A x = A A ( 1 , 3 ) y Ax=AA^{(1,3)}y

最小二乘解是唯一的吗?由于 A x = y Ax=y 的全部最小二乘解就是一致方程 A x = A A ( 1 , 3 ) y Ax=AA^{(1,3)}y 的通解,故我们只需看 A x = A A ( 1 , 3 ) y Ax=AA^{(1,3)}y 的解是否唯一即可。由PM逆一节的相关结论知道, A x = A A ( 1 , 3 ) y Ax=AA^{(1,3)}y 的解唯一的充要条件是A是列满秩矩阵。所以,当A不是列满秩矩阵时, A x = y Ax=y 的最小二乘解就不唯一。

至此,我们对最小二乘解有了大致的了解。现在回到线性回归问题上,我们为了使非一致方程 A x = y Ax=y 的解“尽量精确”,可以取它的最小二乘解 x = A + y + ( I A + A ) z , z C n x=A^+y+(I-A^+A)z,z\in{C^n} (注意,PM逆是{1,3}逆的特例)。显然,如果要用这个通式计算方程的最小二乘解,取 z = 0 z=0 时的解 x = A + y x=A^+y 是最好计算的。那么问题来了,这个解有没有什么特殊之处?注意到它的形式和一致方程的极小范数解的形式一样,我们可以揣度它应该是非一致方程 A x = y Ax=y 的所有最小二乘解中范数最小的。下面我们就证明这个结论。


PM逆与极小范数最小二乘解

  • 定义:线性方程组 A m × n x = y A_{m\times{n}}x=y 的极小范数最小二乘解 x ^ \hat{x} 定义为 x ^ \hat{x} 首先是原方程的一个最小二乘解, x ^ \hat{x} 还满足 x ^ = min z C n { A + y + ( I A + A ) z } ||\hat{x}||=\min_{z\in{C^n}}\{A^+y+(I-A^+A)z\}

  • 定理:线性方程组 A m × n x = y A_{m\times{n}}x=y 唯一的极小范数最小二乘解是 x = A + y x=A^+y
    证明:
    z C n , A + y + ( I A + A ) z 2 = A + y 2 + ( I A + A ) z 2 + 2 R e { < A + y , ( I A + A ) z > } = A + y 2 + ( I A + A ) z 2 A + y 2 \forall{z}\in{C^n},\\\begin{aligned}&||A^+y+(I-A^+A)z||^2\\=&||A^+y||^2+||(I-A^+A)z||^2+2Re\{<A^+y,(I-A^+A)z>\}\\=&||A^+y||^2+||(I-A^+A)z||^2\\\geqslant{}&||A^+y||^2\end{aligned} 当且仅当 ( I A + A ) z = 0 (I-A^+A)z=0 时取等号,故A^+y是原方程唯一的极小范数最小二乘解。


总结

这篇博客用尽可能少的额外概念对广义逆矩阵作了一个大体的介绍,广义逆矩阵是描述线性方程组解的结构最有力的工具之一,故博客还利用广义逆矩阵提供了解决机器学习中的线性回归问题的一个途径。解决线性回归问题的另一个途径是最小化线性回归的代价函数:利用矩阵微积分可以证明使得代价函数最小的参数向量 x x 满足正规方程 A T A x = A T y A^TAx=A^Ty ,其中A是数据集的设计矩阵(每一行是一个样本的特征向量,每个样本的第一个特征均为1,即A的第一列都是1),y是标记向量。若A列满秩,则 x = ( A T A ) 1 A T y x=(A^TA)^{-1}A^Ty 。通常,如果不存在线性相关的特征列且样本数量大于特征数量的话,A就是列满秩的,故对于大多数情况 x = ( A T A ) 1 A T y x=(A^TA)^{-1}A^Ty 是可行的。

猜你喜欢

转载自blog.csdn.net/niu_123ming/article/details/82502991