7.2 伪逆和线性方程 $A\mathbf{x}=\mathbf{b}$

矩阵 $4$ 个空间的正交基

1、根据 $A\mathbf{v}_i = \sigma_i\mathbf{u}_i$ ，大于零的奇异值 $\sigma_i > 0$ 对应的左奇异向量 $\mathbf{u}_1,\cdots,\mathbf{u}_r$ 是矩阵 $A$ 列空间的正交基；

2、根据 $A^T\mathbf{u}_i = \sigma_i\mathbf{v}_i$ ，等于零的奇异值 $\sigma_i = 0$ 对应的左奇异向量 $\mathbf{u}_{r+1},\cdots,\mathbf{u}_m$ 是矩阵 $A$ 左零空间的正交基；

3、根据 $A^T\mathbf{u}_i = \sigma_i\mathbf{v}_i$ ，大于零的奇异值 $\sigma_i > 0$ 对应的右奇异向量 $\mathbf{v}_1,\cdots,\mathbf{v}_r$ 是矩阵 $A$ 行空间的正交基；

4、根据 $A\mathbf{v}_i = \sigma_i\mathbf{u}_i$ ，等于零的奇异值 $\sigma_i = 0$ 对应的右奇异向量 $\mathbf{v}_{r+1},\cdots,\mathbf{v}_n$ 是矩阵 $A$ 零空间的正交基。

伪逆

根据 $A\mathbf{v}_i = \sigma_i\mathbf{u}_i$ ，矩阵 $A$ 把解空间 $R^n$ 中的正交基 $\mathbf{v}_i$ 变换为列空间 $R^m$ 的向量 $\sigma_i\mathbf{u}_i$ ，如果存在矩阵 $B$ 能把列空间 $R^m$ 的向量 $\sigma_i\mathbf{u}_i$ 变换为 $R^n$ 空间中的正交基 $\mathbf{v}_i$ ，则矩阵 $B$ 就是矩阵 $A$ 的逆变换！即 $B\sigma_i\mathbf{u}_i = \mathbf{v}_i$ 则 $B\mathbf{u}_i = 1/\sigma_i \mathbf{v}_i = \sigma'_i \mathbf{v}_i$ ，所以有 $B = \sigma'_1\mathbf{v}_1\mathbf{u}^T_1+\cdots+\sigma'_r\mathbf{v}_r\mathbf{u}^T_r = V\Sigma^{+} U^T$ ，注意矩阵 $\Sigma^{+}$ 尺寸为 $(n,m)$ ，并不是对角阵，但其前 $(r,r)$ 子矩阵 $\Sigma^{+}_r$ 是对角阵，对角元素为 $1/\sigma_i > 0$ ，矩阵其它元素均为 $0$ 。矩阵 $B=V\Sigma^{+} U^T$ 称为矩阵 $A=U\Sigma V^T$ 的伪逆，记为 $A^{+}$ 或称为加号逆，或Moore-Penrose逆。

通解结构

方程 $A\mathbf{x}=\mathbf{b}$ 的特解可表示为 $\mathbf{x}_p=A^{+}\mathbf{b}$ ，零解为 $\mathbf{v}_{r+1},\cdots,\mathbf{v}_n$ ，故通解为
$\mathbf{x} = \mathbf{x}_p + \mathbf{x}_z = A^{+}\mathbf{b} + (k_1\mathbf{v}_{r+1} + \cdots + k_{n-r}\mathbf{v}_n),k_i是任意实数$

向量 $\mathbf{b}$ 进行正交分解得 $\mathbf{b} = \mathbf{u}_1\mathbf{u}^T_1\mathbf{b} + \cdots + \mathbf{u}_m\mathbf{u}^T_m\mathbf{b} = b^U_1\mathbf{u}_1 + \cdots + b^U_m\mathbf{u}_m = U diag(b^U_1,\cdots,b^U_m),其中 b^U_i = \mathbf{u}^T_i\mathbf{b}为在坐标系 U下的坐标分量$ ，代入特解公式得
$\mathbf{x}_p=A^{+}\mathbf{b}\\ =V\Sigma^{+} U^TU diag(b^U_1,\cdots,b^U_m)\\ =V\Sigma^{+} diag(b^U_1,\cdots,b^U_m) \\ =b^U_1/\sigma_1\mathbf{v}_1 + \cdots + b^U_r/\sigma_r\mathbf{v}_r$

故通解为
$\mathbf{x} = \mathbf{x}_p + \mathbf{x}_z = b^U_1/\sigma_1\mathbf{v}_1 + \cdots + b^U_r/\sigma_r\mathbf{v}_r + (k_1\mathbf{v}_{r+1} + \cdots + k_{n-r}\mathbf{v}_n),b_i= \mathbf{u}^T_i\mathbf{b}为坐标分量,k_i是任意实数$

上述通解结构和矩阵 $A$ 为满秩矩阵时的解结构一致，下面论述。

1、当矩阵 $A$ 是方阵且可逆时即 $r = rank A = m = n$ ，根据 $A=U\Sigma V^T$ 知矩阵 $\Sigma$ 可逆，故对角元素均大于零，则 $A^{-1} = (U\Sigma V^T)^{-1} = V \Sigma^{-1} U^T$ ，矩阵 $\Sigma^{-1}$ 对角元素为 $1/\sigma_i$ ，等于矩阵 $\Sigma^{+}$ ，故 $A^{-1} = A^{+}$ 。

2、当矩阵 $A$ 是列满秩矩阵时即 $r = rank A = n < m$ ，左逆 $A^{-1}_L = (A^TA)^{-1}A^T = [(U\Sigma V^T)^TU\Sigma V^T]^{-1}(U\Sigma V^T)^T = (V\Sigma U^TU\Sigma V^T)^{-1}(V\Sigma U^T)=(V\Sigma^2 V^T)^{-1}(V\Sigma U^T)= V\Sigma^{-2} V^TV\Sigma U^T=V\Sigma^{-2} \Sigma U^T=V\Sigma^{-1} U^T$ ，故 $A^{-1}_L = A^{+}$ ，又 $r = n$ 故不存在零解。

3、当矩阵 $A$ 是行满秩矩阵时即 $r = rank A = m < n$ ，右逆 $A^{-1}_R = A^T(AA^T)^{-1} = (U\Sigma V^T)^T[U\Sigma V^T(U\Sigma V^T)^T]^{-1} = (V\Sigma U^T)(U\Sigma V^TV\Sigma U^T)^{-1}=(V\Sigma U^T)(U\Sigma^2 U^T)^{-1}= V\Sigma U^TU\Sigma^{-2} U^T=V\Sigma\Sigma^{-2} U^T=V\Sigma^{-1}U^T$ ，故 $A^{-1}_R = A^{+}$ ，又 $r = m < n$ 故存在零解。

当矩阵 $A$ 为秩亏矩阵时即 $r = rank A < (m,n)$ ，研究下特解 $\mathbf{x}_p=A^{+}\mathbf{b}$ 具有什么性质？

$AA^{+} = (U\Sigma V^T)(V\Sigma^{+} U^T)=U\Sigma \Sigma^{+} U^T = U_rU_r^T = \mathbf{u}_1\mathbf{u}^T_1 + \cdots + \mathbf{u}_r\mathbf{u}^T_r \\ A\mathbf{x}_p = A(A^{+}\mathbf{b}) = (\mathbf{u}_1\mathbf{u}^T_1 + \cdots + \mathbf{u}_r\mathbf{u}^T_r)\mathbf{b} = \mathbf{u}_1\mathbf{u}^T_1\mathbf{b} + \cdots + \mathbf{u}_r\mathbf{u}^T_r\mathbf{b} \\$

故 $A\mathbf{x}_p$ 是向量 $\mathbf{b}$ 在空间 $\mathbf{u}_1,\cdots,\mathbf{u}_r$ 的投影，空间 $\mathbf{u}_1,\cdots,\mathbf{u}_r$ 就是矩阵 $A$ 列空间，所以 $A\mathbf{x}_p$ 就是向量 $\mathbf{b}$ 在矩阵 $A$ 列空间的投影即 $A\mathbf{x}_p = \mathbf{b}_p$ ，矩阵 $P=AA^{+}$ 是投影矩阵，解 $A^{+}\mathbf{b}$ 是最小二乘解。

又因为向量 $\mathbf{b}$ 在列空间进行正交分解得
$\mathbf{b} = \mathbf{u}_1\mathbf{u}^T_1\mathbf{b} + \cdots + \mathbf{u}_m\mathbf{u}^T_m\mathbf{b}$

所以残差向量为 $\mathbf{b} - \mathbf{b}_p = \mathbf{u}_{r+1}\mathbf{u}^T_{r+1}\mathbf{b} + \cdots + \mathbf{u}_m\mathbf{u}^T_m\mathbf{b}$ ，其范数为 $\| \mathbf{b} - \mathbf{b}_p \| = \sqrt{(\mathbf{u}^T_{r+1}\mathbf{b})^2 + \cdots + (\mathbf{u}^T_m\mathbf{b})^2}$ 。

又因为

$\mathbf{x}_p = A^{+}\mathbf{b} = (\sigma'_1\mathbf{v}_1\mathbf{u}^T_1+\cdots+\sigma'_r\mathbf{v}_r\mathbf{u}^T_r)\mathbf{b} = \sigma'_1\mathbf{v}_1\mathbf{u}^T_1\mathbf{b}+\cdots+\sigma'_r\mathbf{v}_r\mathbf{u}^T_r\mathbf{b} = k_1\mathbf{v}_1+\cdots+k_r\mathbf{v}_r \\ k_i = \sigma'_i\mathbf{u}^T_i\mathbf{b} = \mathbf{u}^T_i\mathbf{b}/\sigma_i$
即特解 $\mathbf{x}_p$ 位于空间 $\mathbf{v}_1,\cdots,\mathbf{v}_r$ ，垂直于矩阵 $A$ 的零空间 $\mathbf{v}_{r+1},\cdots,\mathbf{v}_n$ ，所以特解 $\mathbf{x}_p$ 是最小范数解。

故特解 $A^{+}\mathbf{b}$ 是最小范数最小二乘解，具有极好的性质。

因为
$A^{+}A = (V\Sigma^{+} U^T)(U\Sigma V^T)=V\Sigma \Sigma^{+} V^T = V_rV_r^T = \mathbf{v}_1\mathbf{v}^T_1 + \cdots + \mathbf{v}_r\mathbf{v}^T_r \\ E-A^{+}A = V_nV_n^T - V_rV_r^T = \mathbf{v}_{r+1}\mathbf{v}^T_{r+1} + \cdots + \mathbf{v}_n\mathbf{v}^T_n$
$AA^{+} = U_rU_r^T = \mathbf{u}_1\mathbf{u}^T_1 + \cdots + \mathbf{u}_r\mathbf{u}^T_r \\ E-AA^{+} = U_mU_m^T - U_rU_r^T = \mathbf{u}_{r+1}\mathbf{u}^T_{r+1} + \cdots + \mathbf{u}_m\mathbf{u}^T_m$

矩阵 $P=A^{+}A$ 是向矩阵 $A$ 的行空间投影，矩阵 $P=AA^{+}$ 是向矩阵 $A$ 的列空间投影。 $E-A^{+}A$ 是零空间映射矩阵， $E-AA^{+}$ 是列空间残差映射矩阵。

故方程零解也可表示为
$\mathbf{x}_z = (E-A^{+}A)\mathbf{a} \\ \mathbf{a} 是任意向量$
方程 $A\mathbf{x}=\mathbf{b}$ 通解也可表示为
$\mathbf{x} = \mathbf{x}_p + \mathbf{x}_z = A^{+}\mathbf{b} + (E-A^{+}A)\mathbf{a} \\ \mathbf{a} 是任意向量$
或
$\mathbf{x} = \mathbf{x}_p + \mathbf{x}_z = A^{+}\mathbf{b} + (k_1\mathbf{v}_{r+1} + \cdots + k_{n-r}\mathbf{v}_n),k_i是任意实数$

特解的数值稳定性和正则化

$\mathbf{x}_p = A^{+}\mathbf{b} = V\Sigma^{+} U^T \mathbf{b}= (1/\sigma_1\mathbf{v}_1\mathbf{u}^T_1+\cdots+1/\sigma_r\mathbf{v}_r\mathbf{u}^T_r) \mathbf{b}$

可见当奇异值 $\sigma_i$ 趋近 $0$ 时， $1/\sigma_i$ 趋近无穷大，导致特解数值变得无穷大，数值不稳定。 $\sigma_i$ 趋近 $0$ 对应的分量 $\sigma_i\mathbf{u}_i\mathbf{v}^T_i$ 占矩阵 $A$ 的比例很小，主要由误差造成的，理论上应该等于 $0$ ，所以希望 $1/\sigma_i$ 趋近 $0$ ，这可以采用第五章介绍的阻尼倒数法处理，此时 $\mathbf{v}_i$ 应该作为一个零解。

第五章解释了正则化解为 $\mathbf{\hat{x}_\lambda}=(A^TA+\lambda E)^{-1}A^T\mathbf{b}$ ，采用矩阵 $A=U\Sigma V^T$ 代入上式，可以看到本质，注意矩阵 $A$ 是列满秩矩阵。

$\mathbf{\hat{x}_\lambda}=(V\Sigma^2 V^T+\lambda VEV^T)^{-1}V\Sigma U^T \mathbf{b} \\ = (V(\Sigma^2+\lambda E)V^T)^{-1}V\Sigma U^T \mathbf{b} \\ = V(\Sigma^2+\lambda E)^{-1}V^TV\Sigma U^T \mathbf{b} \\ = V(\Sigma^2+\lambda E)^{-1}\Sigma U^T \mathbf{b} \\ = (\frac{\sigma_1}{\sigma^2_1+\lambda}\mathbf{v}_1\mathbf{u}^T_1+\cdots+\frac{\sigma_n}{\sigma^2_n+\lambda}\mathbf{v}_n\mathbf{u}^T_n)\mathbf{b}$

与无正则化解 $\mathbf{\hat{x}_0} = 1/\sigma_1\mathbf{v}_1\mathbf{u}^T_1+\cdots+1/\sigma_n\mathbf{v}_n\mathbf{u}^T_n$ 对比，发现正则化就是 $\frac{1}{\sigma_i}$ 变换为 $\frac{\sigma_i}{\sigma^2_i+\lambda}$ ，就是阻尼倒数法！且对所有的奇异值采用相同的参数 $\lambda$ 。

但必须指出，奇异值 $\sigma_r$ 趋近 $0$ 时不一定会导致解的数值不稳定，
根据通解为
$\mathbf{x} = \mathbf{x}_p + \mathbf{x}_z = b^U_1/\sigma_1\mathbf{v}_1 + \cdots + b^U_r/\sigma_r\mathbf{v}_r + (k_1\mathbf{v}_{r+1} + \cdots + k_{n-r}\mathbf{v}_n),b^U_i = \mathbf{u}^T_i\mathbf{b}为在坐标系 U 下的坐标分量,k_i是任意实数$
如果此时有 $b^U_r=0$ ，则解还是稳定的。即向量 $\mathbf{b}$ 在很小奇异值 $\sigma_u$ 对应的奇异向量 $\mathbf{u}_i$ 的坐标分量也很小时，此时 $b^U_i/\sigma_i$ 是个有限值，则解稳定。

伪逆性质

先把前面重要性质罗列如下：
矩阵奇异值分解 $A = U\Sigma V^T=\sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r,r=rank A,U,V是正交矩阵，\Sigma是伪对角阵，\sigma_1 \ge \sigma_2 \ge \cdots \ge \sigma_r > 0$ 。
$A^{+} = V\Sigma^{+} U^T=1/\sigma_1\mathbf{v}_1\mathbf{u}^T_1+\cdots+1/\sigma_r\mathbf{v}_r\mathbf{u}^T_r \\ A^T = V\Sigma U^T = \sigma_1\mathbf{v}_1\mathbf{u}^T_1+\cdots+\sigma_r\mathbf{v}_r\mathbf{u}^T_r \\ A^{+}A = V_rV_r^T = \mathbf{v}_1\mathbf{v}^T_1 + \cdots + \mathbf{v}_r\mathbf{v}^T_r \\ AA^{+} = U_rU_r^T = \mathbf{u}_1\mathbf{u}^T_1 + \cdots + \mathbf{u}_r\mathbf{u}^T_r \\ A^TA = V\Sigma^2 V^T = \sigma^2_1\mathbf{v}_1\mathbf{v}^T_1 + \cdots + \sigma^2_r\mathbf{v}_r\mathbf{v}^T_r \\ AA^T = U\Sigma^2 U^T = \sigma^2_1\mathbf{u}_1\mathbf{u}^T_1 + \cdots + \sigma^2_r\mathbf{u}_r\mathbf{u}^T_r \\$

当 $r = m = n$ 即矩阵 $A$ 可逆时， $A^{+} = A^{-}$ 。
当 $r = n < m$ 即矩阵 $A$ 列满秩时， $A^{+} = (A^TA)^{-1}A^T$ 。
当 $r = m < n$ 即矩阵 $A$ 行满秩时， $A^{+} = A^T(AA^T)^{-1}$ 。
矩阵 $D=diag(d_1,\cdots,d_n)$ 是对角阵时，则 $D^{+} = diag(d^{+}_1,\cdots,d^{+}_n)$ 其中 $d^{+}_i = 1/d_i \quad for \quad d_i \ne 0 \quad else \quad 0$

伪逆还具有如下性质：
$AA^{+}A = A\\ A^{+}AA^{+} = A^{+}\\ (A^{+}A)^T=A^{+}A\\ (AA^{+})^T=AA^{+}\\$
通过这四个性质可以定义伪逆，或者说伪逆 $A^{+}$ 由这四个性质唯一定义，这四个性质称为 Moore-Penrose方程。

$(A^{+})^{+}=A \\ (A^T)^{+}=(A^{+})^T=A^{+T} \\ (A^TA)^{+} = A^{+}(A^T)^{+} \\ rank A = rank A^{+} = rank A^{+}A = rank AA^{+}\\ A^{+} = (A^TA)^{+}A^T = A^T(AA^T)^{+} \\$

这些性质通过简单的计算即可验证，可见伪逆 $A^{+}$ 和逆矩阵 $A^{-1}$ 性质很近似，但特别注意不成立 $(AB)^{+} \ne B^{+}A^{+}$ 。

**对任意矩阵，伪逆存在且唯一。**这个性质十分好，这保证任意线性方程都存在最小范数最小二乘解。对比下，只有矩阵的列向量组是基时，逆才存在且唯一；只有矩阵的列向量组是无关组时，左逆才存在但不唯一；只有矩阵的行向量组是无关组时，右逆才存在但不唯一。伪逆存在性由对称矩阵谱分解定理保证，唯一性由Moore-Penrose方程保证，具体证明方法从略。

根据 $AA^{+}A = A$ 得 $AA^{+}\mathbf{a}_i = \mathbf{a}_i$ ，又因为 $AA^{+} = U_rU^T_r$ 得 $U_rU^T_r\mathbf{a}_i = \mathbf{a}_i$ 即矩阵 $A$ 列向量都位于子空间 $U_r$ 。