SVD（Singular Value Decomposition）到底怎么“凑“出来的？

本文主要是记录个人的理解，关于数学定理部分可能不太严谨。如果问题，欢迎指正！

其它更多关于SVD的知识，可参考：

AMS :: Feature Column from the AMS

视频：矩阵分析之奇异值分解（SVD）

博客园：SVD（奇异值分解）小结

CSDN：矩阵论笔记：奇异值分解SVD(Singular Value Decomposition)以及应用总结！

文章目录

特征值分解

首先，从特征值分解说起。对于 $N$ 阶矩阵 $A$ ，有：
$v=\lambda v$
其中 $v$ 是矩阵 $A$ 的特征向量， $\lambda$ 是矩阵 $A$ 的特征值。

这个式子的一个重要含义：⭐特征向量被施以线性变换 $A$ 只会使向量伸长或缩短，而其方向不会改变。

$N$ 阶矩阵 $A$ 可分解成如下形式：——称为 对角化
$\Lambda Q^{-1}$
这里的： $Q$ 是由特征向量构成的矩阵； $\Lambda$ 是由特征值构成对角矩阵，与 $Q$ 的特征向量一一对应。

好了，现在只有方阵才能做特征值分解，那不是方阵怎么办？也能分解成这种形式吗？是的。

奇异值分解

接下来就是奇异值分解（Singular Value Decomposition）。

假设有矩阵 $A_{m \times n}$

Step1：转置相乘凑方阵

定理1：矩阵转置相乘一定得到对称矩阵

（很容易证明：假设 $B=A^{T}A$ ，则 $B^T = (A^T A)^T = A^T A = B$ ，得证）

所以有：
$AA^T \Rightarrow \text{是} m \times m \text{阶方阵} \\ C = A^TA \Rightarrow \text{是} n \times n \text{阶方阵} \tag{1}$

Step2：对称矩阵对角化

定理2：设 $A$ 为 $n$ 阶实对称矩阵，则必有正交矩阵 $P$ ，使 $P^{-1}AP=P^TAP=\Lambda$ ，其中 $\Lambda$ 是以 $A$ 的 $n$ 个特征值为对角元的对角矩阵。（同济第六版线性代数，第5章第4节，P128页定理5）

即，实对称矩阵一定可以对角化，一定可以写成 $A=P\Lambda P^{-1}$ 的形式，而且 $P$ 还可以单位化成正交矩阵的形式。假设 $P$ 单位化后的正交矩阵为 $Q$ ，正交矩阵满足 $Q^T=Q^{-1}$ ，所以有： $A=Q\Lambda Q^{-1} = Q\Lambda Q^{T}$ 。

所以有：
$B_{m\times m} = AA^T = U \Lambda U^{-1} = U_{m\times m} \Lambda_{m\times m} U_{m\times m}^{T} \\ C_{n\times n} = A^TA = V \Lambda V^{-1} = V_{n\times n} \Lambda_{n\times n} V_{n\times n}^T \tag{2}$
其中 $U$ 是 $\times m$ 阶的正交矩阵， $V$ 是 $\times n$ 阶的正交矩阵， $\Lambda$ 是特征值组成的对角矩阵。

Step3：特征值开平方根得奇异值

实数和矩阵的类比：

实数矩阵

$a$ $\Longleftrightarrow$ $A$

$b = a^2$ $\Longleftrightarrow$ $B = AA^T 或 A^TA$

$\pm \sqrt{b}$ $\Longleftrightarrow$ $A = 对 B 进行平方根分解$

$b=u^2\lambda$ $\Longleftrightarrow$ $\Lambda U^{T}$

$a=\pm \sqrt{u^2\lambda}=\pm u \sqrt{\lambda}$ $\Longleftrightarrow$ $A=U\cdot 对\Lambda进行平方根分解$

实数		矩阵
$a$	$\Longleftrightarrow$	$A$
$b = a^2$	$\Longleftrightarrow$	$B = AA^T 或 A^TA$
$\pm \sqrt{b}$	$\Longleftrightarrow$	$A = 对 B 进行平方根分解$
$b=u^2\lambda$	$\Longleftrightarrow$	$\Lambda U^{T}$
$a=\pm \sqrt{u^2\lambda}=\pm u \sqrt{\lambda}$	$\Longleftrightarrow$	$A=U\cdot 对\Lambda进行平方根分解$

$\Lambda$ 里的特征值是 $B ， C$ 的特征值，而 $B ， C$ 类似于是 $A$ 的“平方”，那我想要得到 $A$ 的特征值，就相当于要对 $\Lambda$ “开平方”，即要找到 $\Sigma$ ，使得：
$\Lambda = \Sigma^T\Sigma$
这其实就是矩阵的Cholesky分解法，又叫平方根分解法：

定理：若 $\in R^{n \times n}$ 对称正定，则存在一个对角元为正数的下三角矩阵 $\in R^{n \times n}$ ，使得 $A=LL^T$ 成立。

（如果 $A$ 是半正定的（semi-definite），也可以分解，不过这时候 $L$ 就不唯一了。）

对角矩阵 $\Lambda$ 显然是可以分解的，并且分解还不唯一，但是奇异值我们只取正的：

$\left[ \begin{matrix} \lambda_1 & & & \\ & \lambda_2 & & \\ & & \lambda_3 & \\ & & & \ddots \end{matrix} \right] = \left[ \begin{matrix} \sqrt{\lambda_1} & & & \\ & \sqrt{\lambda_2} & & \\ & & \sqrt{\lambda_3} & \\ & & & \ddots \end{matrix} \right] \left[ \begin{matrix} \sqrt{\lambda_1} & & & \\ & \sqrt{\lambda_2} & & \\ & & \sqrt{\lambda_3} & \\ & & & \ddots \end{matrix} \right]$

所以我们得到了：
$B_{m\times m} = AA^T = U \Lambda U^{-1} = U \Lambda U^{T} = U_{m\times m} \Sigma_{m\times n}^T \Sigma_{n\times m} U_{m\times m}^{T}\\ C_{n\times n} = A^TA = V \Lambda V^{-1} = V \Lambda V^T = V_{n\times n} \Sigma_{n\times m} \Sigma_{m\times n}^T V_{n\times n}^T \tag{3}$

Step4：插入正交矩阵凑形式

$U$ 和 $V$ 是正交矩阵，满足 $U^TU=I$ ， $V^TV = I$ ，所以有：
$B_{m\times m} = AA^T = U \Lambda U^{-1} = U \Lambda U^{T} = U \Sigma^T \Sigma U^{T} = (U_{m\times m} \Sigma_{m\times n}^T V_{n\times n}^T) (V_{n\times n} \Sigma_{n\times m} U_{m\times m}^{T}) \\ C_{n\times n} = A^TA = V \Lambda V^{-1} = V \Lambda V^T = V \Sigma \Sigma^T V^T = (V_{n\times n} \Sigma_{n\times m} U_{m\times m}^T) (U_{m\times m} \Sigma_{m\times n}^T V_{n\times n}^T) \tag{4}$
最后得到上面两个式子，由此可以看出：第一个式子左边括号即为 $A$ ，右边括号即为 $A^T$ ；第二个式子左边括号 $A^T$ ，右边括号为 $A$ 。所以我们得到的SVD分解为：
$A_{m \times n} = U_{m\times m} \Sigma_{m\times n}^T V_{n\times n}^T$
我们称 $U$ 为左奇异矩阵， $V$ 为右奇异矩阵。

(1)~(4)就是四个步骤的变化过程。

——完——