前面已经对SVD进行了推导，但自己一直理解不够深入，知道看了Strang教授的视频才恍然大悟。

思考

子空间

这里，我们回到四个基本子空间。我们可以在行空间（row space）中找到一组标准正交基（这很容易），将其进行映射后（通过 $A$ ），转化为列空间（column space）中的标准正交基。也就是说，在行空间中的 $V_1$ ，通过 $AV_1$ 转化为列空间中的 $U_1$ ：

$A V_{1} = σ_{1} U_{1}$ $AV_1 = \sigma_1 U_1$

其中 $\sigma_1$ 为伸缩因子。
将所有行空间和列空间中的标准正交基写成矩阵的形式：

$A (V_{1}, . . ., V_{r}) = (U_{1}, . . ., U_{r}) d i a g (σ_{1}, . . ., σ_{r})$ $A(V_1,...,V_r) = (U_1,...,U_r)diag(\sigma_1,...,\sigma_r)$

扫描二维码关注公众号，回复： 1069713 查看本文章

其中， $r$ 表示矩阵的秩。
我们很容易将其扩充为整个行空间和列空间：

$A (V_{1}, . . ., V_{r}, V_{r + 1}, . . . . V_{m}) = (U_{1}, . . ., U_{r}, U_{r + 1}, . . ., U_{n}) d i a g (σ_{1}, . . ., σ_{r}, 0, . . ., 0)$ $A(V_1,...,V_r,V_{r+1},....V_m) = (U_1,...,U_r,U_{r+1},...,U_n)diag(\sigma_1,...,\sigma_r,0,...,0)$
其中，扩充的基向量来源于零空间和左零空间（这很容易）。

这样，我们整理一下就得到：

$A V = U \sum$ $A V=U\sum$

$A = U \sum V^{- 1} = U \sum V^{T}$ $A = U\sum V^{-1} = U\sum V^T$
这就是SVD分解：我们需要在行空间和列空间中找到两组不同的基，并且这两组基可以通过 $A$ 相互转换。
然而，这还不够。我们不知道如何求得 $U$ 和 $V$ 。最常见的想法就是：我们把一个变量消去，只保留一个变量，这样就容易求解了。
幸运的是，这很容易，考虑：

$A^{T} A = V \sum^{T} U^{T} U \sum V = V \sum^{2} V^{T} = V d i a g (σ_{1}^{2}, . . .) V^{T}$ $A^TA = V\sum^TU^TU\sum V = V\sum^2V^T = V diag(\sigma_1^2,...)V^T$

我们发现，在 $A^TA$ 这个对称矩阵中， $V$ 就是其特征值，而它的所有非零特征向量都是正的，因此这个矩阵是半正定的。
可以对 $AA^T$ 同样进行求解求得 $U$ 。
我们发现，尽管 $A$ 是任意矩阵，但 $A^TA$ 和 $AA^T$ 很特殊，并且可以通过求其的特征向量来对 $A$ 进行奇异值分解。
实际上， $A^TA$ 和 $AA^T$ 还有更为特殊的关系（特征值相同等等），严格的推导可以参考我这篇博客。

其实SVD没什么特别的，就是我们对于实对称矩阵的推广。

经过分析，我们发现在列空间和行空间中找到一组基，可以使得任意矩阵分解成 $A = U\sum V^T$ 的形式。

并且，求解 $U$ 和 $V$ 并不复杂，与 $AA^T$ 和 $A^TA$ 有关。

在求解时，先求 $AA^T$ 的特征值和特征向量，其特征向量单位化后就是 $U$ 的前r列，再将其扩充到左零空间；同样，求 $A^TA$ 的特征向量，单位化后就是 $V$ 的前r列，再将其扩充到零空间；填充 $\sum$ ，即可求解。