本博客主要用于本人重新复习知识点，所有参考列在文尾。如有错误，希望一起交流。

基础知识

1. 奇异值分解

矩阵的 (完全) 奇异值分解： $\Sigma V^T$

其中 $A$ 为 $\times n$ 实矩阵； $U$ 和 $V$ 为正交矩阵； $\Sigma$ 为由降序排列的、非负的、对角线元素组成的对角矩阵。

正交矩阵： $UU^T = I$
对角矩阵： $\Sigma = diag(\sigma_1,...,\sigma_p)$

注意：A不要求是方阵，矩阵的奇异值分解可以看作是方阵对角化的推广。

2. 奇异值分解基本定理

任意给定一个实矩阵，其奇异值分解一定存在。 由下面的定理保证。

Thm 若 $A$ 为一 $\times n$ 实矩阵， $\in R^{m \times n}$ ，则 存在A的奇异值分解： $\Sigma V^T$ ，其中 $U$ 为 $m$ 阶正交矩阵， $V$ 为 $n$ 阶正交矩阵， $\Sigma$ 为 $\times n$ 矩阵，其对角线元素非负，且按降序排列。

证明可以用书上的构造法，也可以用数学归纳法等等。

3. 紧奇异值分解

矩阵 $A$ ： $\times n$ 实矩阵， $\le \min(m,n)$

$A$ 的紧奇异值分解: $U_r \Sigma_r V_r^T$

$U_r$ ( $\times r$ ) 完全奇异值分解中U的前r列
$V_r$ ( $\times r$ ) 完全奇异值分解中V的前r列
$\Sigma_r$ ( $\times r$ ) 完全奇异值分解中 $\Sigma$ 的前r个对角元素
$rank(\Sigma_r) = rank(A)$

应用：对数据进行压缩，将其近似表示，无损压缩。

4. 截断奇异值分解

实际应用中常用的：只取最大的 $k$ 个奇异值 ( $k < r$ ) 对应的部分。

$A$ 的截断奇异值分解: $\approx U_k \Sigma_k V_k^T$

应用：对数据进行压缩，将其近似表示，有损压缩。

5. 几何解释（线性变换的角度）

$\in \mathbb{R}^n \ \rightarrow \ Ax \in \mathbb{R}^m$ 其中 $A$ 表示从 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的一个线性变换，该线性变换可以分解为三个简单的变换（奇异值定理保证这种分解一定存在）： $\Sigma V^T$

$U$ 和 $V$ ：坐标系的旋转或者反射变换。原因： $V$ 是 $n$ 维空间的正交矩阵， $V=[v_1,v_2,...,v_n]$ ， $v_1,v_2,...,v_n$ 构成 $\mathbb{R}^n$ 中的一组标准正交基。表示 $\mathbb{R}^n$ 中的正交坐标系的旋转或者反射变换。
$\Sigma$ ：坐标轴的反射变换。原因：对角元素 $\sigma_1,...,\sigma_p$ 是非负实数，表示 $\mathbb{R}^n$ 中的原始正交坐标系坐标轴的 $\sigma_1,...,\sigma_p$ 倍缩放变换。

6. 主要性质

只提几点，其他的见书。

设 $U\Sigma V^T$ ，则有：
$A^TA = (U\Sigma V^T)^T(U\Sigma V^T) =V(\Sigma^T \Sigma)V^T$ $AA^T = (U\Sigma V^T)(U\Sigma V^T)^T=U(\Sigma\Sigma^T)U^T$ 表示 $A^TA$ 和 $AA^T$ 的特征分解存在，且可以由 $A$ 的奇异值分解的矩阵表示。（可以用来求矩阵的奇异值分解）
奇异值分解中，各部分关系： $\Sigma$ ，求奇异值分解 $U$ 矩阵会用到。
奇异值 $\sigma_1,...,\sigma_n$ 是唯一的，另外两个矩阵不唯一。

7. 奇异值分解的计算

主要通过求对称矩阵 $A^TA$ 的特征值和特征向量得到。该计算过程只为了说明计算过程，并不是实际应用中的算法。实际应用的奇异值分解算法是通过 $A^TA$ 的特征值进行，但不直接计算 $A^TA$ 。

8. 矩阵的最优近似

关于矩阵近似，本节SVD是其中的一种方法，它是在平方损失（佛罗贝尼乌斯范数， $F$ 范数）意义下对矩阵的最优近似，即数据压缩。

如何定义矩阵 $X$ 是矩阵 $A$ 在 $F$ 范数下的最优近似 ==> 定理15.2

如何通过矩阵 $A$ 的奇异值分解求出近似矩阵 $X$

定理保证 ==> 15.3
利用 $A$ 的外积展开可以求得X
$\begin{aligned} A &= U \Sigma V^T \\ &= (U \Sigma)(V^T) \\ &=[\sigma_1 u_1 \ \ \sigma_2 u_2 \ \ ... \ \ \sigma_n u_n \ ] [v_1^T \ \ v_2^T \ \ ... \ \ v_n^T]^T \\ &= \sigma_1 u_1v_1^T + ... + \sigma_n u_nv_n^T \end{aligned}$ 一般的，设矩阵 $A_k = \sigma_1 u_1v_1^T + ... + \sigma_k u_k v_k^T$ ， $A_k$ 的秩为 $k$ ，且它是在秩为 $k$ 的矩阵中在 $F$ 范数意义下 $A$ 的最有近似矩阵。（ $A_k$ 就是 $A$ 的截断奇异值分解）。由于通常奇异值 $\sigma_i$ 递减很快，所以 k 取很小值时， $A_k$ 对 $A$ 有很好的近似。

应用

后面章节继续补充

PCA
图像去噪
推荐系统
由SLAM对极约束里的本质矩阵求得相机姿态变化

Python 实现

Python 中可以使用numpy 包的 linalg.svd() 来求解 SVD

参考

李航，统计机器学习方法（第二版），2019：271 - 292.
应用：https://www.zhihu.com/question/31167170
python代码：https://blog.csdn.net/kbccs/article/details/82590032

统计学习方法03-15 奇异值分解 (SVD)

目录