7.4.1 矩阵低秩近似、矩阵范数

矩阵低秩近似、矩阵范数

根据奇异值分解，秩为 $r$ 的任意矩阵 $A$ 可分解为 $r$ 个简单矩阵（秩为 $1$ ） $\sigma_i\mathbf{u}_i\mathbf{v}^T_i$ 之和，且 $\sigma_1\ge \sigma_2 \ge \cdots \sigma_r > 0$ ，按重要性排序，即 $A = U\Sigma V^T = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r$ 。如果我们用秩为 $k < r$ 的矩阵 $B$ 来最优近似矩阵 $A$ ，则 $B$ 为多少呢？大家猜测应该是 $B_k = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_k\mathbf{u}_k\mathbf{v}^T_k$ 即取 $A$ 前 $k$ 个主成分近似 $A$ ，这个就是 Eckart-Young-Mirsky 定理，称为矩阵低秩近似定理。

这里面有个问题是，矩阵 $B$ 最优近似矩阵 $A$ ，那如何度量两个矩阵相似度？我们度量向量相似度是利用向量范数，即 $\|\mathbf{a} - \mathbf{b} \|$ 越小则向量越相似。矩阵是一种变换，矩阵越相似则变换也越相似，即同一向量变换后的向量应该越相似，利用这个性质可以定义矩阵相似度。令 $\mathbf{x}_A = A\mathbf{x}$ ， $\mathbf{x}_B = B\mathbf{x}$ ，记 $\|A-B\|$ 为矩阵相似度度量，为实数，值越小矩阵越相似，称为矩阵 $A-B$ 范数，则
$\|A-B\| = \| \mathbf{x}_A - \mathbf{x}_B \| = \|A\mathbf{x}-B\mathbf{x}\|= \|(A-B)\mathbf{x}\|$

当 $\mathbf{x}=\mathbf{0}$ 是零向量时， $\|A-B\|$ 等于 $0$ ，即任意矩阵都完全相似，这显然不符合常识，故需对向量 $\mathbf{x}$ 进行限定。不失一般性，令 $\|\mathbf{x}\|=1$ 即 $\mathbf{x}$ 限定为单位向量。

向量 $(A-B)\mathbf{x}$ 的范数随单位向量 $\mathbf{x}$ 改变而改变，故应该采用 $(A-B)\mathbf{x}$ 最大范数来度量矩阵范数 $\|A-B\|$ 。

矩阵之差范数 $\|A-B\| = max_\mathbf{x} \|(A-B)\mathbf{x}\|$ ， $\mathbf{x}$ 为单位向量。

根据矩阵 $A-B = U\Sigma V^T$ 奇异值分解，得
$(A-B)\mathbf{x} = (U\Sigma V^T)\mathbf{x} \\ = (\sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r)\mathbf{x} \\ = \sigma_1\mathbf{u}_1\mathbf{v}^T_1\mathbf{x} +\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r\mathbf{x} \\ = (\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r$

由于 $\mathbf{u}_i$ 正交，故
$\|(A-B)\mathbf{x}\| = \|(\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r\| \\ = \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_1\mathbf{v}^T_r\mathbf{x})^2} \\ = \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2+\cdots+(\mathbf{v}^T_n\mathbf{x})^2} \\ = \sigma_1 \|\mathbf{x}\| \\ = \sigma_1$

所以矩阵之差范数 $\|A-B\| =\sigma_1$ ，即矩阵 $A-B$ 最大奇异值。

根据矩阵低秩近似定理， $A-B_k = \sigma_{k+1}\mathbf{u}_{k+1}\mathbf{v}^T_{k+1}+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r$ ，故 $\|A-B_k\| = \sigma_{k+1}$ 即最优近似矩阵 $B_k$ 与矩阵 $A$ 之差范数为 $\sigma_{k+1}$ ，对其它任意秩为 $k$ 的矩阵 $B$ 均有 $\|A-B\| \ge \|A-B_k\|$ 。

根据矩阵之差范数 $\|A-B\| = \sigma_1$ ，令矩阵 $B=\mathbf{O}$ 为零矩阵，得矩阵范数 $\|A\| =\sigma_1$ ，即矩阵 $A$ 最大奇异值。 根据范数定义，对任意单位向量 $\mathbf{v}$ 有 $\|A\mathbf{v}\| \le \|A\| = \sigma_1$ 成立，所以矩阵范数就是变换单位向量的最大长度， $\mathbf{v} = \mathbf{v}_1$ 时等号成立。

根据范数定义，范数具有如下性质：

齐次性：对任意实数 $k$ ， $\|kA\| = |k|\|A\|$ ；

范数相融性：对任意向量 $\mathbf{x}$ ，有 $\|A\mathbf{x}\| \le \|A\|\|\mathbf{x}\|$ 成立。

三角不等式： $\|A+B\| \le \|A\| + \|B\|$ 。

证：根据向量范数三角不等式，对任意单位向量 $\mathbf{x}$ ， $\|(A+B)\mathbf{x}\| = \|A\mathbf{x}+B\mathbf{x}\| \le \|A\mathbf{x}\| + \|B\mathbf{x}\|$ ，两边取范数得证。

矩阵乘积不等式： $\|AB\| \le \|A\|\|B\|$ 。

证：根据范数相融性，对任意单位向量 $\mathbf{x}$ ， $\|AB\mathbf{x}\| \le \|A\|\|B\mathbf{x}\|$ ，两边取范数得证。

范数还具有如下性质： $\|A^T\| = \|A\|；\|A^TA\| = \|AA^T\| = \|A\|^2$ ， $\|AA^{+}\|=\|A^{+}A\| = 1$ 。
任意正交矩阵 $U,V$ ，有 $\|U\| = 1；\|A\|=\|UA\|=\|AV\|=\|UAV\|$ 。

任意可逆矩阵 $A$ ，有 $\|A^{-1}\|=1/\sigma_n$ ，故 $\|A\|\|A^{-1}\|=\sigma_1/\sigma_n \ge 1$ ， $\|AA^{-1}\| = 1$ 。

根据 $\sigma_1 = \|A\| \ge \|A\mathbf{v}\|$ 可知最大奇异值或矩阵范数很大，大于矩阵任意列向量的长度和任意元素，取 $\mathbf{v} = \mathbf{e}_i$ 得 $\sigma_1 = \|A\| \ge \|A\mathbf{e}_i\| = \|\mathbf{a}_i\| \ge |a_{ji}|$ 。由于 $\|A^T\| = \|A\|$ 故最大奇异值或矩阵范数大于矩阵任意行向量的长度。

奇异值有个重要且有趣的结论：任意矩阵 $A$ 有 $\sigma^2_1+\cdots+\sigma^2_r = \sum_{ij} a^2_{ij}$ 即奇异值平方和等于所有元素平方和，这个相当于能量守恒定律，矩阵能量是为所有元素平方和（类似动能为速度平方），奇异值能量为奇异值平方和。因为 $r \ll mn$ 可知奇异值很大。
证：根据 $A^TA = V\Sigma^2 V^T$ 证明。
$A^TA= \left[ \begin{matrix} \mathbf{a^T_{1}}\mathbf{a_1} & \mathbf{a^T_{1}}\mathbf{a_2} \cdots, \mathbf{a^T_{1}}\mathbf{a_n}\\ \vdots \\ \mathbf{a^T_{n}}\mathbf{a_1} & \mathbf{a^T_{n}}\mathbf{a_2} \cdots, \mathbf{a^T_{n}}\mathbf{a_n} \end{matrix} \right]$
矩阵 $A^TA$ 对角元素之和为 $\mathbf{a^T_{1}}\mathbf{a_1} + \cdots + \mathbf{a^T_{n}}\mathbf{a_n} = \sum_{ij} a^2_{ij}$ 为所有元素平方和。由于矩阵对角元素之和很重要，为此定义矩阵的迹。
矩阵迹 方阵对角元素之和，记为 $tr A = \sum_i a_{ii}$ 。
矩阵迹重要性质：对同型方阵 $A,B$ ，有 $tr AB = tr BA$ 成立，这表明矩阵迹满足矩阵乘法交换律。
则 $tr (V\Sigma^2 V^T) = tr (V^TV\Sigma^2) = tr (\Sigma^2) = \sum_i \sigma^2_i$ ，故 $\sum_{ij} a^2_{ij} = \sum_i \sigma^2_i$ 得证。

现证 $tr AB = tr BA$ 。
$tr AB = \mathbf{a^T_{r1}}\mathbf{b_1} + \cdots + \mathbf{a^T_{rn}}\mathbf{b_n} = \sum_{ij} a_{ij}b_{ji}$

$tr BA = \mathbf{b^T_{r1}}\mathbf{a_1} + \cdots + \mathbf{b^T_{rn}}\mathbf{a_n} = \sum_{ij} b_{ij}a_{ji} = \sum_{ij} a_{ij}b_{ji} = tr AB$

根据对称矩阵谱分解定理 $S=Q \Lambda Q^T$ ，可得矩阵迹另一重要性质， $tr S = tr (Q\Lambda Q^T) = tr (Q^TQ\Lambda) = tr \Lambda = \sum_i \lambda_i$ 即对称矩阵的迹等于特征值之和。

7.4.1 矩阵低秩近似、矩阵范数

矩阵低秩近似、矩阵范数

猜你喜欢