7.4.1 矩阵低秩近似、矩阵范数

矩阵低秩近似、矩阵范数

根据奇异值分解,秩为 r r 的任意矩阵 A A 可分解为 r r 个简单矩阵(秩为 1 1 σ i u i v i T \sigma_i\mathbf{u}_i\mathbf{v}^T_i 之和,且 σ 1 σ 2 σ r > 0 \sigma_1\ge \sigma_2 \ge \cdots \sigma_r > 0 ,按重要性排序,即 A = U Σ V T = σ 1 u 1 v 1 T + + σ r u r v r T A = U\Sigma V^T = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r 。如果我们用秩为 k < r k < r 的矩阵 B B 来最优近似矩阵 A A ,则 B B 为多少呢?大家猜测应该是 B k = σ 1 u 1 v 1 T + + σ k u k v k T B_k = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_k\mathbf{u}_k\mathbf{v}^T_k 即取 A A k k 个主成分近似 A A ,这个就是 Eckart-Young-Mirsky 定理,称为矩阵低秩近似定理。

这里面有个问题是,矩阵 B B 最优近似矩阵 A A ,那如何度量两个矩阵相似度?我们度量向量相似度是利用向量范数,即 a b \|\mathbf{a} - \mathbf{b} \| 越小则向量越相似。矩阵是一种变换,矩阵越相似则变换也越相似,即同一向量变换后的向量应该越相似,利用这个性质可以定义矩阵相似度。令 x A = A x \mathbf{x}_A = A\mathbf{x} x B = B x \mathbf{x}_B = B\mathbf{x} ,记 A B \|A-B\| 为矩阵相似度度量,为实数,值越小矩阵越相似,称为矩阵 A B A-B 范数,则
A B = x A x B = A x B x = ( A B ) x \|A-B\| = \| \mathbf{x}_A - \mathbf{x}_B \| = \|A\mathbf{x}-B\mathbf{x}\|= \|(A-B)\mathbf{x}\|

x = 0 \mathbf{x}=\mathbf{0} 是零向量时, A B \|A-B\| 等于 0 0 ,即任意矩阵都完全相似,这显然不符合常识,故需对向量 x \mathbf{x} 进行限定。不失一般性,令 x = 1 \|\mathbf{x}\|=1 x \mathbf{x} 限定为单位向量。

向量 ( A B ) x (A-B)\mathbf{x} 的范数随单位向量 x \mathbf{x} 改变而改变,故应该采用 ( A B ) x (A-B)\mathbf{x} 最大范数来度量矩阵范数 A B \|A-B\|

矩阵之差范数 A B = m a x x ( A B ) x \|A-B\| = max_\mathbf{x} \|(A-B)\mathbf{x}\| x \mathbf{x} 为单位向量。

根据矩阵 A B = U Σ V T A-B = U\Sigma V^T 奇异值分解,得
( A B ) x = ( U Σ V T ) x = ( σ 1 u 1 v 1 T + + σ r u r v r T ) x = σ 1 u 1 v 1 T x + + σ r u r v r T x = ( σ 1 v 1 T x ) u 1 + + ( σ r v r T x ) u r (A-B)\mathbf{x} = (U\Sigma V^T)\mathbf{x} \\ = (\sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r)\mathbf{x} \\ = \sigma_1\mathbf{u}_1\mathbf{v}^T_1\mathbf{x} +\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r\mathbf{x} \\ = (\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r

由于 u i \mathbf{u}_i 正交,故
( A B ) x = ( σ 1 v 1 T x ) u 1 + + ( σ r v r T x ) u r = ( σ 1 v 1 T x ) 2 + + ( σ r v r T x ) 2 ( σ 1 v 1 T x ) 2 + + ( σ 1 v r T x ) 2 = σ 1 ( v 1 T x ) 2 + + ( v r T x ) 2 σ 1 ( v 1 T x ) 2 + + ( v r T x ) 2 + + ( v n T x ) 2 = σ 1 x = σ 1 \|(A-B)\mathbf{x}\| = \|(\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r\| \\ = \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_1\mathbf{v}^T_r\mathbf{x})^2} \\ = \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2+\cdots+(\mathbf{v}^T_n\mathbf{x})^2} \\ = \sigma_1 \|\mathbf{x}\| \\ = \sigma_1

所以矩阵之差范数 A B = σ 1 \|A-B\| =\sigma_1 ,即矩阵 A B A-B 最大奇异值。

根据矩阵低秩近似定理, A B k = σ k + 1 u k + 1 v k + 1 T + + σ r u r v r T A-B_k = \sigma_{k+1}\mathbf{u}_{k+1}\mathbf{v}^T_{k+1}+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r ,故 A B k = σ k + 1 \|A-B_k\| = \sigma_{k+1} 即最优近似矩阵 B k B_k 与矩阵 A A 之差范数为 σ k + 1 \sigma_{k+1} ,对其它任意秩为 k k 的矩阵 B B 均有 A B A B k \|A-B\| \ge \|A-B_k\|

根据矩阵之差范数 A B = σ 1 \|A-B\| = \sigma_1 ,令矩阵 B = O B=\mathbf{O} 为零矩阵,得矩阵范数 A = σ 1 \|A\| =\sigma_1 ,即矩阵 A A 最大奇异值。 根据范数定义,对任意单位向量 v \mathbf{v} A v A = σ 1 \|A\mathbf{v}\| \le \|A\| = \sigma_1 成立,所以矩阵范数就是变换单位向量的最大长度, v = v 1 \mathbf{v} = \mathbf{v}_1 时等号成立。

根据范数定义,范数具有如下性质:

齐次性:对任意实数 k k k A = k A \|kA\| = |k|\|A\|

范数相融性:对任意向量 x \mathbf{x} ,有 A x A x \|A\mathbf{x}\| \le \|A\|\|\mathbf{x}\| 成立。

三角不等式: A + B A + B \|A+B\| \le \|A\| + \|B\|

证:根据向量范数三角不等式,对任意单位向量 x \mathbf{x} ( A + B ) x = A x + B x A x + B x \|(A+B)\mathbf{x}\| = \|A\mathbf{x}+B\mathbf{x}\| \le \|A\mathbf{x}\| + \|B\mathbf{x}\| ,两边取范数得证。

矩阵乘积不等式: A B A B \|AB\| \le \|A\|\|B\|

证:根据范数相融性,对任意单位向量 x \mathbf{x} A B x A B x \|AB\mathbf{x}\| \le \|A\|\|B\mathbf{x}\| ,两边取范数得证。

范数还具有如下性质: A T = A A T A = A A T = A 2 \|A^T\| = \|A\|;\|A^TA\| = \|AA^T\| = \|A\|^2 A A + = A + A = 1 \|AA^{+}\|=\|A^{+}A\| = 1
任意正交矩阵 U , V U,V ,有 U = 1 A = U A = A V = U A V \|U\| = 1;\|A\|=\|UA\|=\|AV\|=\|UAV\|

任意可逆矩阵 A A ,有 A 1 = 1 / σ n \|A^{-1}\|=1/\sigma_n ,故 A A 1 = σ 1 / σ n 1 \|A\|\|A^{-1}\|=\sigma_1/\sigma_n \ge 1 A A 1 = 1 \|AA^{-1}\| = 1

根据 σ 1 = A A v \sigma_1 = \|A\| \ge \|A\mathbf{v}\| 可知最大奇异值或矩阵范数很大,大于矩阵任意列向量的长度和任意元素,取 v = e i \mathbf{v} = \mathbf{e}_i σ 1 = A A e i = a i a j i \sigma_1 = \|A\| \ge \|A\mathbf{e}_i\| = \|\mathbf{a}_i\| \ge |a_{ji}| 。由于 A T = A \|A^T\| = \|A\| 故最大奇异值或矩阵范数大于矩阵任意行向量的长度。

奇异值有个重要且有趣的结论:任意矩阵 A A σ 1 2 + + σ r 2 = i j a i j 2 \sigma^2_1+\cdots+\sigma^2_r = \sum_{ij} a^2_{ij} 即奇异值平方和等于所有元素平方和,这个相当于能量守恒定律,矩阵能量是为所有元素平方和(类似动能为速度平方),奇异值能量为奇异值平方和。因为 r m n r \ll mn 可知奇异值很大。
证:根据 A T A = V Σ 2 V T A^TA = V\Sigma^2 V^T 证明。
A T A = [ a 1 T a 1 a 1 T a 2 , a 1 T a n a n T a 1 a n T a 2 , a n T a n ] A^TA= \left[ \begin{matrix} \mathbf{a^T_{1}}\mathbf{a_1} & \mathbf{a^T_{1}}\mathbf{a_2} \cdots, \mathbf{a^T_{1}}\mathbf{a_n}\\ \vdots \\ \mathbf{a^T_{n}}\mathbf{a_1} & \mathbf{a^T_{n}}\mathbf{a_2} \cdots, \mathbf{a^T_{n}}\mathbf{a_n} \end{matrix} \right]
矩阵 A T A A^TA 对角元素之和为 a 1 T a 1 + + a n T a n = i j a i j 2 \mathbf{a^T_{1}}\mathbf{a_1} + \cdots + \mathbf{a^T_{n}}\mathbf{a_n} = \sum_{ij} a^2_{ij} 为所有元素平方和。由于矩阵对角元素之和很重要,为此定义矩阵的迹。
矩阵迹 方阵对角元素之和,记为 t r A = i a i i tr A = \sum_i a_{ii}
矩阵迹重要性质:对同型方阵 A , B A,B ,有 t r A B = t r B A tr AB = tr BA 成立,这表明矩阵迹满足矩阵乘法交换律
t r ( V Σ 2 V T ) = t r ( V T V Σ 2 ) = t r ( Σ 2 ) = i σ i 2 tr (V\Sigma^2 V^T) = tr (V^TV\Sigma^2) = tr (\Sigma^2) = \sum_i \sigma^2_i ,故 i j a i j 2 = i σ i 2 \sum_{ij} a^2_{ij} = \sum_i \sigma^2_i 得证。

现证 t r A B = t r B A tr AB = tr BA
t r A B = a r 1 T b 1 + + a r n T b n = i j a i j b j i tr AB = \mathbf{a^T_{r1}}\mathbf{b_1} + \cdots + \mathbf{a^T_{rn}}\mathbf{b_n} = \sum_{ij} a_{ij}b_{ji}

t r B A = b r 1 T a 1 + + b r n T a n = i j b i j a j i = i j a i j b j i = t r A B tr BA = \mathbf{b^T_{r1}}\mathbf{a_1} + \cdots + \mathbf{b^T_{rn}}\mathbf{a_n} = \sum_{ij} b_{ij}a_{ji} = \sum_{ij} a_{ij}b_{ji} = tr AB

根据对称矩阵谱分解定理 S = Q Λ Q T S=Q \Lambda Q^T ,可得矩阵迹另一重要性质, t r S = t r ( Q Λ Q T ) = t r ( Q T Q Λ ) = t r Λ = i λ i tr S = tr (Q\Lambda Q^T) = tr (Q^TQ\Lambda) = tr \Lambda = \sum_i \lambda_i 即对称矩阵的迹等于特征值之和

猜你喜欢

转载自blog.csdn.net/jhshanvip/article/details/106896691
今日推荐