矩阵低秩近似、矩阵范数
根据奇异值分解,秩为
r
r
r 的任意矩阵
A
A
A 可分解为
r
r
r 个简单矩阵(秩为
1
1
1 )
σ
i
u
i
v
i
T
\sigma_i\mathbf{u}_i\mathbf{v}^T_i
σ i u i v i T 之和,且
σ
1
≥
σ
2
≥
⋯
σ
r
>
0
\sigma_1\ge \sigma_2 \ge \cdots \sigma_r > 0
σ 1 ≥ σ 2 ≥ ⋯ σ r > 0 ,按重要性排序,即
A
=
U
Σ
V
T
=
σ
1
u
1
v
1
T
+
⋯
+
σ
r
u
r
v
r
T
A = U\Sigma V^T = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r
A = U Σ V T = σ 1 u 1 v 1 T + ⋯ + σ r u r v r T 。如果我们用秩为
k
<
r
k < r
k < r 的矩阵
B
B
B 来最优近似矩阵
A
A
A ,则
B
B
B 为多少呢?大家猜测应该是
B
k
=
σ
1
u
1
v
1
T
+
⋯
+
σ
k
u
k
v
k
T
B_k = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_k\mathbf{u}_k\mathbf{v}^T_k
B k = σ 1 u 1 v 1 T + ⋯ + σ k u k v k T 即取
A
A
A 前
k
k
k 个主成分近似
A
A
A ,这个就是 Eckart-Young-Mirsky 定理,称为矩阵低秩近似定理。
这里面有个问题是,矩阵
B
B
B 最优近似矩阵
A
A
A ,那如何度量两个矩阵相似度?我们度量向量相似度是利用向量范数,即
∥
a
−
b
∥
\|\mathbf{a} - \mathbf{b} \|
∥ a − b ∥ 越小则向量越相似。矩阵是一种变换,矩阵越相似则变换也越相似,即同一向量变换后的向量应该越相似,利用这个性质可以定义矩阵相似度。令
x
A
=
A
x
\mathbf{x}_A = A\mathbf{x}
x A = A x ,
x
B
=
B
x
\mathbf{x}_B = B\mathbf{x}
x B = B x ,记
∥
A
−
B
∥
\|A-B\|
∥ A − B ∥ 为矩阵相似度度量,为实数,值越小矩阵越相似,称为矩阵
A
−
B
A-B
A − B 范数,则
∥
A
−
B
∥
=
∥
x
A
−
x
B
∥
=
∥
A
x
−
B
x
∥
=
∥
(
A
−
B
)
x
∥
\|A-B\| = \| \mathbf{x}_A - \mathbf{x}_B \| = \|A\mathbf{x}-B\mathbf{x}\|= \|(A-B)\mathbf{x}\|
∥ A − B ∥ = ∥ x A − x B ∥ = ∥ A x − B x ∥ = ∥ ( A − B ) x ∥
当
x
=
0
\mathbf{x}=\mathbf{0}
x = 0 是零向量时,
∥
A
−
B
∥
\|A-B\|
∥ A − B ∥ 等于
0
0
0 ,即任意矩阵都完全相似,这显然不符合常识,故需对向量
x
\mathbf{x}
x 进行限定。不失一般性,令
∥
x
∥
=
1
\|\mathbf{x}\|=1
∥ x ∥ = 1 即
x
\mathbf{x}
x 限定为单位向量。
向量
(
A
−
B
)
x
(A-B)\mathbf{x}
( A − B ) x 的范数随单位向量
x
\mathbf{x}
x 改变而改变,故应该采用
(
A
−
B
)
x
(A-B)\mathbf{x}
( A − B ) x 最大范数来度量矩阵范数
∥
A
−
B
∥
\|A-B\|
∥ A − B ∥ 。
矩阵之差范数
∥
A
−
B
∥
=
m
a
x
x
∥
(
A
−
B
)
x
∥
\|A-B\| = max_\mathbf{x} \|(A-B)\mathbf{x}\|
∥ A − B ∥ = m a x x ∥ ( A − B ) x ∥ ,
x
\mathbf{x}
x 为单位向量。
根据矩阵
A
−
B
=
U
Σ
V
T
A-B = U\Sigma V^T
A − B = U Σ V T 奇异值分解,得
(
A
−
B
)
x
=
(
U
Σ
V
T
)
x
=
(
σ
1
u
1
v
1
T
+
⋯
+
σ
r
u
r
v
r
T
)
x
=
σ
1
u
1
v
1
T
x
+
⋯
+
σ
r
u
r
v
r
T
x
=
(
σ
1
v
1
T
x
)
u
1
+
⋯
+
(
σ
r
v
r
T
x
)
u
r
(A-B)\mathbf{x} = (U\Sigma V^T)\mathbf{x} \\ = (\sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r)\mathbf{x} \\ = \sigma_1\mathbf{u}_1\mathbf{v}^T_1\mathbf{x} +\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r\mathbf{x} \\ = (\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r
( A − B ) x = ( U Σ V T ) x = ( σ 1 u 1 v 1 T + ⋯ + σ r u r v r T ) x = σ 1 u 1 v 1 T x + ⋯ + σ r u r v r T x = ( σ 1 v 1 T x ) u 1 + ⋯ + ( σ r v r T x ) u r
由于
u
i
\mathbf{u}_i
u i 正交,故
∥
(
A
−
B
)
x
∥
=
∥
(
σ
1
v
1
T
x
)
u
1
+
⋯
+
(
σ
r
v
r
T
x
)
u
r
∥
=
(
σ
1
v
1
T
x
)
2
+
⋯
+
(
σ
r
v
r
T
x
)
2
≤
(
σ
1
v
1
T
x
)
2
+
⋯
+
(
σ
1
v
r
T
x
)
2
=
σ
1
(
v
1
T
x
)
2
+
⋯
+
(
v
r
T
x
)
2
≤
σ
1
(
v
1
T
x
)
2
+
⋯
+
(
v
r
T
x
)
2
+
⋯
+
(
v
n
T
x
)
2
=
σ
1
∥
x
∥
=
σ
1
\|(A-B)\mathbf{x}\| = \|(\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r\| \\ = \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_1\mathbf{v}^T_r\mathbf{x})^2} \\ = \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2+\cdots+(\mathbf{v}^T_n\mathbf{x})^2} \\ = \sigma_1 \|\mathbf{x}\| \\ = \sigma_1
∥ ( A − B ) x ∥ = ∥ ( σ 1 v 1 T x ) u 1 + ⋯ + ( σ r v r T x ) u r ∥ = ( σ 1 v 1 T x ) 2 + ⋯ + ( σ r v r T x ) 2
≤ ( σ 1 v 1 T x ) 2 + ⋯ + ( σ 1 v r T x ) 2
= σ 1 ( v 1 T x ) 2 + ⋯ + ( v r T x ) 2
≤ σ 1 ( v 1 T x ) 2 + ⋯ + ( v r T x ) 2 + ⋯ + ( v n T x ) 2
= σ 1 ∥ x ∥ = σ 1
所以矩阵之差范数
∥
A
−
B
∥
=
σ
1
\|A-B\| =\sigma_1
∥ A − B ∥ = σ 1 ,即矩阵
A
−
B
A-B
A − B 最大奇异值。
根据矩阵低秩近似定理,
A
−
B
k
=
σ
k
+
1
u
k
+
1
v
k
+
1
T
+
⋯
+
σ
r
u
r
v
r
T
A-B_k = \sigma_{k+1}\mathbf{u}_{k+1}\mathbf{v}^T_{k+1}+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r
A − B k = σ k + 1 u k + 1 v k + 1 T + ⋯ + σ r u r v r T ,故
∥
A
−
B
k
∥
=
σ
k
+
1
\|A-B_k\| = \sigma_{k+1}
∥ A − B k ∥ = σ k + 1 即最优近似矩阵
B
k
B_k
B k 与矩阵
A
A
A 之差范数为
σ
k
+
1
\sigma_{k+1}
σ k + 1 ,对其它任意秩为
k
k
k 的矩阵
B
B
B 均有
∥
A
−
B
∥
≥
∥
A
−
B
k
∥
\|A-B\| \ge \|A-B_k\|
∥ A − B ∥ ≥ ∥ A − B k ∥ 。
根据矩阵之差范数
∥
A
−
B
∥
=
σ
1
\|A-B\| = \sigma_1
∥ A − B ∥ = σ 1 ,令矩阵
B
=
O
B=\mathbf{O}
B = O 为零矩阵,得矩阵范数
∥
A
∥
=
σ
1
\|A\| =\sigma_1
∥ A ∥ = σ 1 ,即矩阵
A
A
A 最大奇异值。 根据范数定义,对任意单位向量
v
\mathbf{v}
v 有
∥
A
v
∥
≤
∥
A
∥
=
σ
1
\|A\mathbf{v}\| \le \|A\| = \sigma_1
∥ A v ∥ ≤ ∥ A ∥ = σ 1 成立,所以矩阵范数就是变换单位向量的最大长度,
v
=
v
1
\mathbf{v} = \mathbf{v}_1
v = v 1 时等号成立。
根据范数定义,范数具有如下性质:
齐次性:对任意实数
k
k
k ,
∥
k
A
∥
=
∣
k
∣
∥
A
∥
\|kA\| = |k|\|A\|
∥ k A ∥ = ∣ k ∣ ∥ A ∥ ;
范数相融性:对任意向量
x
\mathbf{x}
x ,有
∥
A
x
∥
≤
∥
A
∥
∥
x
∥
\|A\mathbf{x}\| \le \|A\|\|\mathbf{x}\|
∥ A x ∥ ≤ ∥ A ∥ ∥ x ∥ 成立。
三角不等式:
∥
A
+
B
∥
≤
∥
A
∥
+
∥
B
∥
\|A+B\| \le \|A\| + \|B\|
∥ A + B ∥ ≤ ∥ A ∥ + ∥ B ∥ 。
证:根据向量范数三角不等式,对任意单位向量
x
\mathbf{x}
x ,
∥
(
A
+
B
)
x
∥
=
∥
A
x
+
B
x
∥
≤
∥
A
x
∥
+
∥
B
x
∥
\|(A+B)\mathbf{x}\| = \|A\mathbf{x}+B\mathbf{x}\| \le \|A\mathbf{x}\| + \|B\mathbf{x}\|
∥ ( A + B ) x ∥ = ∥ A x + B x ∥ ≤ ∥ A x ∥ + ∥ B x ∥ ,两边取范数得证。
矩阵乘积不等式:
∥
A
B
∥
≤
∥
A
∥
∥
B
∥
\|AB\| \le \|A\|\|B\|
∥ A B ∥ ≤ ∥ A ∥ ∥ B ∥ 。
证:根据范数相融性,对任意单位向量
x
\mathbf{x}
x ,
∥
A
B
x
∥
≤
∥
A
∥
∥
B
x
∥
\|AB\mathbf{x}\| \le \|A\|\|B\mathbf{x}\|
∥ A B x ∥ ≤ ∥ A ∥ ∥ B x ∥ ,两边取范数得证。
范数还具有如下性质:
∥
A
T
∥
=
∥
A
∥
;
∥
A
T
A
∥
=
∥
A
A
T
∥
=
∥
A
∥
2
\|A^T\| = \|A\|;\|A^TA\| = \|AA^T\| = \|A\|^2
∥ A T ∥ = ∥ A ∥ ; ∥ A T A ∥ = ∥ A A T ∥ = ∥ A ∥ 2 ,
∥
A
A
+
∥
=
∥
A
+
A
∥
=
1
\|AA^{+}\|=\|A^{+}A\| = 1
∥ A A + ∥ = ∥ A + A ∥ = 1 。 任意正交矩阵
U
,
V
U,V
U , V ,有
∥
U
∥
=
1
;
∥
A
∥
=
∥
U
A
∥
=
∥
A
V
∥
=
∥
U
A
V
∥
\|U\| = 1;\|A\|=\|UA\|=\|AV\|=\|UAV\|
∥ U ∥ = 1 ; ∥ A ∥ = ∥ U A ∥ = ∥ A V ∥ = ∥ U A V ∥ 。
任意可逆矩阵
A
A
A ,有
∥
A
−
1
∥
=
1
/
σ
n
\|A^{-1}\|=1/\sigma_n
∥ A − 1 ∥ = 1 / σ n ,故
∥
A
∥
∥
A
−
1
∥
=
σ
1
/
σ
n
≥
1
\|A\|\|A^{-1}\|=\sigma_1/\sigma_n \ge 1
∥ A ∥ ∥ A − 1 ∥ = σ 1 / σ n ≥ 1 ,
∥
A
A
−
1
∥
=
1
\|AA^{-1}\| = 1
∥ A A − 1 ∥ = 1 。
根据
σ
1
=
∥
A
∥
≥
∥
A
v
∥
\sigma_1 = \|A\| \ge \|A\mathbf{v}\|
σ 1 = ∥ A ∥ ≥ ∥ A v ∥ 可知最大奇异值或矩阵范数很大,大于矩阵任意列向量的长度和任意元素,取
v
=
e
i
\mathbf{v} = \mathbf{e}_i
v = e i 得
σ
1
=
∥
A
∥
≥
∥
A
e
i
∥
=
∥
a
i
∥
≥
∣
a
j
i
∣
\sigma_1 = \|A\| \ge \|A\mathbf{e}_i\| = \|\mathbf{a}_i\| \ge |a_{ji}|
σ 1 = ∥ A ∥ ≥ ∥ A e i ∥ = ∥ a i ∥ ≥ ∣ a j i ∣ 。由于
∥
A
T
∥
=
∥
A
∥
\|A^T\| = \|A\|
∥ A T ∥ = ∥ A ∥ 故最大奇异值或矩阵范数大于矩阵任意行向量的长度。
奇异值有个重要且有趣的结论:任意矩阵
A
A
A 有
σ
1
2
+
⋯
+
σ
r
2
=
∑
i
j
a
i
j
2
\sigma^2_1+\cdots+\sigma^2_r = \sum_{ij} a^2_{ij}
σ 1 2 + ⋯ + σ r 2 = ∑ i j a i j 2 即奇异值平方和等于所有元素平方和,这个相当于能量守恒定律,矩阵能量是为所有元素平方和(类似动能为速度平方),奇异值能量为奇异值平方和 。因为
r
≪
m
n
r \ll mn
r ≪ m n 可知奇异值很大。 证:根据
A
T
A
=
V
Σ
2
V
T
A^TA = V\Sigma^2 V^T
A T A = V Σ 2 V T 证明。
A
T
A
=
[
a
1
T
a
1
a
1
T
a
2
⋯
,
a
1
T
a
n
⋮
a
n
T
a
1
a
n
T
a
2
⋯
,
a
n
T
a
n
]
A^TA= \left[ \begin{matrix} \mathbf{a^T_{1}}\mathbf{a_1} & \mathbf{a^T_{1}}\mathbf{a_2} \cdots, \mathbf{a^T_{1}}\mathbf{a_n}\\ \vdots \\ \mathbf{a^T_{n}}\mathbf{a_1} & \mathbf{a^T_{n}}\mathbf{a_2} \cdots, \mathbf{a^T_{n}}\mathbf{a_n} \end{matrix} \right]
A T A = ⎣ ⎢ ⎡ a 1 T a 1 ⋮ a n T a 1 a 1 T a 2 ⋯ , a 1 T a n a n T a 2 ⋯ , a n T a n ⎦ ⎥ ⎤ 矩阵
A
T
A
A^TA
A T A 对角元素之和为
a
1
T
a
1
+
⋯
+
a
n
T
a
n
=
∑
i
j
a
i
j
2
\mathbf{a^T_{1}}\mathbf{a_1} + \cdots + \mathbf{a^T_{n}}\mathbf{a_n} = \sum_{ij} a^2_{ij}
a 1 T a 1 + ⋯ + a n T a n = ∑ i j a i j 2 为所有元素平方和。由于矩阵对角元素之和很重要,为此定义矩阵的迹。 矩阵迹 方阵对角元素之和,记为
t
r
A
=
∑
i
a
i
i
tr A = \sum_i a_{ii}
t r A = ∑ i a i i 。 矩阵迹重要性质:对同型方阵
A
,
B
A,B
A , B ,有
t
r
A
B
=
t
r
B
A
tr AB = tr BA
t r A B = t r B A 成立,这表明矩阵迹满足矩阵乘法交换律 。 则
t
r
(
V
Σ
2
V
T
)
=
t
r
(
V
T
V
Σ
2
)
=
t
r
(
Σ
2
)
=
∑
i
σ
i
2
tr (V\Sigma^2 V^T) = tr (V^TV\Sigma^2) = tr (\Sigma^2) = \sum_i \sigma^2_i
t r ( V Σ 2 V T ) = t r ( V T V Σ 2 ) = t r ( Σ 2 ) = ∑ i σ i 2 ,故
∑
i
j
a
i
j
2
=
∑
i
σ
i
2
\sum_{ij} a^2_{ij} = \sum_i \sigma^2_i
∑ i j a i j 2 = ∑ i σ i 2 得证。
现证
t
r
A
B
=
t
r
B
A
tr AB = tr BA
t r A B = t r B A 。
t
r
A
B
=
a
r
1
T
b
1
+
⋯
+
a
r
n
T
b
n
=
∑
i
j
a
i
j
b
j
i
tr AB = \mathbf{a^T_{r1}}\mathbf{b_1} + \cdots + \mathbf{a^T_{rn}}\mathbf{b_n} = \sum_{ij} a_{ij}b_{ji}
t r A B = a r 1 T b 1 + ⋯ + a r n T b n = i j ∑ a i j b j i
t
r
B
A
=
b
r
1
T
a
1
+
⋯
+
b
r
n
T
a
n
=
∑
i
j
b
i
j
a
j
i
=
∑
i
j
a
i
j
b
j
i
=
t
r
A
B
tr BA = \mathbf{b^T_{r1}}\mathbf{a_1} + \cdots + \mathbf{b^T_{rn}}\mathbf{a_n} = \sum_{ij} b_{ij}a_{ji} = \sum_{ij} a_{ij}b_{ji} = tr AB
t r B A = b r 1 T a 1 + ⋯ + b r n T a n = i j ∑ b i j a j i = i j ∑ a i j b j i = t r A B
根据对称矩阵谱分解定理
S
=
Q
Λ
Q
T
S=Q \Lambda Q^T
S = Q Λ Q T ,可得矩阵迹另一重要性质,
t
r
S
=
t
r
(
Q
Λ
Q
T
)
=
t
r
(
Q
T
Q
Λ
)
=
t
r
Λ
=
∑
i
λ
i
tr S = tr (Q\Lambda Q^T) = tr (Q^TQ\Lambda) = tr \Lambda = \sum_i \lambda_i
t r S = t r ( Q Λ Q T ) = t r ( Q T Q Λ ) = t r Λ = ∑ i λ i 即对称矩阵的迹等于特征值之和 。