A 线性代数回顾
在这个附录中,我们介绍一些线性代数的基本概念,这些概念与本书中所介绍的材料有关。本附录并不代表一个详尽的教程,它假设读者有一些关于这个主题的预先的知识。
A.1 向量和范数
我们用向量空间
H 表示,它的维数可以是无限大的。
A.1.1 范数
定义 A.1 一个映射
Φ:H→R+ ,如果它满足以下条件:
- 确定性:
∀x∈H ,
Φ(x)=0⇔x=0 ;
- 同次性:
∀x∈H ,
∀α∈H ,
Φ(αx)=∣α∣Φ(x) ;
- 三角不等式:
∀x,y∈H ,
Φ(x+y)≤Φ(x)+Φ(y) .
被称为定义为在
H 上的范数。
范数通常用
∥⋅∥ 表示。向量范数的例子是
R 和
RN 上的欧几里得(或
L2 )范数。更一般地,对于在
RN 上的任何
p≥1 的
Lp 范数定义为
∀x∈RN,∥x∥p=(j=1∑N∣xj∣p)1/p .(A.1)
L1 、
L2 和
L∞ 范数是一些最常用的范数,
∥x∥∞=maxj∈[N]∣x∣。两个
∥⋅∥ 和
∥⋅∥′ 被认为是等价的,存在
α,β>0 这样对于所有
x∈H,
α∥x∥≤∥x∥′≤β∥x∥ .(A.2)
下列与这些规范相关的一般不等式可以直接被证明的:
∥x∥2≤∥x∥1≤N
∥x∥2(A.3)
∥x∥∞≤∥x∥2≤N
∥x∥∞(A.4)
∥x∥∞≤∥x∥1≤N∥x∥∞ .(A.5)
第一行的第二个不等式可以用稍后给出的Cauchy-Schwarz不等式 来表示,而其他不等式是清楚的。这些不平等表明了这三个标准的等价性。更一般地说,有限维空间上的所有规范都是等价的。对于
L∞ 范数,下列附加性质成立:对于所有
x∈H ,
∀p⩾1,∥x∥∞≤∥x∥p≤N1/p∥x∥∞(A.6)
p→+∞lim ∥x∥p=∥x∥∞ .(A.7)
第一行的不等式很简单,暗示了第二行的极限性质。
定义 A.2(Hilbert空间) Hilbert空间是配有内积
⟨⋅,⋅⟩ 的向量空间,并且是完备的(所有Cauchy序列都是收敛的)。内积归纳出一个规范,定义如下:
∀x∈H , ∥x∥H=⟨x,x⟩
.(A.8)
A.1.2 对偶范数
定义 A.3 设
∥⋅∥ 为
RN 上的一个范数。然后,与
∥⋅∥ 相关联的对偶范数
∥⋅∥∗ 是由下式定义的范数:
∀y∈RN , ∥y∥∗=∥x∥=1sup∣⟨y,x⟩∣ .(A.9)
对于任何共轭的
p,q≥1 即
p1+q1=1 ,
Lp 和
Lq 范数是彼此的对偶范数。特别地,
L2 的对偶范数是
L2 范数,
L1 范数的对偶范数是
L∞ 范数。
命题 A.4(Hölder不等式) 设
p,q≥1 是共轭的:
p1+q1=1 。则对于所有的
x,y∈RN ,有
∣⟨x,y⟩∣≤∥x∥p∥y∥q ,(A.10)
当对于所有的
i∈[N] 都有
∣yi∣=∣xi∣p−1 时取等。
证明: 上面的陈述对于
x=00 或
y=00 毫无意义;因此,我们可以假设
x=00 和
y=00 。令
a,b>0 。根据对数函数的凹函数性质(见定义B.7),我们可以有
log(p1ap+q1bq)≥p1log(ap)+q1log(bq)=log(a)+log(b)=log(ab) .
对不等式的最左边和最右边同时取对数有
p1ap+q1bq≥ab ,
这就是所谓的杨氏(Young)不等式。对于所有
j∈[N] ,将
a=∥x∥p∣xj∣ 和
b=∥y∥q∣yj∣ 带入不等式,并求和有
∥x∥p∥y∥q∑j=1N∣xjyj∣≤p1∥x∥p∥x∥p+q1∥y∥q∥y∥q=p1+q1=1 .
因为
∣⟨x,y⟩∣≤∑j=1N∣xjyj∣ ,不等式声明如下。取等的情况可以直接验证。
取
p=q=2 立马得到以下结果,称为Cauchy-Schwarz不等式。
推论 A.5(Cauchy-Schwarz不等式) 对于所有的
x,y∈RN ,有
∣⟨x,y⟩∣≤∥x∥2∥y∥2 ,(A.11)
当且仅当
x 和
y 共线时取等。
设
H 为
RN 中的超平面,其表达式如下
w⋅x+b=0 ,
其中法向量
w∈RN 和偏置项
b∈R 。令
dp(x,H) 表示点
x 到超平面
H 的距离,有
dp(x,H)=x′∈Hinf∥x′−x∥p .(A.12)
然后,对于
p≥1 下面的等式成立:
dp(x,H)=∥w∥q∣w⋅x+b∣ ,(A.13)
其中
q 是
p 的共轭:
p1+q1=1 。(A.13)可以通过将附录B的结果直接应用于约束优化问题(A.12)来显示。
A.1.3 范数之间的关系
在等式(A.3)、(A.4)和(A.5)中看到的不等式的一般形式适用于所有
Lp 范数,如下面的命题所示。
命题 A.6 令
1≤p≤q 。然后下面的不等式对于所有的
x∈RN 成立:
∥x∥q≤∥x∥p≤Np1−q1∥x∥q .(A.14)
证明: 首先,假设
x=00 ,否则不等式就不成立了。然后第一个不等式在
1≤p≤q 下成立:
[∥x∥q∥x∥p]p=i=1∑N[≤1
∥x∥xiq]p≥i=1∑N[∥x∥xiq]q=1 .
最后,第二个不等式通过使用Hölder不等式(命题 A.4)证明如下
∥x∥p=[i=1∑N∣xi∣p]p1≤⎣⎢⎡(i=1∑N(∣xi∣p)qp)qp(i=1∑N(1)q−pq)(1−qp)⎦⎥⎤p1=∥x∥qNp1−q1 ,
得证。
A.2 矩阵
对于一个具有
m 行
n 列的矩阵
M∈Rm×n,我们用
Mij 表示它的第
ij 项,对于所有
i∈[m] 和
j∈[n] 。 对于任何
m≥1 ,我们用
Im 表示
m 维单位矩阵,当维度在上下文中明确时,将其称为
I 。
用
M⊤ 表示
M 的转置 ,对于所有的
(i,j) 有
(M⊤)ij=Mji 。对于任意两个矩阵
M∈Rm×n 和
N∈Rn×p ,有
(MN)⊤=N⊤M⊤ 。当且仅当对于所有的
(i,j) 有
Mij=Mji 时
M 被称为对称的(矩阵),即
M=M⊤ 。
方阵
M 的迹由
Tr[M] 表示,定义为
Tr[M]=∑i=1NMii 。对于任意两个矩阵
M∈Rm×n 和
N∈Rn×m ,以下恒等式成立:
Tr[MN]=Tr[NM] 。 更一般地,以下循环性质适用于适当维度矩阵
M 、
N 和
P :
Tr[MNP]=Tr[PMN]=Tr[NPM] .(A.15)
当
M 满秩时存在有方阵
M 的逆矩阵用
M−1 表示,并且是满足
MM−1=M−1M=I 的唯一的矩阵。
矩阵范数是在
Rm×n 上定义的范数,其中
m 和
n 是所考虑矩阵的维度。 许多矩阵范数,包括下面讨论的那些,满足以下乘法性质:
∥MN∥≤∥M∥∥N∥ .(A.16)
由向量范数
∥⋅∥p 导出的矩阵范数 或由该范数导出的算子范数(operator norm,即定义在算子上的范数)也表示为
∥⋅∥p ,定义为
∥M∥p=∥x∥p≤1sup∥Mx∥p .(A.17)
p=2 的范数称为谱范数(spectral norm),它等于
M 的最大奇异值(见A.2.2节),或
M⊤M 的最大特征值的平方根:
∥M∥2=σ1(M)=λmax(M⊤M)
.(A.18)
并非所有矩阵范数都是由向量范数导出的。用
∥⋅∥F 表示的Frobenius范数是此类范数中最著名的,它的定义为:
∥M∥F=(i=1∑mj=1∑nMij2)21 .
当将
M 视为大小为
mn 的向量时,Frobenius范数可以被当作向量的
L2 范数。它也与 Frobenius积 导出的范数一致,这是对于所有
M,N∈Rm×n 定义的内积,如下
⟨M,N⟩F=Tr[M⊤N] .(A.19)
这将Frobenius范数与
M 的奇异值联系起来:
∥M∥F2=Tr[M⊤M]=i=1∑rσi(M)2 ,
其中
r=rank(M) 。第二个等式来自 SPSD矩阵的性质(见A.2.3节)。
对于任意的
j∈[n] ,令
Mj 表示
M 的第
j 列,其中
M=[M1⋯Mn] 。然后,对于任意的
p,r≥1 ,
M 的
Lp,r 群范数(group norm)定义为
∥M∥p,r=(j=1∑n∥Mj∥pr)1/r .
最常用的群范数之一是由下式定义的
L2,1 范数
∥M∥2,1=i=1∑n∥Mi∥2 .
A.2.2 奇异值分解(Singular value decomposition)
M 的紧凑的奇异值分解(SVD),其中
r=rank(M)≤min(m,n) ,可以写成如下:
M=UMΣΣMVM⊤ .
r×r 的矩阵
ΣΣM=diag(σ1,…,σ2) 是对角矩阵,包含按降序排列的
M 的非零奇异值 ,即
σ1≥⋯≥σr>0 。矩阵
UM∈Rm×r 和
VM∈Rn×r 具有正交列,其中包含与排序后的奇异值对应的
M 的左奇异向量和右奇异向量。我们用
Uk∈Rm×k 表示
M 的顶部
k≤r 个左奇异向量。
Uk 的范围( span)上的正交投影 可以写成
PUk=UkUk⊤ ,其中
PUk 是对称半正定的(SPSD)和幂等的,即
PUk2=PUk 。此外,在正交于
Uk 的子空间上的正交投影定义为
PUk,⊥ 。类似的定义,即
Vk,PVk,PVk,⊥ ,适用于右奇异向量。
矩阵
M 的广义逆 矩阵或Moore-Penrose伪逆 矩阵由
M† 表示,定义为
M†=UMΣΣM†VM† ,(A.20)
其中
ΣΣM†=diag(σ1−1,…,σr−1) 。对于具有满秩的任何
m×m 方阵
M ,即
r=m ,伪逆与矩阵逆相同:
M†=M−1 。
A.2.3 对称半正定(SPSD, symmetric positive semidefinite)矩阵
定义 A.7 对于所有的
x∈Rm ,当且仅当
x⊤Mx≥0(A.21)
称对称矩阵(symmetric matrix)
M∈Rm×m 是半正定的(positive semidefinite) 。如果不等式是严格(即
x⊤Mx>0 )的,则称
M 是正定的(positive definite) 。
核矩阵(见第6章)和正交投影矩阵是SPSD矩阵的两个例子。如果矩阵
M 的特征值都是非负的,则可以直接证明矩阵
M 是SPSD矩阵。 此外,以下属性适用于任何SPSD矩阵
M :
-
M 允许对某个矩阵
X 进行分解
M=X⊤X ,而Cholesky分解 提供了这样一种分解,其中
X 是上三角矩阵。
-
M 的左右奇异向量相同,
M 的SVD也是其特征值分解。
- 任意矩阵
X=UXΣXVX⊤ 的 SVD 定义了两个相关的SPSD矩阵的SVD:左奇异向量(
UX)是
XX⊤ 的特征向量,右奇异向量(
VX)是
X⊤X 的特征向量以及
X 的非零奇异值是
XX⊤ 和
X⊤X 的非零特征值的平方根。
-
M 的迹是其奇异值的总和,即
Tr[M]=∑i=1rσi(M) ,其中
rank(M)=r 。
-
M 的顶部奇异向量
u1 使瑞利熵(Rayleigh quotient)最大化,其定义为
r(x,M)=x⊤xx⊤Mx .
换句话说,
u1=argmaxxr(x,M) 和
r(u,M)=σ1(M) 。 同理,若
M′=PUi,⊥M (即
M 在与
Ui 正交的子空间上的投影),则
ui+1=argmaxxr(x,M′) ,其中
ui+1 是
M 的第
(i+1) 个奇异向量。