Conclusion A

A 线性代数回顾

在这个附录中,我们介绍一些线性代数的基本概念,这些概念与本书中所介绍的材料有关。本附录并不代表一个详尽的教程,它假设读者有一些关于这个主题的预先的知识。

A.1 向量和范数

我们用向量空间 H \mathbb H 表示,它的维数可以是无限大的。


A.1.1  范数

定义 A.1 一个映射 Φ : H R + \Phi:\mathbb H\to\mathbb R_{_+} ,如果它满足以下条件:

  • 确定性: x H \forall\textbf x\in\mathbb H Φ ( x ) = 0 x = 0 \Phi(\textbf x)=0\Leftrightarrow\textbf x=\textbf0 ;
  • 同次性: x H \forall\textbf x\in\mathbb H α H \forall\alpha\in\mathbb H Φ ( α x ) = α Φ ( x ) \Phi(\alpha\textbf x)=|\alpha|\Phi(\textbf x) ;
  • 三角不等式: x , y H \forall\textbf x,\textbf y\in\mathbb H Φ ( x + y ) Φ ( x ) + Φ ( y ) \Phi(\mathcal x+\mathcal y)\le\Phi(\mathcal x)+\Phi(\mathcal y) .

被称为定义为在 H \mathbb H 上的范数。
  范数通常用 \|\cdot\| 表示。向量范数的例子是 R \mathbb R R N \mathbb R^{N} 上的欧几里得(或 L 2 L_{_2} )范数。更一般地,对于在 R N \mathbb R^{N} 上的任何 p 1 \mathcal p\ge1 L p L_{_\mathcal p} 范数定义为

x R N , x p = ( j = 1 N x j p ) 1 / p    . ( A . 1 ) \forall\textbf x\in\mathbb R^{N},\|\mathcal x\|_{_p}=\big(\sum^{N}_{j=1}\vert\mathcal x_{_j}\vert^{\mathcal p}\big)^{1/\mathcal p}\ \ .\qquad\qquad\qquad(A.1)

   L 1 L_{1} L 2 L_{_2} L L_{\infty} 范数是一些最常用的范数, x = max j [ N ] x \|\mathcal x\|_{\infty}=\max_{_{j\in[N]}}\vert\mathcal x\vert 。两个 \|\cdot\| \|\cdot\|^\prime 被认为是等价的,存在 α , β > 0 \alpha,\beta>0 这样对于所有 x H \mathcal x\in\mathbb H ,

α x x β x    . ( A . 2 ) \alpha\|\textbf x\|\le\|\textbf x\|^\prime\le\beta\|\textbf x\|\ \ .\qquad\qquad\qquad\qquad(A.2)

  下列与这些规范相关的一般不等式可以直接被证明的:

x 2 x 1 N x 2 A . 3 ) \|\textbf x\|_{_2}\le\|\textbf x\|_{_1}\le\sqrt N\|\textbf x\|_{_2}\qquad\qquad\qquad\qquad(A.3)
x x 2 N x ( A . 4 ) \|\textbf x\|_{_\infty}\le\|\textbf x\|_{2}\le\sqrt N\|\textbf x\|_{_\infty}\qquad\qquad\qquad\qquad(A.4)
x x 1 N x    . ( A . 5 ) \|\textbf x\|_{_\infty}\le\|\textbf x\|_{_1}\le N\|\textbf x\|_{_\infty}\ \ .\qquad\qquad\qquad\qquad(A.5)

  第一行的第二个不等式可以用稍后给出的Cauchy-Schwarz不等式 来表示,而其他不等式是清楚的。这些不平等表明了这三个标准的等价性。更一般地说,有限维空间上的所有规范都是等价的。对于 L L_{_\infty} 范数,下列附加性质成立:对于所有 x H \textbf x\in\mathbb H ,

p 1 , x x p N 1 / p x ( A . 6 ) \forall\mathcal p\geqslant1,\|\textbf x\|_{_\infty}\le\|\textbf x\|_{_\mathcal p}\le N^{1/\mathcal p}\|\textbf x\|_{_\infty}\qquad\qquad\qquad\qquad(A.6)
lim p +   x p = x    . ( A . 7 ) \underset{p\to+\infty}{\lim}\ \|\textbf x\|_{_p}=\|\textbf x\|_{_{\infty}}\ \ .\qquad\qquad\qquad\qquad(A.7)

第一行的不等式很简单,暗示了第二行的极限性质。

定义 A.2(Hilbert空间) Hilbert空间是配有内积 , \langle\cdot,\cdot\rangle 的向量空间,并且是完备的(所有Cauchy序列都是收敛的)。内积归纳出一个规范,定义如下:

x H   ,   x H = x , x    . ( A . 8 ) \forall\textbf x\in\mathbb H\ ,\ \|\textbf x\|_{_{\mathbb H}}=\sqrt{\langle\textbf x,\textbf x\rangle}\ \ .\qquad\qquad\qquad\quad(A.8)

A.1.2  对偶范数

定义 A.3 设 \|\cdot\| R N \mathbb R^N 上的一个范数。然后,与 \|\cdot\| 相关联的对偶范数 \|\cdot\|_{_*} 是由下式定义的范数:

y R N   ,   y = sup x = 1 y , x    . ( A . 9 ) \forall\textbf y\in\mathbb R^N\ ,\ \|\textbf y\|_{_*}=\underset{\|\textbf x\|=1}{\sup}\vert\langle\textbf y,\textbf x\rangle\vert\ \ .\qquad\qquad\qquad(A.9)

对于任何共轭的 p , q 1 p,q\ge1 1 p + 1 q = 1 \frac{1}p+\frac{1}q=1 L p L_p L q L_q 范数是彼此的对偶范数。特别地, L 2 L_{_2} 的对偶范数是 L 2 L_{_2} 范数, L 1 L_{_1} 范数的对偶范数是 L L_{_\infty} 范数。
命题 A.4(Hölder不等式) p , q 1 p,q\ge1 是共轭的: 1 p + 1 q = 1 \frac1p+\frac1q=1 。则对于所有的 x , y R N x,y\in\mathbb R^N ,有

x , y x p y q   , ( A . 10 ) \vert\langle\textbf x,\textbf y\rangle\vert\le\|\textbf x\|_{_p}\|\textbf y\|_{_q}\ \ ,\qquad\qquad\qquad(A.10)

当对于所有的 i [ N ] i\in[N] 都有 y i = x i p 1 \vert y_{_i}\vert=\vert x_{_i}\vert^{p-1} 时取等。
证明: 上面的陈述对于 x = 0 \textbf x=\pmb 0 y = 0 \textbf y=\pmb 0 毫无意义;因此,我们可以假设 x 0 \textbf x\neq\pmb 0 y 0 \textbf y\neq\pmb 0 。令 a , b > 0 a,b>0 。根据对数函数的凹函数性质(见定义B.7),我们可以有

log ( 1 p a p + 1 q b q ) 1 p log ( a p ) + 1 q log ( b q ) = log ( a ) + log ( b ) = log ( a b )    . \log\left(\frac1pa^{^p}+\frac1qb^{^q}\right)\ge\frac1p\log(a^{^p})+\frac1q\log(b^{^q})=\log(a)+\log(b)=\log(ab)\ \ .

对不等式的最左边和最右边同时取对数有

1 p a p + 1 q b q a b    , \frac1pa^{^p}+\frac1qb^{^q}\ge ab\ \ ,

这就是所谓的杨氏(Young)不等式。对于所有 j [ N ] j\in[N] ,将 a = x j x p a=\frac{\vert x_{_j}\vert}{\|\textbf x\|_{_p}} b = y j y q b=\frac{\vert y_{_j}\vert}{\|\textbf y\|_{_q}} 带入不等式,并求和有

j = 1 N x j y j x p y q 1 p x p x p + 1 q y q y q = 1 p + 1 q = 1    . \frac{\sum^{N}_{j=1}\vert x_{_j}y_{_j}\vert}{\|\textbf x\|_{_p}\|\textbf y\|_{_q}}\le\frac1p\frac{\|\textbf x\|^p}{\|\textbf x\|^p}+\frac1q\frac{\|\textbf y\|^q}{\|\textbf y\|^q}=\frac1p+\frac1q=1\ \ .

因为 x , y j = 1 N x j y j \vert\langle\textbf x,\textbf y\rangle\vert\le\sum^{N}_{j=1}\vert x_{_j}y_{_j}\vert ,不等式声明如下。取等的情况可以直接验证。
p = q = 2 p=q=2 立马得到以下结果,称为Cauchy-Schwarz不等式。
推论 A.5(Cauchy-Schwarz不等式) 对于所有的 x , y R N \textbf x,\textbf y\in\mathbb R^N ,有

x , y x 2 y 2    , ( A . 11 ) \vert\langle\textbf x,\textbf y\rangle\vert\le\|\textbf x\|_{_2}\|\textbf y\|_{_2}\ \ ,\qquad\qquad\qquad(A.11)

当且仅当 x \textbf x y \textbf y 共线时取等。
  设 H \mathcal H R N \mathbb R^N 中的超平面,其表达式如下

w x + b = 0    , \textbf w\cdot\textbf x+b=0\ \ ,

其中法向量 w R N \textbf w\in\mathbb R^N 和偏置项 b R b\in\mathbb R 。令 d p ( x , H ) d_p(\textbf x,\mathcal H) 表示点 x \textbf x 到超平面 H \mathcal H 的距离,有

d p ( x , H ) = inf x H x x p    . ( A . 12 ) d_p(\textbf x,\mathcal H)=\underset{\textbf x^\prime\in\mathcal H}{\inf}\|\textbf x^\prime-\textbf x\|_{_p}\ \ .\qquad\qquad\qquad(A.12)

然后,对于 p 1 p\ge 1 下面的等式成立:

d p ( x , H ) = w x + b w q    , ( A . 13 ) d_p(\textbf x,\mathcal H)=\frac{\vert\textbf w\cdot\textbf x+b\vert}{\|\textbf w\|_{_q}}\ \ ,\qquad\qquad\qquad(A.13)

其中 q q p p 的共轭: 1 p + 1 q = 1 \frac1p+\frac1q=1 。(A.13)可以通过将附录B的结果直接应用于约束优化问题(A.12)来显示。

A.1.3  范数之间的关系

在等式(A.3)、(A.4)和(A.5)中看到的不等式的一般形式适用于所有 L p L_p 范数,如下面的命题所示。
命题 A.6 令 1 p q 1\le p\le q 。然后下面的不等式对于所有的 x R N \textbf x\in\mathbb R^N 成立:

x q x p N 1 p 1 q x q    . ( A . 14 ) \|x\|_{_q}\le\|x\|_{_p}\le N^{^{\frac1p-\frac1q}}\|x\|_{_q}\ \ .\qquad\qquad\qquad(A.14)

证明: 首先,假设 x 0 \textbf x\neq\pmb 0 ,否则不等式就不成立了。然后第一个不等式在 1 p q 1\le p\le q 下成立:

[ x p x q ] p = i = 1 N [ x i x q 1 ] p i = 1 N [ x i x q ] q = 1    . \left[\frac{\|\textbf x\|_{_p}}{\|\textbf x\|_{_q}}\right]^p=\sum^N_{i=1}\bigg[\underbrace{\frac{x_{_i}}{\|\textbf x\|}_q}_{\le1}\bigg]^p\ge\sum^N_{i=1}\bigg[{\frac{x_{_i}}{\|\textbf x\|}_q}\bigg]^q=1\ \ .

最后,第二个不等式通过使用Hölder不等式(命题 A.4)证明如下

x p = [ i = 1 N x i p ] 1 p [ ( i = 1 N ( x i p ) p q ) p q ( i = 1 N ( 1 ) q q p ) ( 1 p q ) ] 1 p = x q N 1 p 1 q    , \|\textbf x\|_{_p}=\left[\sum^N_{i=1}\vert x_{_i}\vert^p\right]^\frac{1}{p}\le\left[\left(\sum^N_{i=1}(\vert x_{_i}\vert^p)^{\frac{p}{q}}\right)^{\frac pq}\left(\sum^N_{i=1}(1)^{^{\frac{q}{q-p}}}\right)^{(1-\frac pq)}\right]^{\frac1p}=\|\textbf x\|_{_q}N^{^{\frac1p-\frac1q}}\ \ ,

得证。

A.2 矩阵

对于一个具有 m m n n 列的矩阵 M R m × n \mathbf M\in\mathbb R^{m×n} ,我们用 M i j \textbf M_{ij} 表示它的第 i j ij 项,对于所有 i [ m ] i\in[m] j [ n ] j\in[n] 。 对于任何 m 1 m\ge 1 ,我们用 I m \textbf I_{_m} 表示 m m 维单位矩阵,当维度在上下文中明确时,将其称为 I \textbf I
  用 M \textbf M^\top 表示 M \textbf M 转置 ,对于所有的 ( i , j ) (i,j) ( M ) i j = M j i (\textbf M^\top)_{ij}=\textbf M_{ji} 。对于任意两个矩阵 M R m × n \textbf M\in\mathbb R^{m\times n} N R n × p \textbf N\in\mathbb R^{n\times p} ,有 ( MN ) = N M (\textbf M\textbf N)^\top=\textbf N^\top\textbf M^\top 。当且仅当对于所有的 ( i , j ) (i,j) M i j = M j i \textbf M_{ij}=\textbf M_{ji} M \textbf M 被称为对称的(矩阵),即 M = M \textbf M=\textbf M^\top
  方阵 M \textbf M 的迹由 Tr [ M ] \text{Tr}[\textbf M] 表示,定义为 Tr [ M ] = i = 1 N M i i \text{Tr}[\textbf M]=\sum^{N}_{i=1}\textbf M_{ii} 。对于任意两个矩阵 M R m × n \textbf M\in\mathbb R^{m\times n} N R n × m \textbf N\in\mathbb R^{n\times m} ,以下恒等式成立: Tr [ MN ] = T r [ NM ] \text{Tr}[\textbf {MN}]= Tr[\textbf {NM}] 。 更一般地,以下循环性质适用于适当维度矩阵 M \textbf M N \textbf N P \textbf P

Tr [ MNP ] = Tr [ PMN ] = Tr [ NPM ]    . ( A . 15 ) \text{Tr}[\textbf{MNP}]=\text{Tr}[\textbf{PMN}]=\text{Tr}[\textbf{NPM}]\ \ .\qquad\qquad\qquad(A.15)

  当 M \textbf M 满秩时存在有方阵 M \textbf M 的逆矩阵用 M 1 \textbf M^{−1} 表示,并且是满足 MM 1 = M 1 M = I \textbf{MM}^{−1}=\textbf M^{−1}\textbf M=\textbf I 的唯一的矩阵。   
  
  
矩阵范数是在 R m × n \mathbb R^{m×n} 上定义的范数,其中 m m n n 是所考虑矩阵的维度。 许多矩阵范数,包括下面讨论的那些,满足以下乘法性质:

MN M N    . ( A . 16 ) \|\textbf M\textbf N\|\le\|\textbf M\|\|\textbf N\|\ \ .\qquad\qquad\qquad(A.16)

由向量范数 p \|\cdot\|_{_p} 导出的矩阵范数 或由该范数导出的算子范数(operator norm,即定义在算子上的范数)也表示为 p \|\cdot\|_{_p} ,定义为

M p = sup x p 1 Mx p    . ( A . 17 ) \|\textbf M\|_{_p}=\underset{\|\textbf x\|_{_p}\le1}{\sup}\|\textbf{Mx}\|_{_p}\ \ .\qquad\qquad\quad(A.17)

p = 2 p=2 的范数称为谱范数(spectral norm),它等于 M \textbf M 的最大奇异值(见A.2.2节),或 M M \textbf M^\top\textbf M 的最大特征值的平方根:

M 2 = σ 1 ( M ) = λ max ( M M )    . ( A . 18 ) \|\textbf M\|_{_2}=\sigma_{_1}(\textbf M)=\sqrt{\lambda_{\max}(\textbf M^\top\textbf M)}\ \ .\qquad\quad(A.18)

并非所有矩阵范数都是由向量范数导出的。用 F \|\cdot\|_{_F} 表示的Frobenius范数是此类范数中最著名的,它的定义为:

M F = ( i = 1 m j = 1 n M i j 2 ) 1 2    . \|\textbf M\|_{_F}=\left(\sum^{m}_{i=1}\sum^{n}_{j=1}\textbf M^2_{_{ij}}\right)^{\frac1{_2}}\ \ .

当将 M \textbf M 视为大小为 m n mn 的向量时,Frobenius范数可以被当作向量的 L 2 L_{_2} 范数。它也与 Frobenius积 导出的范数一致,这是对于所有 M , N R m × n \textbf M,\textbf N\in\mathbb R^{m\times n} 定义的内积,如下

M , N F = Tr [ M N ]    . ( A . 19 ) \langle\textbf M,\textbf N\rangle_{_F}=\text{Tr}[\textbf M^\top\textbf N]\ \ .\qquad\qquad\qquad(A.19)

这将Frobenius范数与 M \textbf M 的奇异值联系起来:

M F 2 = Tr [ M M ] = i = 1 r σ i ( M ) 2    , \|\textbf M\|^2_{_F}=\text{Tr}[\textbf M^\top\textbf M]=\sum^r_{i=1}\sigma_{_i}(\textbf M)^{^2}\ \ ,

其中 r = rank ( M ) r=\text{rank}(\textbf M) 。第二个等式来自 SPSD矩阵的性质(见A.2.3节)。
  对于任意的 j [ n ] j\in[n] ,令 M j \textbf M_{_j} 表示 M \textbf M 的第 j j 列,其中 M = [ M 1 M n ] \textbf M=[\textbf M_{_1}\cdots\textbf M_{_n}] 。然后,对于任意的 p , r 1 p,r\ge 1 M \textbf M L p , r L_{_{p,r}} 群范数(group norm)定义为

M p , r = ( j = 1 n M j p r ) 1 / r    . \|\textbf M\|_{_{p,r}}=\left(\sum^n_{j=1}\|\textbf M_j\|^r_{_p}\right)^{1/r}\ \ .

最常用的群范数之一是由下式定义的 L 2 , 1 L_{_{2,1}} 范数

M 2 , 1 = i = 1 n M i 2    . \|\textbf M\|_{_{2,1}}=\sum^n_{i=1}\|\textbf M_{_i}\|_{_2}\ \ .

A.2.2  奇异值分解(Singular value decomposition)

M \textbf M 的紧凑的奇异值分解(SVD),其中 r = rank ( M ) min ( m , n ) r=\text{rank}(M)\le \min(m,n) ,可以写成如下:

M = U M Σ M V M    . \textbf M=\textbf U_{_M}\pmb\Sigma_{_M}\textbf V^\top_M\ \ .

r × r r\times r 的矩阵 Σ M = diag ( σ 1 , , σ 2 ) \pmb\Sigma_{_M}=\text{diag}(\sigma_{_1},\dots,\sigma_{_2}) 是对角矩阵,包含按降序排列的 M \textbf M 的非零奇异值 ,即 σ 1 σ r > 0 \sigma_{_1}\ge\dots\ge\sigma_{_r}>0 。矩阵 U M R m × r \textbf U_{_M}\in\mathbb R^{m\times r} V M R n × r \textbf V_{_M}\in\mathbb R^{n\times r} 具有正交列,其中包含与排序后的奇异值对应的 M \textbf M 的左奇异向量和右奇异向量。我们用 U k R m × k \textbf U_{_k}\in\mathbb R^{m\times k} 表示 M \textbf M 的顶部 k r k\le r 个左奇异向量。
   U k \textbf U_{_k} 的范围( span)上的正交投影 可以写成 P U k = U k U k \textbf P_{U_{_k}}=\textbf U_{_k}\textbf U^\top_k ,其中 P U k \textbf P_{U_{_k}} 是对称半正定的(SPSD)和幂等的,即 P U k 2 = P U k \textbf P^2_{U_{_k}}=\textbf P_{U_{_k}} 。此外,在正交于 U k \textbf U_{_k} 的子空间上的正交投影定义为 P U k , \textbf P_{U_{_k},\perp} 。类似的定义,即 V k , P V k , P V k , \textbf V_{_k},PVk,\textbf P_{V_{_k},\perp} ,适用于右奇异向量。
  矩阵 M \textbf M 广义逆 矩阵或Moore-Penrose伪逆 矩阵由 M \textbf M^{\dagger} 表示,定义为

M = U M Σ M V M    , ( A . 20 ) \textbf M^{\dagger}=\textbf U_{_M}\pmb\Sigma^{\dagger}_M\textbf V^{\dagger}_M\ \ ,\qquad\qquad\qquad(A.20)

其中 Σ M = diag ( σ 1 1 , , σ r 1 ) \pmb\Sigma^{\dagger}_{_M}=\text{diag}(\sigma^{−1}_{_1},\dots,\sigma^{−1}_{_r}) 。对于具有满秩的任何 m × m m\times m 方阵 M \textbf M ,即 r = m r=m ,伪逆与矩阵逆相同: M = M 1 \textbf M^{\dagger}=\textbf M^{−1}

A.2.3  对称半正定(SPSD, symmetric positive semidefinite)矩阵

定义 A.7 对于所有的 x R m \textbf x\in\mathbb R^m ,当且仅当

x Mx 0 ( A . 21 ) \textbf x^\top\textbf M\textbf x\ge 0\qquad\qquad\qquad(A.21)

称对称矩阵(symmetric matrix) M R m × m \textbf M\in\mathbb R^{m\times m} 半正定的(positive semidefinite) 。如果不等式是严格(即 x Mx > 0 \textbf x^\top\textbf M\textbf x> 0 )的,则称 M \textbf M 正定的(positive definite)

核矩阵(见第6章)和正交投影矩阵是SPSD矩阵的两个例子。如果矩阵 M \textbf M 的特征值都是非负的,则可以直接证明矩阵 M \textbf M 是SPSD矩阵。 此外,以下属性适用于任何SPSD矩阵 M \textbf M

  • M \textbf M 允许对某个矩阵 X \textbf X 进行分解 M = X X \textbf M=\textbf X^\top\textbf X ,而Cholesky分解 提供了这样一种分解,其中 X \textbf X 是上三角矩阵。
  • M \textbf M 的左右奇异向量相同, M \textbf M 的SVD也是其特征值分解。
  • 任意矩阵 X = U X Σ X V X \textbf X=\textbf U_{_{X}}\Sigma_{_X}V^\top_X 的 SVD 定义了两个相关的SPSD矩阵的SVD:左奇异向量( U X \textbf U_{_X} )是 XX \textbf{XX}^\top 的特征向量,右奇异向量( V X \textbf V_{_X} )是 X X \textbf X^\top\textbf X 的特征向量以及 X \textbf X 的非零奇异值是 XX \textbf{XX}^\top X X \textbf X^\top\textbf X 的非零特征值的平方根。
  • M \textbf M 的迹是其奇异值的总和,即 Tr [ M ] = i = 1 r σ i ( M ) \text{Tr}[\textbf M]=\sum^r_{i=1}\sigma_{_i}(\textbf M) ,其中 rank ( M ) = r \text{rank}(\textbf M)=r
  • M \textbf M 的顶部奇异向量 u 1 \textbf u_{_1} 使瑞利熵(Rayleigh quotient)最大化,其定义为
    r ( x , M ) = x Mx x x    . r(\textbf x,\textbf M)=\frac{\textbf x^\top\textbf M\textbf x}{\textbf x^\top\textbf x}\ \ .
    换句话说, u 1 = arg max x r ( x , M ) \textbf u_{_1}=\argmax_{_\textbf x}r(\textbf x,\textbf M) r ( u , M ) = σ 1 ( M ) r(\textbf u,\textbf M)=\sigma_{_1}(\textbf M) 。 同理,若 M = P U i , M \textbf M^\prime=\textbf P_{U_{_i},\perp}\textbf M (即 M \textbf M 在与 U i \textbf U_{_i} 正交的子空间上的投影),则 u i + 1 = arg max x r ( x , M ) \textbf u_{_{i+1}}=\argmax_{_{\textbf x}}r(\textbf x,\textbf M^\prime) ,其中 u i + 1 \textbf u_{_{i+1}} M \textbf M 的第 ( i + 1 ) (i+1) 个奇异向量。

猜你喜欢

转载自juejin.im/post/7018468261666766862