A 线性代数回顾

在这个附录中，我们介绍一些线性代数的基本概念，这些概念与本书中所介绍的材料有关。本附录并不代表一个详尽的教程，它假设读者有一些关于这个主题的预先的知识。

A.1 向量和范数

我们用向量空间 $\mathbb H$ 表示，它的维数可以是无限大的。

A.1.1 范数

定义 A.1 一个映射 $\Phi:\mathbb H\to\mathbb R_{_+}$ ，如果它满足以下条件：

确定性： $\forall\textbf x\in\mathbb H$ ， $\Phi(\textbf x)=0\Leftrightarrow\textbf x=\textbf0$ ;
同次性: $\forall\textbf x\in\mathbb H$ ， $\forall\alpha\in\mathbb H$ ， $\Phi(\alpha\textbf x)=|\alpha|\Phi(\textbf x)$ ;
三角不等式： $\forall\textbf x,\textbf y\in\mathbb H$ ， $\Phi(\mathcal x+\mathcal y)\le\Phi(\mathcal x)+\Phi(\mathcal y)$ .

被称为定义为在 $\mathbb H$ 上的范数。
范数通常用 $\|\cdot\|$ 表示。向量范数的例子是 $\mathbb R$ 和 $\mathbb R^{N}$ 上的欧几里得（或 $L_{_2}$ ）范数。更一般地，对于在 $\mathbb R^{N}$ 上的任何 $\mathcal p\ge1$ 的 $L_{_\mathcal p}$ 范数定义为

\forall\textbf x\in\mathbb R^{N},\|\mathcal x\|_{_p}=\big(\sum^{N}_{j=1}\vert\mathcal x_{_j}\vert^{\mathcal p}\big)^{1/\mathcal p}\ \ .\qquad\qquad\qquad(A.1)

$L_{1}$ 、 $L_{_2}$ 和 $L_{\infty}$ 范数是一些最常用的范数， $\|\mathcal x\|_{\infty}=\max_{_{j\in[N]}}\vert\mathcal x\vert$ 。两个 $\|\cdot\|$ 和 $\|\cdot\|^\prime$ 被认为是等价的，存在 $\alpha,\beta>0$ 这样对于所有 $\mathcal x\in\mathbb H$ ,

\alpha\|\textbf x\|\le\|\textbf x\|^\prime\le\beta\|\textbf x\|\ \ .\qquad\qquad\qquad\qquad(A.2)

下列与这些规范相关的一般不等式可以直接被证明的：

\|\textbf x\|_{_2}\le\|\textbf x\|_{_1}\le\sqrt N\|\textbf x\|_{_2}\qquad\qquad\qquad\qquad（A.3)

\|\textbf x\|_{_\infty}\le\|\textbf x\|_{2}\le\sqrt N\|\textbf x\|_{_\infty}\qquad\qquad\qquad\qquad(A.4)

\|\textbf x\|_{_\infty}\le\|\textbf x\|_{_1}\le N\|\textbf x\|_{_\infty}\ \ .\qquad\qquad\qquad\qquad(A.5)

第一行的第二个不等式可以用稍后给出的Cauchy-Schwarz不等式 来表示，而其他不等式是清楚的。这些不平等表明了这三个标准的等价性。更一般地说，有限维空间上的所有规范都是等价的。对于 $L_{_\infty}$ 范数，下列附加性质成立:对于所有 $\textbf x\in\mathbb H$ ,

\forall\mathcal p\geqslant1,\|\textbf x\|_{_\infty}\le\|\textbf x\|_{_\mathcal p}\le N^{1/\mathcal p}\|\textbf x\|_{_\infty}\qquad\qquad\qquad\qquad(A.6)

\underset{p\to+\infty}{\lim}\ \|\textbf x\|_{_p}=\|\textbf x\|_{_{\infty}}\ \ .\qquad\qquad\qquad\qquad(A.7)

第一行的不等式很简单，暗示了第二行的极限性质。

定义 A.2（Hilbert空间） Hilbert空间是配有内积 $\langle\cdot,\cdot\rangle$ 的向量空间，并且是完备的（所有Cauchy序列都是收敛的）。内积归纳出一个规范，定义如下：

\forall\textbf x\in\mathbb H\ ,\ \|\textbf x\|_{_{\mathbb H}}=\sqrt{\langle\textbf x,\textbf x\rangle}\ \ .\qquad\qquad\qquad\quad(A.8)

A.1.2 对偶范数

定义 A.3 设 $\|\cdot\|$ 为 $\mathbb R^N$ 上的一个范数。然后，与 $\|\cdot\|$ 相关联的对偶范数 $\|\cdot\|_{_*}$ 是由下式定义的范数：

\forall\textbf y\in\mathbb R^N\ ,\ \|\textbf y\|_{_*}=\underset{\|\textbf x\|=1}{\sup}\vert\langle\textbf y,\textbf x\rangle\vert\ \ .\qquad\qquad\qquad(A.9)

对于任何共轭的 $p,q\ge1$ 即 $\frac{1}p+\frac{1}q=1$ ， $L_p$ 和 $L_q$ 范数是彼此的对偶范数。特别地， $L_{_2}$ 的对偶范数是 $L_{_2}$ 范数， $L_{_1}$ 范数的对偶范数是 $L_{_\infty}$ 范数。
命题 A.4（Hölder不等式） 设 $p,q\ge1$ 是共轭的： $\frac1p+\frac1q=1$ 。则对于所有的 $x,y\in\mathbb R^N$ ，有

\vert\langle\textbf x,\textbf y\rangle\vert\le\|\textbf x\|_{_p}\|\textbf y\|_{_q}\ \ ，\qquad\qquad\qquad(A.10)

当对于所有的 $i\in[N]$ 都有 $\vert y_{_i}\vert=\vert x_{_i}\vert^{p-1}$ 时取等。
证明： 上面的陈述对于 $\textbf x=\pmb 0$ 或 $\textbf y=\pmb 0$ 毫无意义；因此，我们可以假设 $\textbf x\neq\pmb 0$ 和 $\textbf y\neq\pmb 0$ 。令 $a,b>0$ 。根据对数函数的凹函数性质(见定义B.7)，我们可以有

\log\left(\frac1pa^{^p}+\frac1qb^{^q}\right)\ge\frac1p\log(a^{^p})+\frac1q\log(b^{^q})=\log(a)+\log(b)=\log(ab)\ \ .

对不等式的最左边和最右边同时取对数有

\frac1pa^{^p}+\frac1qb^{^q}\ge ab\ \ ,

这就是所谓的杨氏（Young）不等式。对于所有 $j\in[N]$ ，将 $a=\frac{\vert x_{_j}\vert}{\|\textbf x\|_{_p}}$ 和 $b=\frac{\vert y_{_j}\vert}{\|\textbf y\|_{_q}}$ 带入不等式，并求和有

\frac{\sum^{N}_{j=1}\vert x_{_j}y_{_j}\vert}{\|\textbf x\|_{_p}\|\textbf y\|_{_q}}\le\frac1p\frac{\|\textbf x\|^p}{\|\textbf x\|^p}+\frac1q\frac{\|\textbf y\|^q}{\|\textbf y\|^q}=\frac1p+\frac1q=1\ \ .

因为 $\vert\langle\textbf x,\textbf y\rangle\vert\le\sum^{N}_{j=1}\vert x_{_j}y_{_j}\vert$ ，不等式声明如下。取等的情况可以直接验证。
取 $p=q=2$ 立马得到以下结果，称为Cauchy-Schwarz不等式。
推论 A.5（Cauchy-Schwarz不等式） 对于所有的 $\textbf x,\textbf y\in\mathbb R^N$ ，有

\vert\langle\textbf x,\textbf y\rangle\vert\le\|\textbf x\|_{_2}\|\textbf y\|_{_2}\ \ ,\qquad\qquad\qquad(A.11)

当且仅当 $\textbf x$ 和 $\textbf y$ 共线时取等。
设 $\mathcal H$ 为 $\mathbb R^N$ 中的超平面，其表达式如下

\textbf w\cdot\textbf x+b=0\ \ ,

其中法向量 $\textbf w\in\mathbb R^N$ 和偏置项 $b\in\mathbb R$ 。令 $d_p(\textbf x,\mathcal H)$ 表示点 $\textbf x$ 到超平面 $\mathcal H$ 的距离，有

d_p(\textbf x,\mathcal H)=\underset{\textbf x^\prime\in\mathcal H}{\inf}\|\textbf x^\prime-\textbf x\|_{_p}\ \ .\qquad\qquad\qquad(A.12)

然后，对于 $p\ge 1$ 下面的等式成立：

d_p(\textbf x,\mathcal H)=\frac{\vert\textbf w\cdot\textbf x+b\vert}{\|\textbf w\|_{_q}}\ \ ,\qquad\qquad\qquad(A.13)

其中 $q$ 是 $p$ 的共轭： $\frac1p+\frac1q=1$ 。(A.13)可以通过将附录B的结果直接应用于约束优化问题(A.12)来显示。

A.1.3 范数之间的关系

在等式(A.3)、(A.4)和(A.5)中看到的不等式的一般形式适用于所有 $L_p$ 范数，如下面的命题所示。
命题 A.6 令 $1\le p\le q$ 。然后下面的不等式对于所有的 $\textbf x\in\mathbb R^N$ 成立：

\|x\|_{_q}\le\|x\|_{_p}\le N^{^{\frac1p-\frac1q}}\|x\|_{_q}\ \ .\qquad\qquad\qquad(A.14)

证明： 首先，假设 $\textbf x\neq\pmb 0$ ，否则不等式就不成立了。然后第一个不等式在 $1\le p\le q$ 下成立：

\left[\frac{\|\textbf x\|_{_p}}{\|\textbf x\|_{_q}}\right]^p=\sum^N_{i=1}\bigg[\underbrace{\frac{x_{_i}}{\|\textbf x\|}_q}_{\le1}\bigg]^p\ge\sum^N_{i=1}\bigg[{\frac{x_{_i}}{\|\textbf x\|}_q}\bigg]^q=1\ \ .

最后，第二个不等式通过使用Hölder不等式（命题 A.4）证明如下

\|\textbf x\|_{_p}=\left[\sum^N_{i=1}\vert x_{_i}\vert^p\right]^\frac{1}{p}\le\left[\left(\sum^N_{i=1}(\vert x_{_i}\vert^p)^{\frac{p}{q}}\right)^{\frac pq}\left(\sum^N_{i=1}(1)^{^{\frac{q}{q-p}}}\right)^{(1-\frac pq)}\right]^{\frac1p}=\|\textbf x\|_{_q}N^{^{\frac1p-\frac1q}}\ \ ,

得证。

A.2 矩阵

对于一个具有 $m$ 行 $n$ 列的矩阵 $\mathbf M\in\mathbb R^{m×n}$ ，我们用 $\textbf M_{ij}$ 表示它的第 $ij$ 项，对于所有 $i\in[m]$ 和 $j\in[n]$ 。对于任何 $m\ge 1$ ，我们用 $\textbf I_{_m}$ 表示 $m$ 维单位矩阵，当维度在上下文中明确时，将其称为 $\textbf I$ 。
用 $\textbf M^\top$ 表示 $\textbf M$ 的转置，对于所有的 $(i,j)$ 有 $(\textbf M^\top)_{ij}=\textbf M_{ji}$ 。对于任意两个矩阵 $\textbf M\in\mathbb R^{m\times n}$ 和 $\textbf N\in\mathbb R^{n\times p}$ ，有 $(\textbf M\textbf N)^\top=\textbf N^\top\textbf M^\top$ 。当且仅当对于所有的 $(i,j)$ 有 $\textbf M_{ij}=\textbf M_{ji}$ 时 $\textbf M$ 被称为对称的（矩阵），即 $\textbf M=\textbf M^\top$ 。
方阵 $\textbf M$ 的迹由 $\text{Tr}[\textbf M]$ 表示，定义为 $\text{Tr}[\textbf M]=\sum^{N}_{i=1}\textbf M_{ii}$ 。对于任意两个矩阵 $\textbf M\in\mathbb R^{m\times n}$ 和 $\textbf N\in\mathbb R^{n\times m}$ ，以下恒等式成立： $\text{Tr}[\textbf {MN}]= Tr[\textbf {NM}]$ 。更一般地，以下循环性质适用于适当维度矩阵 $\textbf M$ 、 $\textbf N$ 和 $\textbf P$ ：

\text{Tr}[\textbf{MNP}]=\text{Tr}[\textbf{PMN}]=\text{Tr}[\textbf{NPM}]\ \ .\qquad\qquad\qquad(A.15)

当 $\textbf M$ 满秩时存在有方阵 $\textbf M$ 的逆矩阵用 $\textbf M^{−1}$ 表示，并且是满足 $\textbf{MM}^{−1}=\textbf M^{−1}\textbf M=\textbf I$ 的唯一的矩阵。

矩阵范数是在 $\mathbb R^{m×n}$ 上定义的范数，其中 $m$ 和 $n$ 是所考虑矩阵的维度。许多矩阵范数，包括下面讨论的那些，满足以下乘法性质：

\|\textbf M\textbf N\|\le\|\textbf M\|\|\textbf N\|\ \ .\qquad\qquad\qquad(A.16)

由向量范数 $\|\cdot\|_{_p}$ 导出的矩阵范数 或由该范数导出的算子范数（operator norm，即定义在算子上的范数）也表示为 $\|\cdot\|_{_p}$ ，定义为

\|\textbf M\|_{_p}=\underset{\|\textbf x\|_{_p}\le1}{\sup}\|\textbf{Mx}\|_{_p}\ \ .\qquad\qquad\quad(A.17)

$p=2$ 的范数称为谱范数（spectral norm），它等于 $\textbf M$ 的最大奇异值（见A.2.2节），或 $\textbf M^\top\textbf M$ 的最大特征值的平方根：

\|\textbf M\|_{_2}=\sigma_{_1}(\textbf M)=\sqrt{\lambda_{\max}(\textbf M^\top\textbf M)}\ \ .\qquad\quad(A.18)

并非所有矩阵范数都是由向量范数导出的。用 $\|\cdot\|_{_F}$ 表示的Frobenius范数是此类范数中最著名的，它的定义为：

\|\textbf M\|_{_F}=\left(\sum^{m}_{i=1}\sum^{n}_{j=1}\textbf M^2_{_{ij}}\right)^{\frac1{_2}}\ \ .

当将 $\textbf M$ 视为大小为 $mn$ 的向量时，Frobenius范数可以被当作向量的 $L_{_2}$ 范数。它也与 Frobenius积 导出的范数一致，这是对于所有 $\textbf M,\textbf N\in\mathbb R^{m\times n}$ 定义的内积，如下

\langle\textbf M,\textbf N\rangle_{_F}=\text{Tr}[\textbf M^\top\textbf N]\ \ .\qquad\qquad\qquad(A.19)

这将Frobenius范数与 $\textbf M$ 的奇异值联系起来：

\|\textbf M\|^2_{_F}=\text{Tr}[\textbf M^\top\textbf M]=\sum^r_{i=1}\sigma_{_i}(\textbf M)^{^2}\ \ ,

其中 $r=\text{rank}(\textbf M)$ 。第二个等式来自 SPSD矩阵的性质（见A.2.3节）。
对于任意的 $j\in[n]$ ，令 $\textbf M_{_j}$ 表示 $\textbf M$ 的第 $j$ 列，其中 $\textbf M=[\textbf M_{_1}\cdots\textbf M_{_n}]$ 。然后，对于任意的 $p,r\ge 1$ ， $\textbf M$ 的 $L_{_{p,r}}$ 群范数（group norm）定义为

\|\textbf M\|_{_{p,r}}=\left(\sum^n_{j=1}\|\textbf M_j\|^r_{_p}\right)^{1/r}\ \ .

最常用的群范数之一是由下式定义的 $L_{_{2,1}}$ 范数

\|\textbf M\|_{_{2,1}}=\sum^n_{i=1}\|\textbf M_{_i}\|_{_2}\ \ .

A.2.2 奇异值分解（Singular value decomposition）

$\textbf M$ 的紧凑的奇异值分解（SVD），其中 $r=\text{rank}(M)\le \min(m,n)$ ，可以写成如下：

\textbf M=\textbf U_{_M}\pmb\Sigma_{_M}\textbf V^\top_M\ \ .

$r\times r$ 的矩阵 $\pmb\Sigma_{_M}=\text{diag}(\sigma_{_1},\dots,\sigma_{_2})$ 是对角矩阵，包含按降序排列的 $\textbf M$ 的非零奇异值 ，即 $\sigma_{_1}\ge\dots\ge\sigma_{_r}>0$ 。矩阵 $\textbf U_{_M}\in\mathbb R^{m\times r}$ 和 $\textbf V_{_M}\in\mathbb R^{n\times r}$ 具有正交列，其中包含与排序后的奇异值对应的 $\textbf M$ 的左奇异向量和右奇异向量。我们用 $\textbf U_{_k}\in\mathbb R^{m\times k}$ 表示 $\textbf M$ 的顶部 $k\le r$ 个左奇异向量。
$\textbf U_{_k}$ 的范围（ span）上的正交投影 可以写成 $\textbf P_{U_{_k}}=\textbf U_{_k}\textbf U^\top_k$ ，其中 $\textbf P_{U_{_k}}$ 是对称半正定的（SPSD）和幂等的，即 $\textbf P^2_{U_{_k}}=\textbf P_{U_{_k}}$ 。此外，在正交于 $\textbf U_{_k}$ 的子空间上的正交投影定义为 $\textbf P_{U_{_k},\perp}$ 。类似的定义，即 $\textbf V_{_k},PVk,\textbf P_{V_{_k},\perp}$ ，适用于右奇异向量。
矩阵 $\textbf M$ 的广义逆 矩阵或Moore-Penrose伪逆 矩阵由 $\textbf M^{\dagger}$ 表示，定义为

\textbf M^{\dagger}=\textbf U_{_M}\pmb\Sigma^{\dagger}_M\textbf V^{\dagger}_M\ \ ,\qquad\qquad\qquad(A.20)

其中 $\pmb\Sigma^{\dagger}_{_M}=\text{diag}(\sigma^{−1}_{_1},\dots,\sigma^{−1}_{_r})$ 。对于具有满秩的任何 $m\times m$ 方阵 $\textbf M$ ，即 $r=m$ ，伪逆与矩阵逆相同： $\textbf M^{\dagger}=\textbf M^{−1}$ 。

A.2.3 对称半正定（SPSD， symmetric positive semidefinite）矩阵

定义 A.7 对于所有的 $\textbf x\in\mathbb R^m$ ，当且仅当

\textbf x^\top\textbf M\textbf x\ge 0\qquad\qquad\qquad(A.21)

称对称矩阵（symmetric matrix） $\textbf M\in\mathbb R^{m\times m}$ 是半正定的（positive semidefinite） 。如果不等式是严格（即 $\textbf x^\top\textbf M\textbf x> 0$ ）的，则称 $\textbf M$ 是正定的（positive definite） 。

核矩阵（见第6章）和正交投影矩阵是SPSD矩阵的两个例子。如果矩阵 $\textbf M$ 的特征值都是非负的，则可以直接证明矩阵 $\textbf M$ 是SPSD矩阵。此外，以下属性适用于任何SPSD矩阵 $\textbf M$ ：

$\textbf M$ 允许对某个矩阵 $\textbf X$ 进行分解 $\textbf M=\textbf X^\top\textbf X$ ，而Cholesky分解 提供了这样一种分解，其中 $\textbf X$ 是上三角矩阵。
$\textbf M$ 的左右奇异向量相同， $\textbf M$ 的SVD也是其特征值分解。
任意矩阵 $\textbf X=\textbf U_{_{X}}\Sigma_{_X}V^\top_X$ 的 SVD 定义了两个相关的SPSD矩阵的SVD：左奇异向量（ $\textbf U_{_X}$ ）是 $\textbf{XX}^\top$ 的特征向量，右奇异向量（ $\textbf V_{_X}$ ）是 $\textbf X^\top\textbf X$ 的特征向量以及 $\textbf X$ 的非零奇异值是 $\textbf{XX}^\top$ 和 $\textbf X^\top\textbf X$ 的非零特征值的平方根。
$\textbf M$ 的迹是其奇异值的总和，即 $\text{Tr}[\textbf M]=\sum^r_{i=1}\sigma_{_i}(\textbf M)$ ，其中 $\text{rank}(\textbf M)=r$ 。
$\textbf M$ 的顶部奇异向量 $\textbf u_{_1}$ 使瑞利熵（Rayleigh quotient）最大化，其定义为 $r(\textbf x,\textbf M)=\frac{\textbf x^\top\textbf M\textbf x}{\textbf x^\top\textbf x}\ \ .$ 换句话说， $\textbf u_{_1}=\argmax_{_\textbf x}r(\textbf x,\textbf M)$ 和 $r(\textbf u,\textbf M)=\sigma_{_1}(\textbf M)$ 。同理，若 $\textbf M^\prime=\textbf P_{U_{_i},\perp}\textbf M$ （即 $\textbf M$ 在与 $\textbf U_{_i}$ 正交的子空间上的投影），则 $\textbf u_{_{i+1}}=\argmax_{_{\textbf x}}r(\textbf x,\textbf M^\prime)$ ，其中 $\textbf u_{_{i+1}}$ 是 $\textbf M$ 的第 $(i+1)$ 个奇异向量。

Conclusion A

A 线性代数回顾

A.1 向量和范数

A.1.1 范数

A.1.2 对偶范数

A.1.3 范数之间的关系

A.2 矩阵

A.2.2 奇异值分解（Singular value decomposition）

A.2.3 对称半正定（SPSD， symmetric positive semidefinite）矩阵

目录

A 线性代数回顾

A.1 向量和范数

A.1.1 范数

A.1.2 对偶范数

A.1.3 范数之间的关系

A.2 矩阵

A.2.2 奇异值分解（Singular value decomposition）

A.2.3 对称半正定（SPSD， symmetric positive semidefinite）矩阵

猜你喜欢

目录

热门文章