文章目录

1 线性代数与矩阵论
2 微积分
3 数学优化
4 概率论与随机过程
5 信息论

1 线性代数与矩阵论

线性代数主要包含向量、向量空间（或称线性空间）以及向量的线性变换和有限维的线性方程组。

1.1 向量与向量空间

1.1.1 向量

标量（Scalar）是一个实数，只有大小，没有方向。而向量（Vector）是由一组实数组成的有序数组，同时具有大小和方向。一个 $n$ 维向量 $a$ 是由 $n$ 个有序实数组成，表示为
在这里插入图片描述
其中 $a_i$ 称为向量 $a$ 的第 $i$ 个分量，或第i维。向量符号一般用黑体小写字母 $a, b, c$ ，或小写希腊字母 $α, β, γ$ 等来表示

1.1.2 向量空间

向量空间（Vector Space），也称线性空间（Linear Space），是指由向量组成的集合，并满足以下两个条件：

向量加法 $+$ ：向量空间 $V$ 中的两个向量 $a$ 和 $b$ ，它们的和 $a + b$ 也属于空间 $V$ ；
标量乘法·：向量空间V中的任一向量 $a$ 和任一标量 $c$ ，它们的乘积 $c \cdot a$ 也属于空间 $V$ 。

欧氏空间 一个常用的线性空间是欧氏空间（Euclidean Space）。一个欧氏空间表示通常为 $R^n$ ，其中 $n$ 为空间维度（Dimension）。欧氏空间中向量的加法和标量乘法定义为：
在这里插入图片描述
线性子空间 向量空间 $V$ 的线性子空间 $U$ 是 $V$ 的一个子集，并且满足向量空间的条件（向量加法和标量乘法）。
线性无关 线性空间V中的一组向量 ${v_1,v_2,··· ,v_n}$ ，如果对任意的一组标量 $λ_1,λ_2,··· ,λ_n$ ，满足 $λ_1v_1 + λ_2v_2 +···+ λ_nv_n = 0$ ，则必然 $λ_1 = λ_2 = ··· = λ_n =0$ ，那么 ${v_1,v_2,··· ,v_n}$ 是线性无关的，也称为线性独立的。
基向量 向量空间 $V$ 的基（Base） $B={e_1,e_2,··· ,e_n}$ 是 $V$ 的有限子集，其元素之间线性无关。向量空间 $V$ 所有的向量都可以按唯一的方式表达为 $B$ 中向量的线性组合。对任意 $v \in V$ ，存在一组标量 $λ_1,λ_2,··· ,λ_n)$ 使得
在这里插入图片描述
其中基B中的向量称为基向量（Base Vector）。如果基向量是有序的，则标量 $λ_1,λ_2,··· ,λ_n)$ 称为向量 $v$ 关于基 $B$ 的坐标（Coordinates）。
$n$ 维空间V的一组标准基（Standard Basis）为

$V$ 中的任一向量 $v=[v_1,v_2,··· ,v_n]$ 可以唯一的表示为
在这里插入图片描述
$v_1,v_2,··· ,v_n$ 也称为向量v的笛卡尔坐标（Cartesian Coordinate）。
向量空间中的每个向量可以看作是一个线性空间中的笛卡儿坐标。
内积 一个 $n$ 维线性空间中的两个向量 $a$ 和 $b$ ，其内积为

正交 如果向量空间中两个向量的内积为 $0$ ，则它们正交（Orthogonal）。如果向量空间中一个向量 $v$ 与子空间 $U$ 中的每个向量都正交，那么向量 $v$ 和子空间 $U$ 正交。

1.1.3 向量范数

范数（Norm）是一个表示向量“长度”的函数，为向量空间内的所有向量赋予非零的正长度或大小。对于一个 $n$ 维向量 $v$ ，一个常见的范数函数为 $l p$ 范数
在这里插入图片描述
$l 1$ 范数 $l 1$ 范数为向量的各个元素的绝对值之和。

$l 2$ 范数 $l 2$ 范数为:

$l 2$ 范数又称为 $E u c l i d e a n$ 范数或者 $F r o b e n i u s$ 范数。从几何角度，向量也可以表示为从原点出发的一个带箭头的有向线段，其 $l 2$ 范数为线段的长度，也常称为向量的模。
$l \infty$ 范数 $l \infty$ 范数为向量的各个元素的最大绝对值，
在这里插入图片描述

图A.1给出了常见范数的示例,为二维向量[x,y]的范数。

1.1.4 常见的向量

全0向量指所有元素都为0的向量，用0表示。全0向量为笛卡尔坐标系中的原点。
全1向量指所有值为1的向量，用1表示。
one-hot向量为有且只有一个元素为1，其余元素都为0的向量。one-hot向量是在数字电路中的一种状态编码，指对任意给定的状态，状态寄存器中只有 l位为1，其余位都为0。

1.2 矩阵

1.2.1 线性映射

线性映射（Linear Mapping）是指从线性空间 $V$ 到线性空间 $W$ 的一个映射函数 $f : V \to W$ ，并满足：对于 $V$ 中任何两个向量 $u$ 和 $v$ 以及任何标量 $c$ ，有
在这里插入图片描述
两个有限维欧氏空间的映射函数 $f : R^n →R^m$ 可以表示为

其中 $A$ 定义为 $m \times n$ 的矩阵（Matrix），是一个由 $m$ 行 $n$ 列元素排列成的矩形阵列。一个矩阵 $A$ 从左上角数起的第 $i$ 行第 $j$ 列上的元素称为第 $I, j$ 项，通常记为 $[A] i j$ 或 $a i j$ 。矩阵 $A$ 定义了一个从 $R^n$ 到 $R^m$ 的线性映射；向量 $x∈R^n$ 和 $y∈R^m$ 分别为两个空间中的列向量，即大小为 $n \times 1$ 的矩阵。
在这里插入图片描述

1.2.2 矩阵操作

加 如果 $A$ 和 $B$ 都为 $m \times n$ 的矩阵，则 $A$ 和 $B$ 的加也是 $m \times n$ 的矩阵，其每个元素是 $A$ 和 $B$ 相应元素相加。
在这里插入图片描述
乘积 假设有两个 $A$ 和 $B$ 分别表示两个线性映射 $g : R^m → R^k$ 和 $f : R^n → R^m$ ，则其复合线性映射

其中 $A B$ 表示矩阵 $A$ 和 $B$ 的乘积，定义为

两个矩阵的乘积仅当第一个矩阵的列数和第二个矩阵的行数相等时才能定义。如 $A$ 是 $k \times m$ 矩阵和 $B$ 是 $m \times n$ 矩阵，则乘积 $A B$ 是一个 $k \times n$ 的矩阵。
矩阵的乘法满足结合律和分配律：
在这里插入图片描述
Hadamard积 A和B 的Hadamard积，也称为逐点乘积，为A和B 中对应的元素相乘。

一个标量 $c$ 与矩阵 $A$ 乘积为 $A$ 的每个元素是 $A$ 的相应元素与 $c$ 的乘积

转置 $m \times n$ 矩阵 $A$ 的转置（Transposition）是一个 $n \times m$ 的矩阵，记为 $A^T，A^T$ 的第 $i$ 行第 $j$ 列的元素是原矩阵 $A$ 的第 $j$ 行第 $i$ 列的元素，
在这里插入图片描述
向量化 矩阵的向量化是将矩阵表示为一个列向量。这里， $v e c$ 是向量化算子。设 $A =[a_{ij}]_{m×n}$ ，则

迹 方块矩阵 $A$ 的对角线元素之和称为它的迹（Trace），记为 $t r (A)$ 。尽管矩阵的乘法不满足交换律，但它们的迹相同，即 $t r (A B) = t r (B A)$ 。
行列式 方块矩阵A的行列式是一个将其映射到标量的函数，记作 $d e t (A)$ 或 $∣ A ∣$ 。行列式可以看做是有向面积(二阶行列式)或体积（三阶行列式）的概念在欧氏空间中的推广。在 $n$ 维欧氏空间中，行列式描述的是一个线性变换对“体积”所造成的影响。
一个 $n \times n$ 的方块矩阵 $A$ 的行列式定义为：
在这里插入图片描述
其中 $S_n$ 是 ${1,2,...,n}$ 的所有排列的集合， $σ (i)$ 是其中一个排列， $σ (i)$ 是元素i在排列σ中的位置，sgn(σ)表示排列σ的符号差，定义为

如： $\sigma(2431)=1+2+1(2比1大，4比3和1大，3比1大)$
其中逆序对的定义为：在排列σ中，如果有序数对 $(i, j)$ 满足 $1 \leq i < j \leq n$ 但 $σ (i) > σ (j)$ ，则其为 $σ$ 的一个逆序对。
秩 一个矩阵 $A$ 的列秩是 $A$ 的线性无关的列向量数量，行秩是 $A$ 的线性无关的行向量数量。一个矩阵的列秩和行秩总是相等的，简称为秩（Rank）。
一个 $m \times n$ 的矩阵的秩最大为 $m i n (m, n)$ 。两个矩阵的乘积 $A B$ 的秩 $r a n k (A B) \leq m i n (r a n k (A), r a n k (B))$ 。
矩阵范数 矩阵的范数有很多种形式，
在这里插入图片描述

1.2.3 矩阵类型

对称矩阵 对称矩阵（Symmetric Matrix）指其转置等于自己的矩阵，即满足 $A = A^T$ 。
对角矩阵 对角矩阵（Diagonal Matrix）是一个主对角线之外的元素皆为0的矩阵。对角线上的元素可以为0或其他值。一个 $n \times n$ 的对角矩阵 $A$ 满足：
在这里插入图片描述
对角矩阵A也可以记为 $d i a g (a)$ ， $a$ 为一个 $n$ 维向量，并满足

$n \times n$ 的对角矩阵 $A = d i a g (a)$ 和 $n$ 维向量 $b$ 的乘积为一个 $n$ 维向量

单位矩阵 单位矩阵（Identity Matrix）是一种特殊的的对角矩阵，其主对角线元素为1，其余元素为0。 $n$ 阶单位矩阵 $I_n$ ，是一个 $n \times n$ 的方块矩阵。可以记为 $I_n=diag(1,1,...,1)$ 。
一个 $m \times n$ 的矩阵A和单位矩阵的乘积等于其本身。
在这里插入图片描述
逆矩阵 对于一个 $n \times n$ 的方块矩阵 $A$ ，如果存在另一个方块矩阵 $B$ 使得

为单位阵，则称 $A$ 是可逆的。矩阵 $B$ 称为矩阵 $A$ 的逆矩阵（Inverse Matrix），记为 $A^{−1}$ 。
一个方阵的行列式等于0当且仅当该方阵不可逆。
正定矩阵 对于一个 $n \times n$ 的对称矩阵 $A$ ，如果对于所有的非零向量 $x ∈ R^n$ 都满足
在这里插入图片描述
则 $A$ 为正定矩阵（Positive-Deﬁnite Matrix）。如果 $x^TAx ≥0$ ，则 $A$ 是半正定矩阵（Positive-Semideﬁnite Matrix）。
正交矩阵 正交矩阵（Orthogonal Matrix ）A为一个方块矩阵，其逆矩阵等于其转置矩阵。

Gram矩阵 向量空间中一组向量 $v 1, v 2 \cdot \cdot \cdot, v n$ 的 $G r a m$ 矩阵（Gram Matrix） $G$ 是内积的对称矩阵，其元素 $G i j$ 为 $v^T_iv_j$

1.2.4 特征值与特征矢量

如果一个标量 $λ$ 和一个非零向量 $v$ 满足
在这里插入图片描述
则 $λ$ 和 $v$ 分别称为矩阵 $A$ 的特征值（Eigenvalue）和特征向量（Eigenvector）。

1.2.5 矩阵分解

一个矩阵通常可以用一些比较“简单”的矩阵来表示，称为矩阵分解（Matrix Decomposition, Matrix Factorization）。
奇异值分解 一个 $m \times n$ 的矩阵 $A$ 的奇异值分解（Singular Value Decomposition， SVD）定义为
在这里插入图片描述
其中 $U$ 和 $V$ 分别为 $m \times m$ 和 $n \times n$ 的正交矩阵， $Σ$ 为 $m \times n$ 的对角矩阵，其对角线上的元素称为奇异值（Singular Value）。
特征分解 一个 $n \times n$ 的方块矩阵 $A$ 的特征分解（Eigendecomposition）定义为
在这里插入图片描述
其中 $Q$ 为 $n \times n$ 的方块矩阵，其每一列都为 $A$ 的特征向量，为对角阵，其每一个对角元素为 $A$ 的特征值。
如果A为对称矩阵，则A可以被分解为

在这里插入图片描述

1.3 矩阵、向量求导法则

1.3.1行向量对元素求导

在这里插入图片描述

1.3.2 列向量对元素求导

在这里插入图片描述

1.3.3 矩阵对元素求导

在这里插入图片描述

1.3.4 元素对行向量求导

在这里插入图片描述

1.3.5 元素对列向量求导

在这里插入图片描述

1.3.6 元素对矩阵求导

在这里插入图片描述

1.3.7 行向量对列向量求导

在这里插入图片描述

1.3.8 列向量对行向量求导

在这里插入图片描述

1.3.9 行向量对行向量求导

在这里插入图片描述

1.3.10 列向量对列向量求导

在这里插入图片描述

1.3.11 矩阵对行向量求导

在这里插入图片描述

1.3.12 矩阵对列向量求导

在这里插入图片描述

1.3.13 行向量对矩阵求导

在这里插入图片描述

1.3.14 列向量对矩阵求导

在这里插入图片描述

1.3.15 矩阵对矩阵求导

在这里插入图片描述

2 微积分

2.1 导数

导数（Derivative）是微积分学中重要的基础概念。
对于定义域和值域都是实数域的函数 $f : R \to R$ ，若 $f (x)$ 在点 $x_0$ 的某个邻域 $∆ x$ 内，极限
在这里插入图片描述
在几何上，导数可以看做函数曲线上的切线斜率。图B.1给出了一个函数导数的可视化示例，其中函数 $g (x)$ 的斜率为函数 $f (x)$ 在点 $x$ 的导数， $∆ y = f (x + ∆ x) - f (x)$ 。

给定一个连续函数，计算其导数的过程称为微分（Diﬀerentiation）。微分的逆过程为积分（Integration）。函数 $f (x)$ 的积分可以写为
在这里插入图片描述
其中 $F (x)$ 称为 $f (x)$ 的原函数。
若函数 $f (x)$ 在其定义域包含的某区间内每一个点都可导，那么也可以说函数f(x)在这个区间内可导。如果一个函数 $f (x)$ 在定义域中的所有点都存在导数，则 $f (x)$ 为可微函数（Diﬀerentiable Function）。可微函数一定连续，但连续函数不一定可微。例如函数 $∣ x ∣$ 为连续函数，但在点 $x = 0$ 处不可导。
表B.1给出了几个常见函数的导数
在这里插入图片描述
高阶导数 对一个函数的导数继续求导，可以得到高阶导数。函数 $f (x)$ 的导数 $f' (x)$ 称为一阶导数， $f' (x)$ 的导数称为二阶导数，记为 $f'' (x)$ 或 $\frac{d^2f(x)}{dx^2}$

偏导数 对于一个多变量函数 $f : R^d →R$ ，它的偏导数（Partial Derivative ）是关于其中一个变量 $x_i$ 的导数，而保持其他变量固定，可以记为 $f′ _{x_i}(x)$ ， $_{x_i}f(x)$ ， $\frac{∂f (x)}{∂x_i}$ 或 $\frac{∂}{∂x_i} f(x)$ 。
雅可比矩阵：对于一个 $d$ 维向量 $x∈R^d$ ，函数 $f (x) = f (x 1, \cdot \cdot \cdot, x d) \in R$ ，则 $f (x)$ 关于向量 $x$ 的偏导数为
在这里插入图片描述
也记为：
$\bigtriangledown f(x)=\begin{bmatrix}\frac{\partial f}{\partial x_1}\\\frac{\partial f}{\partial x_2}\\\vdots\\\frac{\partial f}{\partial x_d}\end{bmatrix}$

该向量指向使函数 $f (x)$ 具有最大增量的方向。它也经常被记为 $\bigtriangledown_xf$ ，以表明它时相对于 $x$ 的微分。

若函数 $f(x)∈R^k$ 的值也为一个向量(行向量)：

$f(x)=[f_1(x), f_2(x), \dots ,f_k(x)]$

则 $f (x)$ 关于 $x$ 的偏导数为
在这里插入图片描述

2.1.1 导数法则

一个复杂函数的导数的计算可以通过以下法则来简化。

2.1.1.1 导数法则加（减）法则

$y = f (x), z = g (x)$ ，则
在这里插入图片描述

2.1.1.2 乘法法则

在这里插入图片描述

2.1.1.3 链式法则

链式法则（Chain Rule），是求复合函数导数的一个法则，是在微积分中计算导数的一种常用方法。
在这里插入图片描述

2.2 机器学习常见函数的导数

2.2.1 向量函数及其导数

在这里插入图片描述

2.2.2 按位计算的向量函数及其导数

假设一个函数f(x)的输入是标量 $x$ 。对于一组 $K$ 个标量 $x_1,··· ,x_K$ ，我们可以通过 $f (x)$ 得到另外一组 $K$ 个标量 $z_1,··· ,z_K$ ，
在这里插入图片描述
为了简便起见，我们定义 $x=[x_1,··· ,x_K]^T，z=[z_1,··· ,z_K]^T$ ，

当 $x$ 为标量时， $f (x)$ 的导数记为 $f' (x)$ 。当输入为 $K$ 维向量 $x=[x_1,··· ,x_K]^T$ 时，其导数为一个对角矩阵。

2.2.3 Logistic函数

Logistic函数是一种常用的S形函数，是比利时数学家 Pierre François Verhulst在1844-1845年研究种群数量的增长模型时提出命名的，最初作为一种生态学模型。
Logistic函数定义为：
在这里插入图片描述
这里 $e x p (\cdot)$ 函数表示自然对数， $x_0$ 是中心点， $L$ 是最大值， $k$ 是曲线的倾斜度。图B.2给出了几种不同参数的logistic函数曲线。当 $x$ 趋向于 $- \infty$ 时， $l o g i s t i c (x)$ 接近于0；当 $x$ 趋向于 $+ \infty$ 时， $l o g i s t i c (x)$ 接近于 $L$ 。
在这里插入图片描述

当参数为 $(k = 1, x 0 = 0, L = 1)$ 时，logistic函数称为标准logistic函数，记为 $σ (x)$ 。
在这里插入图片描述
标准logistic函数在机器学习中使用得非常广泛，经常用来将一个实数空间的数映射到 $(0, 1)$ 区间。
标准logistic函数的导数为

当输入为 $K$ 维向量 $x=[x_1,··· ,x_K]^T$ 时，其导数为

2.2.4 softmax函数

softmax函数是将多个标量映射为一个概率分布。
对于 $K$ 个标量 $x_1,··· ,x_K$ ，softmax函数定义为
在这里插入图片描述
这样，我们可以将 $K$ 个变量 $x_1,··· ,x_K$ 转换为一个分布： $z_1,··· ,z_K$ ，满足

当softmax函数的输入为 $K$ 维向量 $x$ 时，

其导数为

其中

3 数学优化

数学优化（Mathematical Optimization）问题，也叫最优化问题，是指在一定约束条件下，求解一个目标函数的最大值（或最小值）问题。
数学优化问题的定义为：给定一个目标函数（也叫代价函数） $f : A \to R$ ，寻找一个变量（也叫参数） $x^∗ ∈D$ ，使得对于所有 $D$ 中的 $x$ ， $f(x^∗)≤ f(x)$ （最小化）；或者 $f(x^∗)≥ f(x)$ （最大化），其中 $D$ 为变量 $x$ 的约束集，也叫可行域； $D$ 中的变量被称为是可行解。

3.1 数学优化的类型

3.1.1 离散优化和连续优化

根据输入变量x的值域是否为实数域，数学优化问题可以分为离散优化问题和连续优化问题。
离散优化问题
离散优化（Discrete Optimization）问题是目标函数的输入变量为离散变量，比如为整数或有限集合中的元素。离散优化问题主要有两个分支：

组合优化（Combinatorial Optimization）：其目标是从一个有限集合中找出使得目标函数最优的元素。在一般的组合优化问题中，集合中的元素之间存在一定的关联，可以表示为图结构。典型的组合优化问题有旅行商问题、最小生成树问题、图着色问题等。很多机器学习问题都是组合优化问题，比如特征选择、聚类问题、超参数优化问题以及结构化学习（Structured Learning）中标签预测问题等。
整数规划（Integer Programming）：输入变量 $x∈Z^d$ 为整数。一般常见的整数规划问题为整数线性规划（Integer Linear Programming，ILP）。整数线性规划的一种最直接的求解方法是：
（1）去掉输入必须为整数的限制，将原问题转换为一般的线性规划问题，这个线性规划问题为原问题的松弛问题；
（2）求得相应松弛问题的解；
（3）把松弛问题的解四舍五入到最接近的整数。但是这种方法得到的解一般都不是最优的，因此原问题的最优解不一定在松弛问题最优解的附近。另外，这种方法得到的解也不一定满足约束条件。

离散优化问题的求解一般都比较困难，优化算法的复杂度都比较高。
连续优化问题
连续优化（Continuous Optimization）问题是目标函数的输入变量为连续变量 $x∈R^d$ ，即目标函数为实函数。本节后面的内容主要以连续优化为主。

3.1.2 无约束优化和约束优化

在连续优化问题中，根据是否有变量的约束条件，可以将优化问题分为无约束优化问题和约束优化问题。
无约束优化问题（Unconstrained Optimization）的可行域为整个实数域 $D= R^d$ ，可以写
在这里插入图片描述
约束优化问题（Constrained Optimization）中变量 $x$ 需要满足一些等式或不等式的约束。约束优化问题通常使用拉格朗日乘数法来进行求解。
最优化问题一般可以表示为求最小值问题。求 $f (x)$ 最大值等价于求 $- f (x)$ 的最小值。

3.1.3 线性优化和非线性优化

如果在公式(C.1)中，目标函数和所有的约束函数都为线性函数，则该问题为线性规划问题（Linear Programming）。相反，如果目标函数或任何一个约束函数为非线性函数，则该问题为非线性规划问题（Nonlinear Programming）。
在非线性优化问题中，有一类比较特殊的问题是凸优化问题（Convex Programming）。在凸优化问题中，变量 $x$ 的可行域为凸集，即对于集合中任意两点，它们的连线全部位于在集合内部。目标函数 $f$ 也必须为凸函数，即满足
在这里插入图片描述

图片来源：https://www.cnblogs.com/always-fight/p/9377554.html

凸优化问题是一种特殊的约束优化问题，需满足目标函数为凸函数，并且等式约束函数为线性函数，不等式约束函数为凹函数。
在数据科学的模型求解中，如果优化的目标函数是凸函数，则局部极小值就是全局最小值。这也意味着我们求得的模型是全局最优的，不会陷入到局部最优值。

3.2 优化算法

优化问题一般都是通过迭代的方式来求解：通过猜测一个初始的估计 $x_0$ ，然后不断迭代产生新的估计 $x_1,x_2,···x_t$ ，希望 $x_t$ 最终收敛到期望的最优解 $x^∗$ 。一个好的优化算法应该是在一定的时间或空间复杂度下能够快速准确地找到最优解。同时，好的优化算法受初始猜测点的影响较小，通过迭代能稳定地找到最优解 $x^∗$ 的邻域，然后迅速收敛于 $x^∗$ 。
优化算法中常用的迭代方法有线性搜索和置信域方法等。线性搜索的策略是寻找方向和步长，具体算法有梯度下降法、牛顿法、共轭梯度法等。

3.2.1 全局最优和局部最优

对于很多非线性优化问题，会存在若干个局部的极小值。局部最小值，或局部最优解 $x^∗$ 定义为：存在一个 $δ > 0$ ，对于所有的满足 $∥ x - x * ∥ \leq δ$ 的 $x$ ，公式 $f (x *) \leq f (x)$ 成立。也就是说，在 $x^∗$ 的附近区域内，所有的函数值都大于或者等于 $f(x^∗)$ 。
对于所有的 $x \in A$ ，都有 $f(x^∗)≤ f(x)$ 成立，则 $x^∗$ 为全局最小值，或全局最优解。
一般的，求局部最优解是容易的，但很难保证其为全局最优解。对于线性规划或凸优化问题，局部最优解就是全局最优解。
要确认一个点 $x^∗$ 是否为局部最优解，通过比较它的邻域内有没有更小的函数值是不现实的。如果函数 $f (x)$ 是二次连续可微的，我们可以通过检查目标函数在点 $x^∗$ 的梯度 $f(x^∗)$ 和Hessian矩阵 $^2f(x^∗)$ 来判断。
在这里插入图片描述

3.2.2 梯度下降法

梯度下降法（Gradient Descent Method），也叫最速下降法（Steepest Descend Method），经常用来求解无约束优化的极小值问题。
对于函数 $f (x)$ ，如果 $f (x)$ 在点 $x_t$ 附近是连续可微的，那么 $f (x)$ 下降最快的方向是 $f (x)$ 在 $x_t$ 点的梯度方法的反方向。
根据泰勒一阶展开公式，
在这里插入图片描述
要使得 $f(x_{t+1}) < f(x_t)$ ，就得使 $x^T∇f(x_t) < 0$ 。我们取 $x=−α∇f(x_t)$ 。如果 $α > 0$ 为一个够小数值时，那么 $f(x_{t+1}) < f(x_t)$ 成立。
这样我们就可以从一个初始值 $x_0$ 出发，通过迭代公式

如果顺利的话，序列 $x_n)$ 收敛到局部最优解 $x^∗$ 。注意每次迭代步长 $α$ 可以改变，但其取值必须合适，如果过大就不会收敛，如果过小则收敛速度太慢。
梯度下降法的过程如图C.1所示。曲线是等高线（水平集），即函数 $f$ 为不同常数的集合构成的曲线。红色的箭头指向该点梯度的反方向（梯度方向与通过该点的等高线垂直）。沿着梯度下降方向，将最终到达函数 $f$ 值的局部最优解。
在这里插入图片描述

梯度下降法为一阶收敛算法，当靠近极小值时梯度变小，收敛速度会变慢，并且可能以“之字形”的方式下降。如果目标函数为二阶连续可微，我们可以采用牛顿法。牛顿法为二阶收敛算法，收敛速度更快，但是每次迭代需要计算 Hessian矩阵的逆矩阵，复杂较高。
相反，如果我们要求解一个最大值问题，就需要向梯度正方向迭代进行搜索，逐渐接近函数的局部极大值点，这个过程则被称为梯度上升法（Gradient Ascent）。

3.2.3 拉格朗日乘数法与KKT条件

拉格朗日乘数法（Lagrange Multiplier）是约束优化问题的一种有效求解方法。约束优化问题可以表示为
在这里插入图片描述
等式约束优化问题
如果公式(C.10)中只有等式约束，我们可以构造一个拉格朗日函数 $Λ (x, λ)$

其中 $λ$ 为拉格朗日乘数，可以是正数或负数。如果 $f(x^∗)$ 是原始约束优化问题的局部最优值，那么存在一个 $KaTeX parse error: Expected group after '^' at position 3: λ*^̲$ 使得 $x^∗,λ^∗)$ 为拉格朗日函数 $Λ (x, λ)$ 的平稳点（stationary point）(平稳点是指一阶偏导数为 0 的点。平稳点不一定为极值点)。因此，只需要令 $\frac{\partial Λ(x,λ)}{\partial x}=0和\frac{\partial Λ(x,λ)}{\partial\lambda}=0$ ，得到：
在这里插入图片描述
上面方程组的解即为原始问题的可能解。在实际应用中，需根据问题来验证是否为极值点。
拉格朗日乘数法是将一个有 $d$ 个变量和 $m$ 个等式约束条件的最优化问题转换为一个有 $d + m$ 个变量的函数求平稳点的问题。拉格朗日乘数法所得的平稳点会包含原问题的所有极值点，但并不保证每个平稳点都是原问题的极值点
不等式约束优化问题
对于公式(C.10)中定义的一般约束优化问题，其拉格朗日函数为
在这里插入图片描述
其中 $a =[a_1,··· ,a_m]^T$ 为等式约束的拉格朗日乘数， $b=[b_1,··· ,b_n]^T$ 为不等式约束的拉格朗日乘数。
当约束条件不满足时，有 $max_{a,b}Λ(x,a,b) = ∞$ ；当约束条件满足时并且 $b \geq 0$ 时， $max_{a,b}Λ(x,a,b)= f(x)$ 。因此原始约束优化问题等价于
在这里插入图片描述
对偶问题 主问题的优化一般比较困难，我们可以通过交换 $m i n - m a x$ 的顺序来简化。定义拉格朗日对偶函数为

$Γ (a, b)$ 是一个凹函数，即使 $f (x)$ 是非凸的。

在这里插入图片描述
优化拉格朗日对偶函数 $Γ (a, b)$ 并得到原问题的最优下界，称为拉格朗日对偶问题（Lagrange Dual Problem）。

拉格朗日对偶函数为凹函数，因此拉格朗日对偶问题为凸优化问题。
令 $d^∗$ 是拉格朗日对偶问题的最优值，则有 $d^∗ ≤ p^∗$ ，这个性质称为弱对偶性（Weak Duality）。如果 $d^∗ = p^∗$ ，这个性质称为强对偶性（Strong Duality）
当强对偶性成立时，令 $x^∗$ 和 $a^∗,b^∗$ 分别是原问题问题和对偶问题的最优解，那么它们满足以下条件：
在这里插入图片描述
称为不等式约束优化问题的KKT条件（Karush-Kuhn-TuckerConditions）。KKT 条件是拉格朗日乘数法在不等式约束优化问题上的泛化。当原问题是凸优化问题时，满足KKT条件的解也是原问题和对偶问题的最优解。

KKT条件中需要关注的是公式(C.26)，称为互补松弛条件（Complementary Slackness）。如果最优解 $x^∗$ 出现在不等式约束的边界上 $g_j(x) = 0$ ，则 $b^∗_ j > 0$ ；如果x∗出现在不等式约束的内部 $g_j(x) < 0$ ，则 $b^∗_ j =0$ 。互补松弛条件说明当最优解出现在不等式约束的内部，则约束失效。

4 概率论与随机过程

概率论主要研究大量随机现象中的数量规律，其应用十分广泛，几乎遍及各个领域。

4.1 样本空间

样本空间是一个随机试验所有可能结果的集合。例如，如果抛掷一枚硬币，那么样本空间就是集合{正面，反面}。如果投掷一个骰子，那么样本空间就是 {1,2,3,4,5,6}。随机试验中的每个可能结果称为样本点。
有些试验有两个或多个可能的样本空间。例如，从52张扑克牌中随机抽出一张，样本空间可以是数字（A到K），也可以是花色（黑桃，红桃，梅花，方块）。如果要完整地描述一张牌，就需要同时给出数字和花色，这时样本空间可以通过构建上述两个样本空间的笛卡儿乘积来得到。
在这里插入图片描述

4.2 事件和概率

随机事件（或简称事件）指的是一个被赋予概率的事物集合，也就是样本空间中的一个子集。概率（Probability）表示一个随机事件发生的可能性大小，为0到1之间的一个非负实数。比如，一个0.5的概率表示一个事件有50%的可能性发生。
对于一个机会均等的抛硬币动作来说，其样本空间为“正面”或“反面”。我们可以定义各个随机事件，并计算其概率。比如，
在这里插入图片描述

4.2.1 随机变量

在随机试验中，试验的结果可以用一个数X 来表示，这个数X 是随着试验结果的不同而变化的，是样本点的一个函数。我们把这种数称为随机变量（Random Variable）。例如，随机掷一个骰子，得到的点数就可以看成一个随机变量 $X$ ， $X$ 的取值为{1,2,3,4,5,6}。
如果随机掷两个骰子，整个事件空间 $Ω$ 可以由36个元素组成：
在这里插入图片描述
一个随机事件也可以定义多个随机变量。比如在掷两个骰子的随机事件中，可以定义随机变量X 为获得的两个骰子的点数和，也可以定义随机变量Y 为获得的两个骰子的点数差。随机变量X 可以有11个整数值，而随机变量Y 只有6 个。
在这里插入图片描述 #### 离散随机变量
如果随机变量X 所可能取的值为有限可列举的，有 $n$ 个有限取值

则称 $X$ 为离散随机变量。
要了解 $X$ 的统计规律，就必须知道它取每种可能值 $x_i$ 的概率，即

$p(x)1),··· ,p(x_n)$ 称为离散型随机变量 $X$ 的概率分布（Probability Distribution）或分布，并且满足
在这里插入图片描述

注：一般用大写的字母表示一个随机变量，用小字字母表示该变量的某一个具体的取值。

常见的离散随机变量的概率分布有：
伯努利分布 在一次试验中，事件 $A$ 出现的概率为 $µ$ ，不出现的概率为 $1 - µ$ 。若用变量 $X$ 表示事件 $A$ 出现的次数，则 $X$ 的取值为0和1，其相应的分布为
在这里插入图片描述

这个分布称为伯努利分布（Bernoulli Distribution） ,又名两点分布或者0-1分布。
二项分布 在 $n$ 次伯努利分布中，若以变量 $X$ 表示事件 $A$ 出现的次数，则 $X$ 的取值为 ${0,··· ,n}$ ，其相应的分布为二项分布（Binomial Distribution）。
在这里插入图片描述

连续随机变量

与离散随机变量不同，一些随机变量X 的取值是不可列举的，由全部实数或者由一部分区间组成，比如
在这里插入图片描述
对于连续随机变量 $X$ ，它取一个具体值 $x_i$ 的概率为0，这与离散随机变量截然不同。因此用列举连续随机变量取某个值的概率来描述这种随机变量不但做不到，也毫无意义。

连续随机变量 $X$ 的概率分布一般用概率密度函数（Probability Density Function，PDF） $p (x)$ 来描述。 $p (x)$ 为可积函数，并满足
在这里插入图片描述
给定概率密度函数 $p (x)$ ，便可以计算出随机变量落入某一个区间的概率，而 $p (x)$ 本身反映了随机变量取落入 $x$ 的非常小的邻近区间中的概率大小。
常见的连续随机变量的概率分布有：
均匀分布 若 $a, b$ 为有限数， $[a, b]$ 上的均匀分布（Uniform Distribution）的概率密度函数定义为
在这里插入图片描述
正态分布 正态分布（Normal Distribution），又名高斯分布（Gaussian Distribution），是自然界最常见的一种分布，并且具有很多良好的性质，在很多领域都有非常重要的影响力，其概率密度函数为

图D.1a和D.1b分别显示了均匀分布和正态分布的概率密度函数。
在这里插入图片描述

累积分布函数

对于一个随机变量 $X$ ，其累积分布函数（Cumulative Distribution Function， CDF）是随机变量 $X$ 的取值小于等于 $x$ 的概率。
在这里插入图片描述
以连续随机变量 $X$ 为例，累积分布函数定义为

其中 $p (x)$ 为概率密度函数。图D.2给出了标准正态分布的累计分布函数。

4.2.2 随机向量

随机向量是指一组随机变量构成的向量。如果 $X_1,X_2,··· ,X_n$ 为 $n$ 个随机变量, 那么称 $X_1,X_2,··· ,X_n]$ 为一个 $n$ 维随机向量。一维随机向量称为随机变量。
随机向量也分为离散随机向量和连续随机向量。

离散随机向量

离散随机向量的联合概率分布（Joint Probability Distribution）为
在这里插入图片描述
和离散随机变量类似，离散随机向量的概率分布满足

多项分布 一个常见的离散向量概率分布为多项分布（Multinomial Distribution）。多项分布是二项分布在随机向量的推广。假设一个袋子中装了很多球，总共有 $K$ 个不同的颜色。我们从袋子中取出 $n$ 个球。每次取出一个球时，就在袋子中放入一个同样颜色的球。这样保证同一颜色的球在不同试验中被取出的概率是相等的。令 $X$ 为一个 $K$ 维随机向量，每个元素 $X_k(k =1,··· ,K)$ 为取出的 $n$ 个球中颜色为k的球的数量，则 $X$ 服从多项分布，其概率分布为
在这里插入图片描述
多项分布的概率分布也可以用gamma函数表示：

连续随机向量

连续随机向量的其联合概率密度函数（Joint Probability Density Function）满足
在这里插入图片描述
多元正态分布 一个常见的连续随机向量分布为多元正态分布（Multivariate Normal Distribution），也称为多元高斯分布（Multivariate Gaussian Distribution）。若 $n$ 维随机向量 $X=[X_1,...,X_n]^T$ 服从 $n$ 元正态分布，其密度函数为
在这里插入图片描述
各项同性高斯分布 如果一个多元高斯分布的协方差矩阵简化为 $Σ= σ^2I$ ，即每一个维随机变量都独立并且方差相同，那么这个多元高斯分布称为各项同性高斯分布（Isotropic Gaussian Distribution）。
Dirichlet分布 一个 $n$ 维随机向量 $X$ 的Dirichlet分布为
在这里插入图片描述

4.2.3 边际分布

对于二维离散随机向量 $(X, Y)$ ，假设X 取值空间为 $Ω_x，Y$ 取值空间为 $Ω_y$ 。其联合概率分布满足
在这里插入图片描述
对于联合概率分布 $p (x, y)$ ，我们可以分别对 $x$ 和 $y$ 进行求和。
（1）对于固定的 $x$ ，

（2）对于固定的y，

由离散随机向量 $(X, Y)$ 的联合概率分布，对 $Y$ 的所有取值进行求和得到 $X$ 的概率分布；而对 $X$ 的所有取值进行求和得到 $Y$ 的概率分布。这里 $p (x)$ 和 $p (y)$ 就称为 $p (x, y)$ 的边际分布（Marginal Distribution）。
对于二维连续随机向量 $(X, Y)$ ，其边际分布为：
在这里插入图片描述
一个二元正态分布的边际分布仍为正态分布。

不失一般性，以上对二维随机向量进行讨论，这些结论在多维时依然成立。

4.2.4 条件概率分布

对于离散随机向量 $(X, Y)$ ，已知 $X = x$ 的条件下，随机变量 $Y = y$ 的条件概率（Conditional Probability）为：
在这里插入图片描述
对于二维连续随机向量 $(X, Y)$ ，已知 $X = x$ 的条件下，随机变量 $Y = y$ 的条件概率密度函数（Conditional Probability Density Function）为

通过公式(D.30)和(D.31)，我们可以得到两个条件概率 $p (y ∣ x)$ 和 $p (x ∣ y)$ 之间的关系。
在这里插入图片描述

4.2.5 独立与条件独立

对于两个离散（或连续）随机变量 $X$ 和 $Y$ ，如果其联合概率（或联合概率密度函数） $p (x, y)$ 满足
在这里插入图片描述
对于三个离散（或连续）随机变量 $X$ 、 $Y$ 和 $Z$ ，如果条件概率（或联合概率密度函数） $p (x, y ∣ z)$ 满足

4.2.6 期望和方差

期望 对于离散变量 $X$ ，其概率分布为 $p(x_1),··· ,p(x_n)$ ， $X$ 的期望（Expectation）或均值定义为
在这里插入图片描述
对于连续随机变量 $X$ ，概率密度函数为 $p (x)$ ，其期望定义为

方差 随机变量X的方差（Variance）用来定义它的概率分布的离散程度，定义为

随机变量 $X$ 的方差也称为它的二阶矩。 $\sqrt{var(X)}$ 则称为 $X$ 的根方差或标准差。
协方差 两个连续随机变量 $X$ 和 $Y$ 的协方差（Covariance）用来衡量两个随机变量的分布之间的总体变化性，定义为
在这里插入图片描述
协方差经常也用来衡量两个随机变量之间的线性相关性(这里的线性相关和线性代数中的线性相关含义不同)。如果两个随机变量的协方差为0，那么称这两个随机变量是线性不相关。两个随机变量之间没有线性相关性，并非表示它们之间独立的，可能存在某种非线性的函数关系。反之，如果 $X$ 与 $Y$ 是统计独立的，那么它们之间的协方差一定为0。
协方差矩阵 两个 $m$ 和 $n$ 维的连续随机向量 $X$ 和 $Y$ ，它们的协方差（Covariance）为 $m \times n$ 的矩阵，定义为
在这里插入图片描述
协方差矩阵 $c o v (X, Y)$ 的第 $(i, j)$ 个元素等于随机变量 $X_i$ 和 $Y_j$ 的协方差。两个向量变量的协方差 $c o v (X, Y)$ 与cov(Y,X)互为转置关系。
如果两个随机向量的协方差矩阵为对角阵，那么称这两个随机向量是无关的。
单个随机向量X的协方差矩阵定义为
在这里插入图片描述
Jensen不等式
如果 $X$ 是随机变量， $g$ 是凸函数，则

大数定律
大数定律（Law Of Large Numbers）是指 $n$ 个样本 $X_1,··· ,X_n$ 是独立同分布的，即 $E[X_1]=···= E[X_n]= µ$ ，那么其均值

4.3 随机过程

随机过程（Stochastic Process）是一组随机变量 $X_t$ 的集合，其中t属于一个索引（index）集合 $T$ 。索引集合 $T$ 可以定义在时间域或者空间域，但一般为时间域，以实数或正数表示。当 $t$ 为实数时，随机过程为连续随机过程；当 $t$ 为整数时，为离散随机过程。日常生活中的很多例子包括股票的波动、语音信号、身高的变化等都可以看作是随机过程。常见的和时间相关的随机过程模型包括贝努力过程、随机游走、马尔可夫过程等。和空间相关的随机过程通常称为随机场（Random Field）。比如一张二维的图片，每个像素点（变量）通过空间的位置进行索引，这些像素就组成了一个随机过程。

4.3.1 马尔可夫过程

马尔可夫性质 在随机过程中，马尔可夫性质（MarkovProperty）是指一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态。以离散随机过程为例，假设随机变量 $X_0,X_1,··· ,X_T$ 构成一个随机过程。这些随机变量的所有可能取值的集合被称为状态空间（State Space）。如果 $X_{t+1}$ 对于过去状态的条件概率分布仅是 $X_t$ 的一个函数，则
在这里插入图片描述
马尔可夫性质也可以描述为给定当前状态时，将来的状态与过去状态是条件独立的。
马尔可夫链
离散时间的马尔可夫过程也称为马尔可夫链（Markov Chain）。如果一个马尔可夫链的条件概率

在不同时间都是不变的，即和时间 $t$ 无关，则称为时间同质的马尔可夫链（TimeHomogeneous Markov Chains）。如果状态空间是有限的， $T(s_i,s_j)$ 也可以用一个矩阵 $T$ 表示，称为状态转移矩阵（Transition Matrix），其中元素 $t_{ij}$ 表示状态 $s_i$ 转移到状态 $s_j$ 的概率。

平稳分布 假设状态空间大小为 $M$ ，向量 $π = [π_1,··· ,π_M]^T$ 为状态空间中的一个分布，满足 $0≤ π_i ≤1$ 和 $\sum^M_{i=1}\pi_i=1$
对于状态转移矩阵为 $T$ 的时间同质的马尔可夫链，如果存在一个分布 $π$ 满足
在这里插入图片描述
即分布π就称为该马尔可夫链的平稳分布（Stationary Distribution）。根据特征向量的定义可知， $π$ 为矩阵 $T$ 的（归一化）的对应特征值为1的特征向量。
如果一个马尔可夫链的状态转移矩阵 $T$ 满足所有状态可遍历性以及非周期性，那么对于任意一个初始状态分布 $π (0)$ ，将经过一定时间的状态转移之后，都会收敛到平稳分布，即
在这里插入图片描述

4.3.2 高斯过程

高斯过程（Gaussian Process）也是一种应用广泛的随机过程模型。假设有一组连续随机变量 $X_0,X_1,··· ,X_T$ ，如果由这组随机变量构成的任一有限集合
在这里插入图片描述
都服从一个多元正态分布，那么这组随机变量为一个随机过程。高斯过程也可以定义为：如果 $X_{t_1,···,t_n}$ 的任一线性组合都服从一元正态分布，那么这组随机变量为一个随机过程。
高斯过程回归 高斯过程回归（Gaussian Process Regression）是利用高斯过程来对一个函数分布进行建模。和机器学习中参数化建模（比如贝叶斯线性回归）相比，高斯过程是一种非参数模型，可以拟合一个黑盒函数，并给出拟合结果的置信度
假设一个未知函数 $f (x)$ 服从高斯过程，且为平滑函数。如果两个样本 $x_1,x_2$ 比较接近，那么对应的 $f(x_1),f(x_2)$ 也比较接近。假设从函数f(x)中采样有限个样本 $X =[x_1,x_2,··· ,x_N]$ ，这 $N$ 个点服从一个多元正态分布，
在这里插入图片描述
其中 $µ(X)=[µ(x_1),µ(x_2),··· ,µ(x_N)]^T$ 是均值向量， $K(X,X)=[k(x_i,x_j)]_{N×N}$ 是协方差矩阵， $k(x_i,x_j)$ 为核函数，可以衡量两个样本的相似度。
在高斯过程回归，一个常用的核函数是平方指数（Squared Exponential）函数(在支持向量机中，平方指数核函数也叫高斯核函数或径向基函数。这里为了避免混淆，我们称为平方指数核函数。)
在这里插入图片描述
其中 $l$ 为超参数。当 $x_i$ 和 $x_j$ 越接近，其核函数的值越大，表明 $f(x_i)$ 和 $f(x_j)$ 越相关。
假设 $f (x)$ 的一组带噪声的观测值为 ${(xn,yn)}^N_{n=1}$ ，其中 $y_n ∼N(f(x_n),σ^2)$ 为正态分布， $σ$ 为噪声方差。
对于一个新的样本点 $x^∗$ ，我们希望预测函数 $y^∗ = f(x^∗)$ 。令 $y=[y_1,y_2,··· ,y_n]$ 为已有的观测值，根据高斯过程的假设， $y;y^∗]$ 满足
在这里插入图片描述
根据上面的联合分布， $y^∗$ 的后验分布为

其中均值 $\hat{µ}$ 和方差 $\hat{σ}$ 为

公式(D.53)可以看出，均值函数 $µ (x)$ 可以近似地互相抵消。在实际应用中，一般假设 $µ (x) = 0$ ，均值 $\hat{\mu}$ 可以简化为：
在这里插入图片描述
高斯过程回归可以认为是一种有效的贝叶斯优化方法，广泛地应用于机器学习中。

5 信息论

信息论（Information Theory）是数学、物理、统计、计算机科学等多个学科的交叉领域。信息论是由 Claude Shannon最早提出的，主要研究信息的量化、存储和通信等方法。这里，“信息”是指一组消息的集合。假设在一个噪声通道上发送消息，我们需要考虑如何对每一个信息进行编码、传输以及解码，使得接收者可以尽可能准确地重构出消息。
在机器学习相关领域，信息论也有着大量的应用。比如特征抽取、统计推断、自然语言处理等。

5.1 熵

5.1.1 自信息和熵

熵（Entropy）最早是物理学的概念，用于表示一个热力学系统的无序程度。在信息论中，熵用来衡量一个随机事件的不确定性。假设对一个随机变量 $X$ （取值集合为 $X$ ，概率分布为 $p (x), x \in X$ 进行编码，自信息 $I (x)$ 是变量 $X = x$ 时的信息量或编码长度，定义为
在这里插入图片描述

那么随机变量 $X$ 的平均编码长度，即熵定义为
在这里插入图片描述
其中当 $p(x_i)=0$ 时，我们定义 $0 l o g 0 = 0$ ，这与极限一致， $lim_{p→0}+ plogp =0$

注：在熵的定义中，对数的底可以使用2、自然常数e，或是 10。
熵是一个随机变量的平均编码长度，即自信息的数学期望。熵越高，则随机变量的信息越多；熵越低，则信息越少。如果变量 $X$ 当且仅当在 $x$ 时 $p (x) = 1$ ，则熵为0。也就是说，对于一个确定的信息，其熵为0，信息量也为0。如果其概率分布为一个均匀分布，则熵最大。假设一个随机变量 $X$ 有三种可能值 $x_1,x_2,x_3$ ，不同概率分布对应的熵如下：
在这里插入图片描述

5.2 联合熵和条件熵

在这里插入图片描述

5.2 互信息

互信息（Mutual Information）是衡量已知一个变量时，另一个变量不确定性的减少程度。两个离散随机变量 $X$ 和 $Y$ 的互信息定义为
在这里插入图片描述
互信息的一个性质为

如果 $X$ 和 $Y$ 相互独立，即 $X$ 不对 $Y$ 提供任何信息，反之亦然，因此它们的互信息为零。

5.3 交叉熵和散度

5.3.1 交叉熵

对应分布为 $p (x)$ 的随机变量，熵 $H (p)$ 表示其最优编码长度。交叉熵（Cross Entropy）是按照概率分布 $q$ 的最优编码对真实分布为 $p$ 的信息进行编码的长度，定义为
在这里插入图片描述
在给定p的情况下，如果 $q$ 和 $p$ 越接近，交叉熵越小；如果 $q$ 和 $p$ 越远，交叉熵就越大。

5.3.2 KL散度

KL散度（Kullback-Leibler Divergence），也叫KL距离或相对熵(Relative Entropy)，是用概率分布q来近似p时所造成的信息损失量。KL散度是按照概率分布 $q$ 的最优编码对真实分布为 $p$ 的信息进行编码，其平均编码长度 $H (p, q)$ 和 $p$ 的最优平均编码长度 $H (p)$ 之间的差异。对于离散概率分布 $p$ 和 $q$ ，从 $q$ 到 $p$ 的KL散度定义为
在这里插入图片描述
KL散度可以是衡量两个概率分布之间的距离。KL散度总是非负的， $D_{KL}(p∥q)≥ 0$ 。只有当 $p = q$ 时， $D_{KL}(p∥q)=0$ 。如果两个分布越接近，KL散度越小；如果两个分布越远，KL散度就越大。但KL散度并不是一个真正的度量或距离，一是KL散度不满足距离的对称性，二是KL散度不满足距离的三角不等式性质。

5.3.3 JS散度

JS散度（Jensen–Shannon Divergence）是一种对称的衡量两个分布相似度的度量方式，定义为
在这里插入图片描述
JS散度是KL散度一种改进。但两种散度有存在一个问题，即如果两个分布 $p, q$ 个分布没有重叠或者重叠非常少时，KL散度和JS散度都很难衡量两个分布的距离。

5.3.4 Wasserstein距离

Wasserstein距离（Wasserstein Distance）也是用于衡量两个分布之间的距离。对于两个分布 $q_1,q_2$ ， $p^{th}-Wasserstein$ 距离定义为
在这里插入图片描述
其中 $Γ (q 1, q 2)$ 是边际分布为 $q_1$ 和 $q_2$ 的所有可能的联合分布集合， $d (x, y)$ 为 $x$ 和 $y$ 的距离，比如 $l_p$ 距离等。
如果将两个分布看作是两个土堆，联合分布 $γ (x, y)$ 看作是从土堆 $q_1$ 的位置 x到土堆 $q_2$ 的位置 $y$ 的搬运土的数量，并有
在这里插入图片描述
$E_{(x,y)∼γ(x,y)}[d(x,y)^p]$ 可以理解为在联合分布 $γ (x, y)$ 下把形状为 $q_1$ 的土堆搬运到形状为 $q_2$ 的土堆所需的工作量，

其中从土堆 $q_1$ 中的点 $x$ 到土堆 $q_2$ 中的点 $y$ 的移动土的数量和距离分别为 $γ (x, y)$ 和 $d(x,y)^p$ 。因此，Wasserstein距离可以理解为搬运土堆的最小工作量，也称为推土机距离（Earth-Mover’s Distance，EMD）。图E.1给出了两个离散变量分布的Wasserstein距离示例。图E.1c中同颜色方块表示在分布 $q_1$ 中为相同位置。
在这里插入图片描述
Wasserstein距离相比KL散度和JS散度的优势在于：即使两个分布没有重叠或者重叠非常少，Wasserstein距离仍然能反映两个分布的远近。
对于 $R^n$ 空间中的两个高斯分布 $p = N(µ_1,Σ_1)$ 和 $q = N(µ_2,Σ_2)$ ，它们的 $2^{nd}-Wasserstein$ 距离为
在这里插入图片描述
当两个分布的的方差为0时， $2^{nd}-Wasserstein$ 距离等价与欧氏距离。

本文的大部分内容来自邱锡鹏教授的《神经网络与深度学习》一书。
在未来深入学习机器学习的过程中,本人会对其进行更新补充。
更新1：增加1.3矩阵、向量求导法则，参考：https://wenku.baidu.com/view/02811b81680203d8ce2f246b.html

PS：欢迎关注我的微信公众号：二进制人工智能

在这里插入图片描述

机器学习的数学基础（持续更新）

文章目录

1 线性代数与矩阵论

1.1 向量与向量空间

1.1.1 向量

1.1.2 向量空间

1.1.3 向量范数

1.1.4 常见的向量

1.2 矩阵

1.2.1 线性映射

1.2.2 矩阵操作

1.2.3 矩阵类型

1.2.4 特征值与特征矢量

1.2.5 矩阵分解

1.3 矩阵、向量求导法则

1.3.1行向量对元素求导

1.3.2 列向量对元素求导

1.3.3 矩阵对元素求导

1.3.4 元素对行向量求导

1.3.5 元素对列向量求导

1.3.6 元素对矩阵求导

1.3.7 行向量对列向量求导

1.3.8 列向量对行向量求导

1.3.9 行向量对行向量求导

1.3.10 列向量对列向量求导

1.3.11 矩阵对行向量求导

1.3.12 矩阵对列向量求导

1.3.13 行向量对矩阵求导

1.3.14 列向量对矩阵求导

1.3.15 矩阵对矩阵求导

2 微积分

2.1 导数

2.1.1 导数法则

2.1.1.1 导数法则 加（减）法则

2.1.1.2 乘法法则

2.1.1.3 链式法则

2.2 机器学习常见函数的导数

2.2.1 向量函数及其导数

2.2.2 按位计算的向量函数及其导数

2.2.3 Logistic函数

2.2.4 softmax函数

3 数学优化

3.1 数学优化的类型

3.1.1 离散优化和连续优化

3.1.2 无约束优化和约束优化

3.1.3 线性优化和非线性优化

3.2 优化算法

3.2.1 全局最优和局部最优

3.2.2 梯度下降法

3.2.3 拉格朗日乘数法与KKT条件

4 概率论与随机过程

4.1 样本空间

4.2 事件和概率

4.2.1 随机变量

连续随机变量

累积分布函数

4.2.2 随机向量

离散随机向量

连续随机向量

4.2.3 边际分布

4.2.4 条件概率分布

4.2.5 独立与条件独立

4.2.6 期望和方差

4.3 随机过程

4.3.1 马尔可夫过程

4.3.2 高斯过程

5 信息论

5.1 熵

5.1.1 自信息和熵

5.2 联合熵和条件熵

5.2 互信息

5.3 交叉熵和散度

5.3.1 交叉熵

5.3.2 KL散度

5.3.3 JS散度

5.3.4 Wasserstein距离

猜你喜欢

2.1.1.1 导数法则加（减）法则