(笔记—深度学习)：Chapter3-概率论和信息论

概率论提供了一种量化不确定性的方法和和推导新的不确定陈述的公理，在人工智能领域，主要有两种应用，第一：概率法则告诉我们AI系统是如何推断的；第二：我们可以用概率论和统计来对AI的行为进行理论分析。

概率论使我们得出不确定陈述和不确定性存在的原因；
信息论使我们能够量化概率分布的不确定性。

1- Why Probability?

不确定性有三种可能的来源：

被建模系统内在的随机性。
不完全观测。
不完全建模。模型舍弃了一些观测信息

频率派概率（ $frequentist \ probability$ ）:通过大量的可重复性实验，观测某一事件出现的频率，用于表示该事件的概率。
贝叶斯概率( $Bayesian \ probability$ ): 对于不可重复性的命题，推断者通过一定的置信度( $degree \ of \ belief$ ),来表示事件的可能性。
为满足所期望的性质，将频率派概率和贝叶斯概率视为等同的。

2-随机变量

随机变量是可以随机取不同的值得变量，表示方式如下：

随机变量： $\rm x$ , 随机变量的取值： $\it x_i$
随机向量： $\mathbf x$ (加粗)，随机向量的取值 $\boldsymbol x_i$

3- 概率分布

概率分布（probability distribution）用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小

3-1 离散型随机变量

离散型随机变量用概率质量函数( $Probability \ mass \ function,PMF$ )来描述。例如，
随机变量 $\rm x$ 的PMF： $P(\rm x )$ ,则 $\rm x \sim P(\rm x)$
变量值 $x_i$ 的概率: $P(x_i)$

联合概率分布用于表示多个变量的概率分布： $P(\rm x =\it x, \rm y =\it y)$
PMF必须满足的几个条件：

P的定义域必须是 $\rm x$ 所有状态的集合
$\forall x_i \in {\rm x}, 0 \le P(x) \le 1$
$\sum_{x_i \in \rm x} P(x_i) = 1$

3-2连续性随机变量

连续型变量用概率密度函数( $Probability \ density \ function, PDF$ )描述。用 $p$ 来表示。
函数 $p$ 需要满足条件：

$p$ 的定义域必须是 $\rm x$ 所有状态的集合
$\forall x_i \in {\rm x}, 0 \le p(x_i)$ ,不要求 $p(x_i) \le 1$
$\int p(x)dx = 1$

例：
实数区间的均匀分布用 $u(x;a,b)$ 表示， $x \sim U(a,b)$ ;区间的端点 $a,b$ 满足 $a<b$ , 符号 $“：”$ 表示以什么为参数。

u (x : a, b) = {\begin{cases} \frac{1}{b - a} & if x \in [a, b] \\ 0 & if x \notin [a, b] \end{cases}

$u(x:a,b) = \begin{cases} \frac {1}{b-a} & \text{if $x \in [a,b]$} \\ 0 & \text{if $x \notin [a,b]$} \end{cases}$

4-边缘概率

边缘概率分布( $margin \ probability \ distribution$ )是指在已知一组随机变量联合概率分布的情况下，求其中一个子集的概率分布。例如：
离散型随机变量 $\rm x,y$ ,且已知其联合概率分布 $P(\rm x,y)$ ,则利用求和法则来计算边缘分布： $P({\rm x} = x) = \sum_y P ({\rm x} = x,{\rm y}=y)$
连续性随机变量：使用积分表示 $p({\rm x}=x)=\int p({\rm x}=x,{\rm y}=y)dy$

5-条件概率

条件概率( $conditional \ probability$ )用于表示：在给定其他事件已经发生的情况下，某个事件发生的概率。例如：
在给定 ${\rm x}=x$ 的条件下， ${\rm y} = y$ 发生的概率记为 $P({\rm y}=y|{\rm x} = x)$ ：

P (y = y | x = x) = \frac{P (y = y, x = x)}{P (x = x)}

$P({\rm y}=y|{\rm x} = x) = \frac {P({\rm y}=y,{\rm x} = x)}{P({\rm x} = x)}$
显然：条件概率只有在

P (x) > 0

$P(x)>0$ 的情况下才有意义，不可能发生的事件，不可以作为条件。

条件概率的链式法则：多维变量的联合概率分布可以表示为只有一个变量的条件概率相乘的形式

P (x^{(1)}, . . . x^{(n)}) = P (x^{(1)}) \prod_{i = 2}^{n} P (x^{(i)} | x^{(1)}, . . ., x^{(n - 1)})

$P({\rm x^{(1)},...x^{(n)}})=P({\rm x^{(1)}})\prod_{i=2}^n P({\rm x^{(i)}|x^{(1)},...,x^{(n-1)}})$

6-独立性和条件独立性

若两个变量的联合概率等于其各自概率的乘积，则称这两个变量相互独立：

\forall x \in x, y \in y, P (x, y) = P (x) P (y)

$\forall x \in {\rm x},y \in {\rm y}, P(x,y)=P(x)P(y)$ 简化表示为：

x ⊥ y

$\rm x \perp y$

在给定随机变量 $\rm z$ 的条件下，变量 $\rm x,y$ 的条件概率相互独立，则称为条件独立：

\forall x \in x, y \in y, z \in z, P (x, y | z) = P (x | z) P (y | z)

$\forall x \in {\rm x},y \in {\rm y},z \in {\rm z}, \ P(x,y|z)=P(x|z)P(y|z)$ 简化表示为：

x ⊥ y | z

$\rm x \perp y|z$

7-期望、方差、协方差

函数 $f(x)$ 关于某分布 $P(\rm x)$ 的期望（ $expectation$ ）是指当 $x$ 由 $P$ 产生， $f$ 作用于 $x$ 时， $f(x)$ 的平均值。
对于离散型随机变量：

E_{x \sim P} [f (x)] = \sum_{x} P (x) f (x)

$\mathbb E_{\rm x \sim P}[f(x)] = \sum_xP(x)f(x)$
对于连续性随机变量：

E_{x \sim p} [f (x)] = \int p (x) f (x) d x

$\mathbb E_{\rm x \sim p}[f(x)] =\int p(x)f(x)dx$
期望是线性的：

E (α f (x) + β g (x)) = α E (f (x)) + β E (g (x))

$\mathbb E(\alpha f(x)+\beta g(x)) = \alpha \mathbb E(f(x))+\beta \mathbb E(g(x))$

方差（ $variance$ ）用于衡量随机变量函数值之间的差异：

V a r (f (x)) = E [(f (x) - E [f (x)])^{2}] V a r (α f (x) + β) = α^{2} V a r (f (x))

$Var(f(x)) = \mathbb E\Bigr [(f(x) - \mathbb E[f(x)])^2\Bigr ] \\ Var(\alpha f(x) + \beta) = \alpha^2Var(f(x))$
协方差( $covariance$ )衡量两个变量线性相关的强度以及变量的尺度：

C o v (f (x), g (x)) = E [(f (x) - E [f (x)]) (g (x) - E [g (x)])]

$Cov(f(x),g(x)) = \mathbb E\Bigr[\bigr(f(x) -\mathbb E[f(x)]\bigr)\bigr(g(x)- \mathbb E[g(x)]\bigr)\Bigr ]$
相关系数(

c o r r e l a t i o n

$correlation$ )只衡量变量之间的相关性并且不受变量尺度的影响：

r = \frac{C o v [f (x), g (x)]}{\sqrt{V a r [f (x)] \cdot V a r [g (x)]}}

$r =\frac {Cov[f(x),g(x)]}{\sqrt{Var[f(x)] \cdot Var[g(x)]}}$
注意：协方差和相关系数只能衡量随机变量之间的线性相关程度。若

C o v (x, y) = 0

$Cov(\rm x,y) = 0$ ，只能说明二者线性无关，但并非没有非线性相关的可能。

8-常用概率分布

8-1 伯努利分布

伯努利分布是单个二值随机变量分布，

\begin{array}{ll} P (x = 1) & = ϕ \\ P (x = 0) & = 1 - ϕ \\ E_{x} [x] & = ϕ \\ V a r_{x} [x] & = ϕ (1 - ϕ) \end{array}

$\begin{array}{ll} P(\rm x=1) &= \phi \\ P(\rm x=0) &= 1-\phi \\ \mathbb E_x[x] &= \phi \\ Var_x[x] & = \phi(1-\phi) \end{array}$

8-2 Multinoulli 分布

描述一个具有K个状态的随机变量，利用向量 $\boldsymbol p \in [0,1]^{k-1}$ 来参数化，其中 $p_i$ 表示第 $i$ 个状态的概率，而第 $k$ 个状态的概率为 $1-\sum_i p_i$ .

8-3 高斯分布

高斯分布 $(gaussian \ distribution)$ 又称为正态分布( $normal \ distribution$ ):

N (x; μ, σ^{2}) = \sqrt{\frac{1}{2 π σ^{2}}} e x p (- \frac{(x - μ)^{2}}{2 σ^{2}})

$\mathcal N(x;\mu, \sigma^2) = \sqrt\frac{1}{2\pi\sigma^2}exp\Biggr(-\frac{(x-\mu)^2}{2\sigma^2}\Biggr)$
其中：

E [x] = μ, V a r [x] = σ^{2}

$\mathbb E[\rm x] = \mu, Var[\rm x] = \sigma^2$
对于未知的分布，一般正态分布默认是较好的选择形式。
多维正态分布：

x \in R^{n}

$\boldsymbol x \in \mathbb R^n$

N (x; μ, Σ) = \sqrt{\frac{1}{(2 π)^{n} d e t (Σ)}} e x p (- \frac{1}{2} {(x - μ)}^{T} Σ^{- 1} (x - μ))

$\mathcal N(\boldsymbol {x;\mu, \Sigma}) = \sqrt\frac{1}{(2\pi)^ndet(\boldsymbol \Sigma)}exp\Biggr(-\frac{1}{2}\boldsymbol {(x-\mu)}^T\boldsymbol{\Sigma^{-1}(x-\mu)}\Biggr)$
其中

Σ

$\boldsymbol \Sigma$ 是变量的协方差矩阵，通常为了计算高效，用精度矩阵

β

$\boldsymbol \beta$ 来替代，以避免求逆。
为了简便，会将协方差矩阵固定为一个对角阵，甚至是单位矩阵乘以一个标量(各向同性高斯分布)。

8-4 指数分布和拉普拉斯分布

指数分布：
$p (x; λ) = {\begin{cases} λ e^{- λ x}; & x \geq 0 \\ 0 \end{cases}$ $p(x;\lambda) = \left\{ \begin{array}{ll} \lambda e^{-\lambda x};& x\ge0 \\ 0 \end{array} \right.$
Laplace 分布：
$p (x; μ, γ) = \frac{1}{2 γ} e x p (- \frac{| x - μ |}{γ})$ $p(x;\mu, \gamma) = \frac {1}{2\gamma}exp(-\frac{|x-\mu|}{\gamma})$

8-5 Dirac 分布和经验分布

Dirac分布：概率分布的所有质量集中于一点，且只有在连续性随机变量中才是必要的。
$p (x) = δ (x - μ)$ $p(x)= \delta(x- \mu)$
经验分布：指明数据集或是采样来源的分布。
$\hat{p} (x) = \frac{1}{m} \sum_{i} δ (x - x^{(i)})$ $\hat p(\boldsymbol x) = \frac1m\sum_i\delta(\boldsymbol {x - x^{(i)}})$
对于离散型变量，经验分布可表示为Multinoulli的形式， $P(x)$ 为 $x$ 的经验频率(采样频率)。

8-6 混合分布

$P({\rm x}) = \sum_iP({\rm c}=i)P({\rm x}|{\rm x}=i)$
其中 $P(c)$ 表示了组成混合分布的各个组件的分布（即其组合方式），是一个先验的Multinoulli分布。

9-有用的函数

Sigmoid：常用于产生伯努利分布中的参数 $\phi$
$σ (x) = \frac{1}{1 + e x p (- x)}$ $\sigma(x) = \frac1{1+exp(-x)}$
softplus: 用于产生正态分布中的参数 $\beta , \sigma$
$ζ (x) = l o g (1 + e x p (x))$ $\zeta(x) = log(1 + exp(x))$

有用性质：
$\begin{matrix} σ (x) & = \frac{e x p (x)}{1 + e x p (x)} \\ \frac{d}{d x} σ (x) & = σ (x) (1 - σ (x)) \\ 1 - σ (x) & = σ (- x) \\ l o g (σ (x)) & = - ζ (- x) \\ \frac{d}{d x} ζ (x) & = σ (x) \\ ζ (x) - ζ (- x) & = x \end{matrix}$ $\begin{array}{} \sigma(x)&=\frac {exp(x)}{1+exp(x)} \\ \frac{d}{dx}\sigma(x) &= \sigma(x)(1-\sigma(x)) \\ 1-\sigma(x) &= \sigma(-x) \\ log(\sigma(x)) &= - \zeta(-x) \\ \frac{d}{dx}\zeta(x) &= \sigma(x) \\ \zeta(x) - \zeta(-x) &= x \end{array}$
函数 $\sigma^{-1}(x)$ 被称作分对数（logit）

10-贝叶斯规则

P (x | y) = \frac{P (y | x) P (x)}{P (y)} = \frac{P (y | x) P (x)}{\sum_{x} P (y | x) P (x)}

$P({\rm x|y}) = \frac{P({\rm y|x})P({\rm x})}{P({\rm y})} = \frac{P({\rm y|x})P({\rm x})}{\sum_xP({\rm y}|x)P({ x})}$

11-信息论

信息论的基本思想是一个事件发生的概率越低，如果这件事发生，那么它提供的信息量越大。满足性质：

非常可能发生的事件信息量要比较少

较不可能发生的事件具有更高的信息量

独立事件应具有增量的信息。例如，投掷的硬币两次正面朝上传递的信息量，应该是投掷一次硬币正面朝上的信息量的两倍。

定义事件 $\rm x = \it x$ 自信息：

I (x) = - l o g P (x) .

$I(x) = -log P(x).$
单位为奈特，一奈特是以 1/e的概率观测到一个事件时获得的信息量。
香农熵：用于量化整个概率分布中的不确定性

H (x) = E_{x \sim P} [I (x)] = - E_{x \sim P} [l o g (P (x))]

$H({\rm x}) = E_{\rm x \sim P}[I(x)] = -E_{\rm x \sim P}[log(P(x))]$
KL散度（相对熵）：用于衡量随机变量

x

$\rm x$ 在两个概率分布

P (x), Q (x)

$\rm P(x),Q(x)$ 下的差异

\begin{aligned} (1) & D_{K L} (P | | Q) & = E_{x \sim P} [l o g P (x) - l o g Q (x)] \\ (2) & = P (x) l o g P (x) - P (x) l o g Q (x) \end{aligned}

$\begin{align} D_{KL}(P||Q)& = \mathbb E_{\rm x \sim P}[log P(x) - logQ(x)] \\ &= P(x)logP(x) - P(x)logQ(x) \end{align}$
性质：

$D_{KL}(P||Q) \ne D_{KL}(Q||P)$
$D_{KL}(P||Q) \ge 0$

证明：吉布斯不等式

$0 \geq \sum_{i = 1}^{n} p_{i} l o g q_{i} - \sum_{i = 1}^{n} p_{i} l o g p_{i} = \sum_{i = 1}^{n} p_{i} l o g \frac{q_{i}}{p_{i}} = - D_{K L} (P | | Q)$ $0 \ge \sum_{i=1}^np_ilogq_i - \sum_{i=1}^np_i logp_i =\sum_{i=1}^np_i log \frac {q_i}{p_i}= -D_{KL}(P||Q)$
已知 $log(x) \le x - 1$
$\sum_{i = 1}^{n} p_{i} l o g \frac{q_{i}}{p_{i}} \leq \sum_{i = 1}^{n} p_{i} (q_{i} / p_{i} - 1) = \sum_{i = 1}^{n} q_{i} - p_{i} = 1 - 1 = 0$ $\sum_{i=1}^np_i log \frac {q_i}{p_i} \le \sum_{i=1}^n p_i(q_i/p_i - 1) = \sum_{i= 1}^n q_i - p_i = 1 - 1 = 0$

交叉熵(cross entropy)

H (P, Q) = - E_{x \sim P} [l o g Q (x)]

$H(P,Q) = - \mathbb E_{\rm x \sim P}[ log Q(x)]$
针对 Q 最小化交叉熵等价于最小化 KL 散度，因为 Q 并不参与被省略的那一项

12- 图模型

图模型(graphical model)也称作结构化概率模型，可以高效地描述多个随机变量的联合概率分布，将概率分布分解成因子乘积的形式。(图模型只是一种概率分布的描述方式，与概率分布本身的特性无关)
有向图：使用带有有向边的图（图用符号 $\mathcal G$ 来表示）；使用条件概率分布来表示分解。图中每个节点代表一个随机变量，有向边指明了变量间的影响关系。如下图：

分解结果为：

p (a, b, c, d, e) = p (b | a) p (c | a) p (d | b) p (c | a, b) p (e | c)

$p(a,b,c,d,e) = p(b|a)p(c|a)p(d|b)p(c|a,b)p(e|c)$
.
无向图：使用带有无向的边，使用一组函数来进行分解（这组函数不是概率分布）。根据图中节点的连接情况，将图分成若干个团

C^{(i)}

$\mathcal C^{(i)}$ ,团中的所有节点之间两两相互连接。每个团

C^{(i)}

$\mathcal C^{(i)}$ 都有一个相应的函数

ϕ^{(i)} (C^{(i)})

$\phi^{(i)}(\mathcal C^{(i)})$ 。如下图：
无向图

分解结果为：

C^{(1)} = {a, b, c}, C^{(2)} = {b, d}, C^{(3)} = {c, e} p (a, b, c, d, e) = \frac{1}{Z} ϕ^{(i)} (a, b, c) p h i^{(2)} (b, d) p h i^{(3)} (c, e)

$\mathcal C^{(1)}=\{a,b,c\},\mathcal C^{(2)}=\{b,d\},\mathcal C^{(3)}=\{c,e\} \\ p(a,b,c,d,e) = \frac1Z\phi^{(i)}(a,b,c)phi^{(2)}(b,d)phi^{(3)}(c,e)$
其中

Z

$Z$ 是归一化系数