第三章 概率与信息论
掌握深度学习中所需要的概率论相关知识
概率论[p47-p71]
3.1 为什么要使用概率
机器学习通常必须处理不确定量,有时也可能需要处理随机(非确定性的) 量。概率论了以来量化不确定性。不确定性的三种可能来源:
- 概率论来量化不确定性
- 不完全观测。
- 不完全建模。
- 信任度(degree of belief)
用概率来表示,其中
1表示肯定,而
0表示否定。
- 频率派概率(frequentist probability)直接与事件发生的频率相关的概率;
- 贝叶斯概率(Bayesian probability),涉及到确定性水平的概率,比如
1和
0。
3.2 随机变量
- 随机变量(random variable)是可以随机地取不同值的变量。用无格式小写字母表示随机变量,如
x,用手写体的小写字母表示随机变量取值,如
x1。
3.3 概率分布
- 概率分布(probability distribution):用来描述随机变量或一簇随机变量在每一
个可能取到的状态的可能性大小。
3.3.1 离散型变量和概率质量函数
-
概率质量函数(probability mass function, PMF):描述离散型变量的概率分布,用大写字母
P 表示,国内也叫作概率分布律。如
P(x)表示随机变量
x的分布,且必须满足一下条件:
-
P的定义域必须是
x所有可能状态的集合。
-
∀x∈x,0≤P(x)≤1.
- 归一化的(normalized):
∑x∈xP(x)=1
-
联合概率分布(joint probability distribution):多个随机变量的概率分布,用
P(x=x,y=y)表示,简写为
P(x,y)。
-
均匀分布(uniform distribution):将它的每个状态视为等可能的
P(x=xi)=k1
3.3.2 连续型变量和概率密度函数
-
概率密度函数(probabilitydensity function, PDF):描述连续型随机变量的概率分布,用小写字母
p 表示。如
p(x)表示随机变量
x的分布,且必须满足一下条件:
-
p的定义域必须是
x所有可能状态的集合。
-
∀x∈x,p(x)≥0.注意,并不要求
p(x)≤1。
-
∫p(x)dx=1
-
均匀分布(uniform distribution):将它的每个状态视为等可能的,通常用
x∼U(a;b) 表示
x 在
[a;b] 上是均匀分布的
扫描二维码关注公众号,回复:
5401934 查看本文章
3.4 边缘概率
-
边缘概率分布(marginal probability
distribution):已知一组变量的联合概率分布,其子集的概率分布。
-
求和法则(sum rule):
- 离散型随机变量
x 和
y,并且已知道
P(x;y),求取
P(x)
∀x∈x,P(x=x)=y∑P(x=x,y=y)
- 连续型随机变量,求取边缘概率分布:
p(x)=∫p(x,y)dy
3.5 条件概率
- 条件概率(norm):某个事件在给定其他事件发生时出现的概率。给定
x=x,
y=y发生的条件概率记为
P(y=y∣x=x)。
P(y=y∣x=x)=P(x=x)P(y=y,x=x)
- 干预查询(intervention query):计算一个行动的后果,属于因果模型(causal modeling)的范畴。
3.6 条件概率的链式法则
- 链式法则(chain rule)或者乘法法则(product rule):任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式:
P(x(1),⋯,x(n))=P(x(1))i=2∏nP(x(i)∣x(1),⋯,x(i−1))
3.7 独立性和条件独立性
- 两个随机变量是相互独立的(independent),记为
x⊥y.
∀x∈x,y∈y,p(x=x,y=y)=p(x=x)p(y=y)
- 两个随机变量是条件独立的(conditionally independent),记为
x⊥y∣z.
∀x∈x,y∈y,p(x=x,y=y∣z=z)=p(x=x∣z=z)p(y=y∣z=z)
3.8 期望、方差和协方差
-
函数
f(x) 关于某分布
P(x) 的期望(expectation) 或者期望值(expected value)是指,当
x 由
P 产生,
f 作用于
x 时,
f(x) 的平均值。
- 离散型随机变量
Ex∼P[f(x)]=x∑P(x)f(x)
- 连续型随机变量
Ex∼p[f(x)]=∫xp(x)f(x)dx
-
方差(variance value):衡量当对
x依据它的概率分布进行采样时,随机变量
x 的函数值会呈现多大的差异。方差的平方根被称为标准差(standard deviation)。
Var(f(x))=E[(f(x)−E[f(x)])2]
- 协方差(covariance value):衡量了两个变量线性相关性的强度。协方差为正,说明正相关;协方差为负,说明为负相关,
Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(y)])]
Cov(x)i,j=Cov(xi,yj)
Cov(x)i,j=Var(xi)
3.9 常用概率分布
3.9.1 Bernoulli 分布
- Bernoulli 分布(Bernoulli distribution),又叫伯努利分布,是单个二值随机变量的分布。
P(x=x)=ϕx(1−ϕ)1−x
Ex[x]=ϕ,Varx(x)=ϕ(1−ϕ)
3.9.2 Multinoulli 分布
- Multinoulli 分布(multinoulli distribution),又叫范畴分布(categorical distribution),指在具有
k个不同状态的单个离散型随机变量上的分布,其中
k 是一个有限值。
3.9.3 高斯分布
- 高斯分布(Gaussian distribution),实数上最常用的分布,也称为正态分布(normal distribution):
N(x;μ,σ2)=2πσ21
exp(−2σ21(x−μ)2)
-
标准正态分布(standard normal distribution),其中
μ=0,σ=1。
-
中心极限定理(central limit theorem)说明很多独立随机变量的和近似服从正态分布。
-
多维正态分布(multivariate normal distribution):将正态分布推广到
Rn的情况:
N(x;μ,Σ)=(2π)ndet(Σ))1
exp(−21(x−μ)TΣ−1(x−μ))
3.9.4 指数分布和Laplace分布
- 指数分布(exponential distribution):一种在
x=0 点处取得边界点(sharp point) 的分布。使用指示函数(indicator function)
1x≥0来使得当
x 取负值时的概率为零。
p(x;λ)=λ1x≥0exp(−λx)
- Laplace 分布(Laplace distribution),它允许我们
在任意一点
μ处设置概率质量的峰值
Laplace(x;μ,γ)=2γ1exp(−γ∣x−μ∣)
3.9.5 Dirac 分布和经验分布
- Dirac delta函数(Dirac delta function):概率分布中的所有质量都集中在一个点上。概率密度函数用
δ(x),也被称为冲激函数。
p(x)=δ(x−μ)
- 经验分布(empirical distribution):将概率密度
m1 赋给
m 个点
x(1),⋯,x(m) 中的每一个,这些点是给定的
数据集或者采样的集合。
p^(x)=m1i=1∑mδ(x−x(i))
3.9.6 分布的混合
- 混合分布(mixture distribution):通过组合一些简单的概率分布来定义新的概率分布,由一些组件(component)分布构成。
P(x)=i∑P(c=i)P(x∣c=i)
- 高斯混合模型(Gaussian Mixture Model),它的组件
p(x∣c=i) 是高斯分布。每个组件都有各自的参数,均值
μ(i) 和协方差矩阵
Σ(i)。它是概率密度的万能近似器(universal
approximator),任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近。
- 先验概率(prior probability):在观测到
x之前传递给模型关于
c 的信念
α=P(c=i).
- 后验概率(posterior probability):在观测到
x之后进行计算的概率
P(c∣x)
3.10 常用函数的有用性质
- logistic sigmoid 函数:取值范围
(0,1),常被用作深度学习中的激活函数。缺点:在变量取绝对值非常大的正值或负值时会出现饱和(saturate)现象,造成梯度消失。
σ(x)=1+exp(−x)1
dxdσ(x)=σ(x)(1−σ(x))
- softplus 函数:取值范围
(0,∞),它是对
x+=max(0,x)函数的平滑或“软化”。
ζ(x)=log(1+exp(x))
3.11 贝叶斯规则
- 贝叶斯规则(Bayes’ rule):在已知
P(y∣x)时计算
P(x∣y)。
P(x∣y)=P(y)P(x)P(y∣x)
3.12 连续型变量的技术细节
- 零测度(measure zero):零测度集在我们的度量空间中不占有任何的体积。
- 几乎处处(almost everywhere):某个性质如果是几乎处处都成立的,那么它在整个空间中除了一个测度为零的集合以外都是成立的。
- Jacobian 矩阵(Jacobian matrix):
Ji,j=∂yj∂xi
3.13 信息论
- 满足下面三个性质,我们定义一个事件
x=x的自信息(self-information)为:
- 非常可能发生的事件信息量要比较少;
- 较不可能发生的事件具有更高的信息量;
- 独立事件应具有增量的信息。
I(x)=−logP(x)
- 香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化:
H(x)=Ex∼P[I(x)]=−Ex∼P[logP(x)]
- KL 散度(Kullback-Leibler (KL) divergence):衡量这两个单独的概率分布
P(x) 和
Q(x)的差异,具有不对称性
DKL(P∥Q)̸=DKL(Q∥P)
DKL(P∥Q)=Ex∼P[logQ(x)P(x)]=Ex∼P[logP(x)−logQ(x)]
H(P,Q)=H(P)+DKL(P∥Q)=−Ex∼P[logQ(x)
3.14 结构化概率模型
-
结构化概率模型(structured probabilistic model)或者图模型(graphical model):由一些可以通过边互相连接的顶点的集合构成的图来表示概率分布的分解。有两种主要的结构化概率模型:有向的和无向的。两种图模型都使用图
G,其中
图的每个节点对应着一个随机变量。
- 有向(directed)模型使用带有有向边的图,它们用条件概率分布来表示分解。
p(x)=i∏p(xi∣PaG(xi))
- 无向(undirected)模型使用带有无向边的图,它们将分解表示成一组函数;
p(x)=Z1i∏ϕ(i)(C(i))