深度学习花书学习笔记 第三章 概率和信息论

概率分布

离散型变量对应概率质量函数(PMF):P。 ~表示遵从分布:x~P(x)

联合概率分布,多个变量的分布。P(x,y)

P的定义域为x所有可能技能,且P(x)位于0到1之间,且所有P(x)之和为1。

连续型变量对应概率密度函数(PDF)。此时P(x)可以大于1 。

边缘概率分布:

知道联合概率分布后求子集的分布。

    离散型:P(x = x)) = \sum P(x = x,y= y)

    连续型: p(x) = \int p(x,y)dy

条件概率:

主要公式:P(y = y| x = x) = P(y = y,x=x)/P(x = x)

条件概率的链式法则:

联合分布符合条件概率的链式法则。

若变量相互独立,可以表示为因子的乘积形式。

期望、方差和协方差:

期望:x由P产生时,f作用于x时,f(x)的平均值。    符合线性约束

     离散型: E_{x~P}[f(x)] = \sum P(x)f(x)

     连续型: \int p(x)f(x)dx

方差:反应函数值变化的差异大小:体现算法的稳定性

Var(f(x)) = E[(f(x)-E[(f(x))])^{2}]

方差的平方根为标准差。

加一部分:

何为偏差:预测值和真实值之间的差距

方差和偏差的各自使用场景:高方差对于过拟合,高偏差对应欠拟合?

bagging可以减少方差,boosting减少偏差。

协方差:两个变量线性相关性的强度和变量的尺度。

Cov(f(x),g(x)) = E[(f(x) - E[(f(x)])(g(y) - E[g(y)])]

两个变量相互独立则协方差为0,协方差不为0则一定相关。

独立性要求更高,除协方差为0,还需排除非线性关系。

协方差矩阵的对角元素为方差。

常用概率分布:

均匀分布U,即x∼U(a,b)x∼U(a,b)

伯努利=0-1分布,单个二值随机变量 。

P(x = 1) = \phi

P(x = 0) = 1- \phi

E = \phi

V = \phi(1-\phi​​​​​​​)

范畴分布=多项式分布,多个离散二值随机变量的任意分布 。

以上两个分布主要就是简单。

高斯分布=正态分布:

最常用的分布,主要参数均值\mu,方差\sigma ^{2}。当均值为0,标准差为1时,称为标准正态分布。

使用精度矩阵替代原有函数,简化运算。

指数分布:在x=0处有边界点的分布。

p(x;\lambda ) = \lambda 1_{x\geqslant 0}exp(-\lambda x)

Laplace分布:允许任一点\mu​​​​​​​设置为峰值。

Dirac分布:广义函数,除了某一点外其余都为0,但是积分为1,作为经验分布的一部分

经验分布:把概率密度1/m赋给m个点,使得在每个点处等分布,而且呈现Dirac分布(不扩散到其他值处)

混合分布:多种分布混合,其值取决于每一个值所对应的分布,比如GMM(高斯混合模型),是任何平滑密度函数的万能近似器 。

后验概率:知道某个之后另一个的概率 P(c|x)

常用函数:

logistic sigmoid函数 : \sigma (x) = \frac{1}{1+exp(-x)}

值域在0到1,适合输出概率,但是会存在梯度饱和,对输入不再敏感。但是也常用于激活函数。

softplus函数:\varsigma (x) = log(1+exp(x))

类似RELU。

常用函数的有用性质:

贝叶斯法则:

P(x|y) = \frac{P(x)P(y|x)}{P(y)}

连续型变量的技术细节:

一阶微分矩阵,又称为Jacobian矩阵。

信息论:

香农熵:整个概率中不确定性的总量。

K-L散度:相对熵。衡量两种分布之间的差异。

D_{KL}(P||Q) = E[logP(x)-logQ(x)]​​​​​​​

离散型变量下,KL散度度量Q表示P时,所需要的额外信息量。即KL越大,分布越不一致。Q的分布越不完整也可能。

非负。非对称。生成对抗网络有用,由于其不对称,可能造成。。。。

交叉熵:

H(P,Q) = H(P) + D_{KL}(P||Q)

H(P,Q) = -E_{x~P}logQ(x)​​​​​​​

结构化概率模型:

可以通过有向图和无向图表示变量间分布的互相影响。

猜你喜欢

转载自blog.csdn.net/liutianheng654/article/details/82802447