概率与信息论基础

转自:https://blog.csdn.net/Hansry/article/details/77800555

1.前言

几乎所有的活动都需要能够在不确定性存在时进行推理,除了数学的定理外,很难确定某个命题是真的。 
不确定性有三种可能: 
1.被建模系统内在的随机性。亚原子粒子的动力学描述为概率性的。 
2.不完全检测。不能观测到所有驱动系统行为的变量,从三张图片中选择指定的图片,结果不确定。 
3.不完全建模。当我们必须舍弃某些观测信息模型时,舍弃的信息会导致模型的预测出现不确定性。机器人轨迹,当我们离散化后,这个轨迹变得不确定,离散化单位内的不确定性。

2.概率分布

a.概率分布:用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小(概率分布图)。描述概率分布的方式取决于变量是连续的还是离散的。

b.离散型变量和概率分布律函数:

离散型变量的概率分布可以用概率分布律函数来描述。用大写字母P来表示概率分布律。

概率分布律函数将随机变量可能取得的状态映射到随机变量取得该状态的概率。有时候会先定义一个随机变量,然后用~符号来说明它遵循的分布:x~P(x),经常用P来表示概率分布律函数

联合概率分布:多个变量的概率分布被称为联合概率分布。P(X=x,Y=x)表示 X=x,Y=y 同时发生的概率,可以简写为P(x,y)

一个函数P是否能成为x的PMF(概率分布律函数),有以下三个条件: 
1.P的定义域是x所有可能状态的集合。 
2.0<=P(x)<=1; 
3. ,这条性质称为归一性。简单来说就是所有随机变量的P之和加起来为1。

举个栗子:假设一个离散型随机变量 x 有 k个不同的状态。我们可以假设x是均匀分布的(就是每个状态出现的可能性是一样的),则有P()=1/k

c.连续型变量和概率密度函数

当我们研究的对象是连续性随机变量的时候,用概率密度函数(PDF)而不是概率分布律函数来描述其概率分布。

必须满足的条件如下: 
1.p的定义域必须是x所有可能状态的集合。(这点跟概率分布律函数是一致的) 
2.对于任意x,p(x)>=0,但是不要求<=1。(概率分布律函数要求小于等于1) 
3.

概率密度函数p(x)并没有直接对特定的状态给出概率,可通过积分的形式求得,在单变量的例子中,x落在区间[a,b]的概率是: 

给一个PDF的例子,考虑在实数部分均匀分布,u(x;a,b) 该函数表示把x作为自变量,a和b作为定义函数的参数,即俩个端点。 
1.确保[a,b]外没有概率,即  ,u(x;a,b)为0; 
2.u(x;a,b)=1/(b-a)(前提条件下是均匀分布的) 
3.通常用x~U(a,b)表示x在[a,b]上是均匀分布。

3.边缘概率

有时候,知道了一组变量的联合概率分布,想要了解其中一个子集的概率分布,称为边缘概率分布(marginal probability distribution)

对于离散型随机变量x和y 。我们可以根据下面的求和法则来计算P(x): 

对于连续型变量,我们需要用积分替代求和:

4.条件概率

在给定其他事件发生时,感兴趣的某件事出现的概率,这种概率叫做条件概率。 
给定x=x时y=y发生的条件概率为P(y=y|x=x)。条件概率可以通过下面的公式计算:

,条件概率仅在P(X=x)>0的时候有意义

5.条件概率的链式法则

任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式:

上式的式子看起来略微复杂,举个例子:

这就是链式法则哦

6.独立性和条件独立性

 这个公式可表达为相互独立的, 可以简化为 

还有一种可能性就是:X和Y是在条件Z成立的前提下才成立的,则有:

可以简化为: ,表示x和y在给定z时条件独立。

7.期望、方差和协方差

期望:(一维问题) 
函数f(x)关于某分布P(x)的期望或者期望值是指,当x由P产生时,f作用于x的平均值。对于离散型随机变量,可以通过求和得到:

对于连续型随机变量可以通过求积分得到 : 

当我们知道了x的分布的时候,可以将 写成 

对于E[…]表示对方括号内的所有随机变量的值求平均,当没有歧义的时候,还可以把方括号去掉呢。

期望是线性的,因此有:

方差(variance):(一维问题) 
方差是用来衡量当我们根据x的概率分布进行采样的时候,随机变量x的函数值会呈现怎样的差异:

方差的平方根称为标准差(standard deviation)。

协方差(covariance):(二维问题,分析俩个随机变量的关系) 
在某种意义上给出了俩个变量线性相关的强度以及这些变量的尺度:(公式表达如下所示:)

协方差 Cov(x,y)=Cov(y,x)

当f(x)和g(y)相互独立时,协方差为0。

如果协方差的绝对值很大则意味着变量值变化很大并且他们同时离各自的均值很远。如果协方差为正的,那么俩个变量都倾向于同时取得相对较大的值,如果协方差为负的,那么有一个变量倾向于偏大的,有一个倾向于相对取得比较小的,反之亦然。

协方差和相关性是有联系的,当协方差为0时,则一定没有线性关系,但是不一定相互独立。如果俩个协方差的值不为0,那么他们一定线性相关。

例如,假如从区间[-1,1]中均匀分布中采出一个实数x,然后我们对一个随机变量s进行采样,s以1/2的概率值为1,否则为-1。另一个随机变量值为y=sx。

分析:x为从连续分布中采样出来的实数,属于连续型随机变量。 
s为从离散均匀分布采样出来的随机变量,属于离散型随机变量。 
俩个的协方差为Cov(x,y)=E[(x-E[x])(sx-E[sx])] = E[(x)(sx)]-E(x)E(sx) = 0

协方差矩阵:(n维问题)

n维随机变量 ,他们的协方差定义为:

则有:

由上面可知,矩阵C是一个对称矩阵。 
其对角线为各个随机变量的方差,非对角线元素表示随机变量X的不同分量之间的协方差。协方差体现了一定的相关性,因而C可作为刻画不同分量之间相关系的一个评判量。

若不同分量之间的相关性越小,则非对角线元素的值就越小。特别的,若不同分量彼此不相关,则全部值为0,变成了一个对角矩阵。

我们并不能得到协方差矩阵C(X)的真实值,只能根据所提供的X的样本数据对其进行近似估计(可参考博客:http://blog.csdn.net/itplus/article/details/11452743

8.常用概率分布

a.Bernoulli (伯努利) 分布

是二项分布的特殊情况,离散型随机变量

伯努利分布是单个二值型随机变量的分布。它由单个参数  控制, 给出了随机变量等于1的概率。它具有如下的一些性质:

 

则通用表达式为:

期望 E[X]=

方差 

b.multinouli 分布

离散型随机变量

multinoulli分布(multinoulli distribution)或者分类分布(categorical distribution) 是指具有k个不同状态的单个离散随机变量上的分布,k是有限的。

在日常生活中,如果我们掷一个不均匀的色子(每一面出现的概率均不一样),就可以通过multinoulli/categorical进行建模了。 
对于一个Kx1维离散型的随机向量,如果其概率分布函数(PMF)可以写成:

(其中(X|1,0 )中的1,是表示出现出现了1次而已)

(所以, ,只表示出现或者不出现。如果将1改为n,那么就是X就是表示出现了多少次了。)

或者 
 ,其中

其中,是一个向量,表示每一维得到第j面的概率。

在这个分布中,由于只考虑一种情况,就是出现或者不出现的问题,则有:

 ,这里的K表示K维 ,因为表示一次,则有 

 ,则有

对于均值而言,我们有:

其实,Multinoulli分布就是高维的Bernoulli分布。

c.高斯分布(Gaussian distribution)

连续型随机变量

对于实数上的分布,用得最多的就是正态分布和高斯分布:

这里写图片描述

正态分布被俩个参数控制,,均值为 ,标准差为,方差为 

当我们需要求概率密度值的时候,需要求方差的倒数,令,将上述公式替换掉。

当我们缺乏对某个实数上分布的先验知识而不知道选择怎样的形式的时候,正态分布是默认的 比较好的选择。原因如下:

1.我们想要建模的很多分布真实情况都是比较接近正态分布的。中心极限定理说明很多独立随机变量的和近似服从正态分布。这意味着很多复杂系统都可以被成功建模成正态分布的噪声。

2.在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性。因此可以认为正态分布是对模型加入的先验知识量最少的分布

正态分布可以推广到  空间这种情况称为多维正态分布,它的参数是一个正定对称矩阵 :

如上面所示,协方差矩阵  是一个MXM的是对称矩阵(这里我们假设是mxm),X是一个M维本,每一维又有N个属性,因此X是MXN矩阵,其均值u也是一个M维向量,而方差(这里是协方差)也是MxM矩阵。

和单变量的情况类似,当我们希望对很多不同参数下的概率密度多次求值时,协方差矩阵并不是一个很高效的方法,因为需要对协方差矩阵求逆。我们可以用一个精度矩阵(precision matrix) 进行代替。 
则变为求:

如果理解了高维正态分布的话,对于二维正态分是很好理解的了,假如有俩组随机变量:

则其协方差为:

d.泊松分布和指数分布和Laplace分布

(1)泊松分布: 
日常生活中,大量事情是有固定频率的。 
1.某医院平均每三小时出生3个婴儿。 
2.某公司平均每10分钟接1个电话。 
特点是:可以预估这些事件的总数,却没法知道具体的发生时间。

泊松分布就是描述某段时间内,事件具体的发生概率。

上述式子就是泊松分布的公式。等号左边P表示概率,N表示某种函数关系,t表示时间,n表示数量,1小时出生3个婴儿的概率,就表示为P(N(1)=3)。等号右边表示事件的频率,在”医院平均每小时出生3个婴儿”这件事来说=3。

对于在接下来一个小时,一个婴儿都不出生的概率是:

这里写图片描述

(2)指数分布 
指数分布是事件的时间间隔的概率。下面这些都属于指数分布: 
1.婴儿出生的时间间隔 
2.来电的时间间隔

如果下一个婴儿要隔时间t,就等于t之内没有任何婴儿出生:

这里写图片描述

反过来而言,事件在时间t之内发生的概率,就是通过1减去上面的值。则:

这里写图片描述

在深度学习中,我们经常需要在x=0取得分界点的分布,这里我们就可以指数分布。

其中为指示函数,表示x小于0时概率为0,则有以下分布:

其中λ>0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间发生该事件的次数。指数分布的区间是[0,∞)。如果一个随机变量X呈指数分布,则可以写作:X∽Exponential(λ)

随机变量X(X的率参数是λ)的期望值是:E[X]=1/λ,比方说:如果你平均每个小时接到2次电话,那么你预期等待每一次电话的时间是半个小时。X的方差是:,X的偏离系数是:V[X]=1.

(3)Laplace分布 
拉布拉斯分布,允许我们在任意一点u处设置概率质量的峰值,即把在指数分布时候的x=0取得最大值,变成x=u的最大值。

Laplace分布:可以看做俩个不同位置的指数分布背靠背拼接在一起,所以也叫双指数分布。

其中,u是位置参数,r>0是尺度参数。如果u=0,正半部分恰好是尺度为1/2的指数分布。

拉布拉斯分布的概率跟正态分布的概率其实有点像,正态分布是用相对于u平均值的平方来表示,而Laplace概率密度函数用相对于平均值的差的绝对值来表示。因此,Laplace分布的尾部比正态分布更加平坦。

9.Dirac分布和经验分布

在一些情况下,我们要把所有的概率都集中在一个点上。这可以通过Dirace delta(狄克拉) 函数  定义概率密度函数来实现:

函数被定义为除了0以外的其他点的值都为0,但是积分为1(面积为1)。Dirac delta函数不像普通函数一样对x的每一个值都有一个实数值的输出,它是一种不同类型的数学对象,我们称为广义函数,广义函数是依据积分性质定义的数学对象。可以把Dirac delta函数想成一系列函数的极限点,这一系列函数把除0外的所有概率密度越变越小。

通过p(x)定义成函数函数左移-u个单位,则我们得到了一个在x=u处具有无限窄也无限高的概率质量。

在科学和数学中,狄克拉函数在实数线上定义的一个广义函数或分布。在除0以外的其他点都等于0,在积分定义上等于1。

Dirac分布经常作为经验分布的一个组成部分出现:

经验分布将概率密度1/m赋给m个点 ,但是Dirac函数只对连续随机变量有必要。

离散的用multinoulli(伯努利分布的高维扩展)分布。经验分布可以被定义成一个multinoulli分布,对于每一个可能的输入,其概率可以简单地设为在训练集上那个输入值的经验频率

10.混合分布

通过组合一些简单的概率分布来定义新的概率也是很常见的,一种通过的组合方法是构造混合分布。

混合分布由一些组件(component)分布构成。样本是由哪个组件分布产生的取决与从一个Mutimoulli分布中采样的结果:这里P(c)是对各组件的一个Multimoullis分布(简单来说,就是通过multimoullis分布来产生选择哪个组件分布的概率

 
(其中P(c=i) 是multimoullis分布,用来选择哪个部件,而p(x|c=i)是用来符合multimoullis的分布,就相当于while(n)….case….)

一个非常强大且常见的混合模型是高斯混合模型(Guassian Mixture Model),它的组件是P(x|c=i)是高斯分布。每个组件都有各自的参数,均值和协方差矩阵。

除了均值和协方差以外,高斯混合模型的参数指明了给每个组件i的先验概率  ,先验一词表明了在观测到x之前传递给模型关于c的信念。而后验 P(c|x)是后验概率,因为是在观测到x之后进行计算的。

高斯分布是概率密度的万能逼进器,在这种意义上,任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以及任意精度来逼近。

11.某些函数在处理概率分布时经常会出现,尤其是深度学习的模型中用到的概率分布。

函数1:Logistic sigmoid函数: 
函数表达式为:

这里写图片描述

Logistics sigmoid函数通常用来产生Bernoulli分布中的参数  ,因为它的范围是(0,1),处在的有效值范围内。Sigmoid函数在变量取绝对值非常大的正值或负值会出现饱和现象,意味着函数会变得很平。

Logistic simoid函数的一些常用性质:

函数2:softplus 函数 
表达式为: 

可以用来产生正态分布的 和 ,因为它的范围是

当处理包含sigmoid函数的表达式时该函数也经常出现。softplus函数名来源于它是另外一个函数的平滑形式: x + = max(0, x)(这个函数就是取最大值吗?)

这里写图片描述

1. 
2.  
3.

4.

5.

6.

7.对于任意的x大于0,则有

8.

9.

12.贝叶斯规则

我们经常会需要在已知P(y|x)时计算P(x|y)。幸运的是,如果还知道P(x),我们就可以用贝叶斯规则来实现这一目的:

上式的公式,是因为我们有:

在贝叶斯法则的公式中,我们已知的量有P(x)和P(y|x),而P(y)我们可以通过marginal function(边缘函数)来表示,则我们有

所以,我们并不需要先知道P(y)的信息。

13.连续型变量的细节

1.连续型随机变量和概率密度函数的深入理解需要用到数学分支测度论。测度论的一个重要贡献是提供了一些集合的特征使得我们在计算概率时不会遇到悖论。

对于我们的目的,测度论更多的是用来描述那些适用于 上的大多数点的定理的,而不是只适用于一些小的情况。

测度论提供了一种严格的方式来描述那些非常微小的点集。称为”零测度”,零测度集在我们的度量空间不占有任何体积,例如在R2(二维空间)空间中,一条直线的测度为0。

另外一个有用的测度论术语是”几乎处处”。如果某个性质是几乎处处都成立的,那么它在整个空间中除了测度为0的几何以外都是成立的。

2.连续型随机变量的另一技术细节,涉及到那种相互之间彼此确定性函数的连续型变量。举一个简单的例子,假设我们有俩个变量值随机变量x和y,y=g(x)。并且满足y=x/2以及x~U(0,1)(U表示的是均匀分布)。如果我们使用  ,那么除了区间[0,1/2]以外都为0,并且在这个区间上的值为1。意味着 
,这与概率密度的定义相违背(积分为1)。

这个常见的错误是因为没有引入函数g后造成的空间变形,在没有引入y的时候,x落在无穷小的体积为的区域内的概率是 
,但是因为g可能会扩展或者压缩空间。在x空间内包围着x的无穷小体积在y空间中可能有不同的体积。我们需要保持以下的性质: 

猜你喜欢

转载自blog.csdn.net/Song_Esther/article/details/82769254
今日推荐