深入浅出深度学习(四)概率统计基础

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/jiaoyangwm/article/details/79284687

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

一、数学期望、方差、协方差
1、数学期望——反映随机变量平均取值的大小的统计量

2、方差——度量随机变量与其数学期望之间的偏离程度或分散程度的统计
量。数据越集中则方差越小,数据越分散则方差越大。

3、协方差——衡量多维随机变量之间相关性的一种统计量

方差是衡量一个变量与期望间的偏离程度,而协方差是衡量两个变量间的线性相关性,当X=Y时,协方差就等于方差。
协方差大于0时,表示随机变量X与随机变量Y是正相关,即变化趋势相同。
协方差小于0时,表示随机变量X与随机变量Y是负相关,即变化趋势相反。
协方差等于0时,表示随机变量X与Y间无线性相关性。

线性不相关与独立的区别:
如果X和Y相互独立,则协方差必为0,即线性不相关;
如果X和Y线性不相关时,随机变量之间不一定独立,因为独立性考察一般性关系,而协方差是度量线性关系。

协方差和相关系数:
协方差描述了两个随机变量间的正负线性相关性,而相关系数通过归一化提供了一种衡量相关性大小的统计量:

相关系数是在协方差的基础上添加了正则化因子,从而将其限定在[-1,1]内。

协方差矩阵:

二、信息论基础
1、信息熵——简称熵,表示随机变量不确定性的度量。
设X是离散随机变量,其概率分布为:

随机变量的信息熵定义为:
(log是以2为底的对数)
当pi=0/1时,熵为0,pi=0.5时,熵最大(类似开口向下的抛物线),熵越大说明包含的信息越多,随机变量的不确定性就越大,

最大熵定理:当离散随机变量的概率分布是等概率分布时,H(X)取最大值,结果为,n表示随机变量X有n个不同的取值。
2、条件熵——在已知随机变量X的条件下,随机变量Y的不确定性。
从感知上说,条件熵的值要比信息熵小,因为当我们有了更多的背景知识时,信息的不确定性自然也就下降了。

3、互信息——也称为信息增益,描述两个随机变量之间的相关性程度,也就是给定一个随机变量X后,另一个随机变量Y不确定性的削弱程度,即为:

当X与Y完全相关时,,取最大值
当X与Y完全无关时,,取最小值

4、相对熵与交叉熵
机器学习和深度学习的目的归结为尽量准确的学习到数据间的变量关系,还原样本数据的概率分布。交叉熵和相对熵正是衡量概率分布或函数间相似性的度量方法。
设有随机变量X,其真实概率分布为p(x),通过模型训练得到的概率分布模型为q(x)。
①相对熵(Kullback-Leibler Divergence,也称KL散度、KL距离)

·相对熵不是传统意义上的“距离”,因为相对熵不具有对称性,即

  ·当预测与真实分布完全相同时,相对熵为0
  ·若两个分布相差越大,则相对熵越大;若两个分布相差越小,则相对熵越小。

②交叉熵(cross-entropy)
表示X的信息熵,,由于真实分布p(x)为一个固定值,所以是一个不变量,故有成立。
化简:
交叉熵比相对熵更为简洁,且两者存在一定的等价关系,因此一般用交叉熵来度量两个分布的相似性。

三、 概率图模型
概率统计模型参数量大且难以存储,但实际上变量之间往往存在很多独立性或近似独立性的假设,也就是说每一个随机变量只和极少数的随机变量相关。概率图模型(Probabilistic Graphical Model,PGM),根据变量间的独立性假设,为我们提供了解决这类问题的机制,PGM以图论和概率论为基础,通过图结构将概率模型可视化,使我们能够观察复杂分布中变量的关系,同时把概率上的复杂过程理解为在图上进行信息传递的过程,无须关注太多的复杂表达式。
1.生成模型与判别模型
从形式上来说,监督学习模型可以分为概率模型和非概率模型,概率模型利用训练样本的数据,通过学习条件概率分布来进行推断决策;非概率模型通过学习得到决策函数来进行判断。
从算法层面来说,监督学习又可以分为生成模型和判别模型。
生成模型:目标是求取联合概率分布,然后由条件概率公式求取条件概率分布:.
典型的生成模型包括:朴素贝叶斯模型,隐马尔科夫模型等。
之所以称上式为生成模型是因为模型不但可以用来预测结果输出,还可以通过联合分布来生成新样本数据集。
判别模型:由训练数据直接求取决策函数或条件分布,判别模型并不需要关心X和Y之间的生成关心,直接关心的是对于给定的输入X应该得到怎么样的输出Y。机器学习中的大部分分类模型都属于判别模型,如感知机、决策树、支持向量机、条件随机场等。

总结:一般来说,两种模型之间适合于不同条件下的学习问题,生成模型除了可以应用在预测数据外,还可以还原出数据的联合分布函数,因此生成模型的应用领域更广泛。判别模型得到条件概率或决策函数直接用于预测,因此在监督学习中准确率更高。

猜你喜欢

转载自blog.csdn.net/jiaoyangwm/article/details/79284687