信息论相关概念

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/caicaiatnbu/article/details/84654371

本文将重点介绍与信息论相关的5个概念,分别是信息熵、条件熵、互信息、交叉熵以及相对熵。这5个概念在机器学习和深度学习中都被广泛应用。下面我们分别对这5个概念进行详细介绍。

1. 信息熵

首先,我们给出信息熵的定义:在概率论与数据统计中,熵(Entropy)表示随机变量不确定性的度量。设X是一个取有限个值得离散随机变量,即X是一离散型随机变量,其概率分布为: 

 \large P(X=x_{k})=p_{k}, k=1,2,...,k

则随机变量X的信息熵定义为:

\large H(X)=-\sum_{i=1}^{n}p_{i}*logp_{i}

此处,\large log取以2为底或者以\large e为底。同时,在这里约定\large 0*log0 = 0。根据熵的定义,我们可以发现熵的大小只与X的分布有关,而跟X的取值并无任何关系。

信息熵越大,包含的信息就越多,那么随机变量的不确定行就越大。例如,假设随机变量X服从概率为\large p的伯努利分布,即概率分布为:

\large P(X=1)=p, \quad P(x=0)=1-p,\quad 0\leqslant p< 1

熵为:

\large H(X)=-p*logp-(1-p)*log(1-p)

 

最大熵定理:当离散随机变量的概率分布是等概率分布时,\large H(X)取最大值,结果为\large logn,其中\large n表示随机变量\large X\large n不同的取值。

2. 条件熵

假设有二维随机变量\large (X, Y) ,其联合概率密度为:

\large p(X=x_{i},Y=y_{j})=p_{ij},\quad i=1,2,...,n;\;j=1,2,..,m

条件熵表示在已知随机变量\large X的条件下,随机变量\large Y的不确定性,条件熵为:

\large H(Y|X)=-\sum_{i=1}^{n}\sum_{j=1}^{m}p(X=x_{i},Y=y_{j})*logp(Y=y_{j}|X=x_{i})

从感知角度出发,条件熵的值要比信息熵的值要小(随机变量\large X与随机变量\large Y要相关),因为当我们有了更多的背景知识时,信息的不确定性自然也就会下降。

定理:对二维随机变量\large (X, Y),条件熵\large H(Y| X)和信息熵\large H(Y)满足如下关系

                          \large H(Y| X)\leq H(Y)

证:H(Y|X)=-\sum_{i=1}^{n}\sum_{j=1}^{m}p(X=x_{i},Y=y_{j})*logp(Y=y_{j}|X=x_{i})

                       =-\sum_{i=1}^{n}p(X=x_{i})[\sum_{j=1}^{m}p(Y=y_{j}|X=x_{i})*logp(Y=y_{j}|X=x_{i})]

                       \leq -\sum_{i=1}^{n}p(X=x_{i})[\sum_{j=1}^{m}p(Y=y_{j}|X=x_{i})*logp(Y=y_{j})]

                      =-\sum_{j=1}^{m}[\sum_{i=1}^{n}p(Y=y_{j}|X=x_{i})*p(X=x_{i})]*logp(Y=y_{j})

                     =-\sum_{j=1}^{m}p(Y=y_{j})*logp(Y=y_{j})

                    \large =H(Y)

当随机变量X与随机变量Y相互独立时,\large H(Y| X)= H(Y),从感知角度上来说,随机变量X对理解随机变量Y没有任何帮助,没有消除不确定性。

3. 互信息

互信息,即在决策树章节中的信息增益,是描述两个随机变量之间的相关程度,也就是给定一个随机变量X后,另外一个随机变量Y不确定性的削弱程度,互信息为:

 \large I(X,Y)=H(Y)-H(Y|X)

综合信息熵与条件熵,我们可以发现互信息具有如下几个性质:

因为\large H(Y| X)\leq H(Y),所以\large 0\leq I(X,Y)\leq H(Y)

当随机变量X与随机变量Y完全相关时,条件熵\large H(Y|X)=0,此时\large I(X,Y)=H(Y)-H(Y|X)=H(Y)

当随机变量X与随机变量Y完全无关时,条件熵\large H(Y|X)=H(Y),此时\large I(X,Y)=H(Y)-H(Y|X)=0

在决策树算法中,信息增益被用来作为特征选取的一种度量指标,给定训练数据集\large D,每个数据集都由\large n维特征构成,在构建决策树时,最为核心的问题是选取哪一维特征来划分数据集?每一个特征可以看成是一个随机变量,\large n维特征可以记为\large \left ( X_{1},X_{2},...,X_{n} \right )

一种合理的特征选择方案为:分别计算\large I\left ( D,X_{i} \right ),计算第\large i维特征与训练数据集\large D的相关性,\large I\left ( D,X_{i} \right )越大,说明第\large i维特征与训练数据集\large D越无关,也就是第\large i维特征的数据包含数据集\large D的信息更多。

4. 交叉熵

机器学习与深度学习的目的归结为尽量准确的学习数据见的变量关系

5. 相对熵

陆续更新中 

猜你喜欢

转载自blog.csdn.net/caicaiatnbu/article/details/84654371