香农熵、相对熵(KL散度)与交叉熵

连接:https://blog.csdn.net/lanchunhui/article/details/51277608

1. 香农熵(Shannon entropy)

信息熵(又叫香农熵)反映了一个系统的无序化(有序化)程度,一个系统越有序,信息熵就越低,反之就越高。

如果一个随机变量 XX 的可能取值为 X={x1,x2,,xn}X={x1,x2,…,xn},对应的概率为 p(X=xi)p(X=xi),则随机变量 XX 的信息熵为:

H(X)=i=1np(xi)logp(xi)H(X)=−∑i=1np(xi)log⁡p(xi)

2. 相对熵(relative entropy)

所谓相对,自然在两个随机变量之间。又称互熵,Kullback–Leibler divergence(K-L 散度)等。设 p(x)p(x) 和 q(x)q(x) 是 XX 取值的两个概率分布,则 pp 对 qq 的相对熵为: 

D(p||q)=i=1np(x)logp(x)q(x)D(p||q)=∑i=1np(x)log⁡p(x)q(x)

在一定程度上, 熵可以度量两个随机变量的距离 。KL 散度是两个概率分布 P 和 Q 差别的 非对称性的度量 。KL 散度是用来度量使用基于 Q 的编码来编码来自 P 的样本平均所需的额外的位元数。

典型情况下,P 表示数据的真实分布,Q 表示数据的理论分布,模型分布,或 P 的近似分布。

相对熵的性质,相对熵(KL散度)有两个主要的性质。如下

  • (1)尽管 KL 散度从直观上是个度量或距离函数,但它并不是一个真正的度量或者距离,因为它不具有对称性,即

D(p||q)D(q||p)D(p||q)≠D(q||p)

  • (2)相对熵的值为非负值,即

    D(p||q)0D(p||q)≥0

在证明之前,需要认识一个重要的不等式,叫做吉布斯不等式。内容如下


这里写图片描述 

这里提供一个离散型 KL 散度的简单实现:

from functools import reduce
import operator
import math

def kl(p, q):
    return reduce(operator.add, map(lambda x, y: x*math.log(x/y), p, q))

3. 交叉熵(cross entropy)

  • H(p,q)=xp(x)logq(x)

什么是信息熵

信息熵是度量随机变量不确定度的指标,信息熵越大意味着随机变量不确定度越高,意味着系统的有序程度越低。他的定义 
如果随机变量P={x1,x2,...,xn}P={x1,x2,...,xn},他的概率P{P=xi},i{1,2,..,n}P{P=xi},i∈{1,2,..,n},则随机变量P={x1,x2,...,xn}P={x1,x2,...,xn}的熵定义为 

H(P)=i=1np(xi)log2p(xi)H(P)=−∑i=1np(xi)log2p(xi)

什么是交叉熵

交叉熵(Cross Entropy),主要用于度量两个概率分布间的差异性信息。对一个离散随机变量的两个概率分布P和Q来说,他们的交叉熵定义为: 

H(P,Q)=i=1np(xi)log2q(xi)H(P,Q)=−∑i=1np(xi)log2q(xi)

特别的在机器学习中,P代表真实分布,Q代表模型拟合分布,交叉熵衡量两个分布之间的差异,交叉熵越小,Q就与就接近真实分布P,这也是为什么我们用最小化交叉熵损失来学习模型,最简单的逻辑回归的损失函数: 
L(θ)=1mi=1mj=01p(y(i)=j|xi)log2q(y^=j|xi,θ),(x(i),y(i))i{1,2,3,...,m}L(θ)=−1m∑i=1m∑j=01p(y(i)=j|xi)log2q(y^=j|xi,θ),(x(i),y(i)),i∈{1,2,3,...,m}

其中 (x(i),y(i))(x(i),y(i)) 表示真实数据和标签。 y^y^ 表示模型输出标签。 q(y^=0|xi,θ)=11+eθTxiq(y^=0|xi,θ)=11+e−θTxi 表示模型分布输出 y^=0y^=0 的概率, q(y^=0|xi,θ)=111+eθTxiq(y^=0|xi,θ)=1−11+e−θTxi 表示模型分布输出 y^=1y^=1 时概率。 p(y(i)=j|xi)=1{y(i)=j}p(y(i)=j|xi)=1{y(i)=j} 。把其中j取值到n就是softmax分类损失了。

什么是相对熵

对一个离散随机变量的两个概率分布P和Q来说,他们的KL散度定义为: 

H(P||Q)=i=1np(xi)log2p(xi)q(xi)H(P||Q)=∑i=1np(xi)log2p(xi)q(xi)

相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(information gain),是描述两个概率分布P和Q差异的一种方法。它是非对称的,这意味着D(P||Q) ≠ D(Q||P)。 
有人将KL散度称为KL距离,但事实上,KL散度并不满足距离的概念,因为: 
1)KL散度不是对称的; 
2)KL散度不满足三角不等式。。 
特别的,在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布,模型分布。 
KL距离在信息检索领域,以及统计自然语言方面有重要的运用。

三者间的关系

H(P||Q)=H(P,Q)H(P)=i=1np(xi)log2q(xi)(i=1np(xi)log2p(xi))=i=1np(xi)log2p(xi)q(xi)H(P||Q)=H(P,Q)−H(P)=−∑i=1np(xi)log2q(xi)−(−∑i=1np(xi)log2p(xi))=∑i=1np(xi)log2p(xi)q(xi)

简单理解下, H(P)H(P) 理解为真实分布编码长度,  H(P,Q)H(P,Q) 理解为用Q模拟真实分布的编码长度,  H(P||Q)H(P||Q) 理解为模拟到真实的差距。

猜你喜欢

转载自blog.csdn.net/wuguangbin1230/article/details/80722047