相对熵——KL散度

相对熵——KL散度

相对熵又被成为KL散度,或信息散度,用来度量两个概率分布间的非对称性差异,在信息论中KL相对熵等于两个概率分布的信息熵的差值。

相对熵的公式

P ( x ) 、 Q ( x ) P(x)、Q(x) P(x)Q(x)是离散随机变量 X X X中取值 x x x的两个概率分布函数,它们的结果分别为 p p p q q q,则 p p p q q q的相对熵如下:
D K L = ∑ x ∈ X P ( x ) l o g P ( x ) Q ( x ) = E p [ l o g d P ( x ) d Q ( x ) ] D_{KL} = \sum_{x\in X}^{}P(x)log\frac{P(x)}{Q(x)}=E_p\left [ log\frac{dP(x)}{dQ(x)} \right ] DKL=xXP(x)logQ(x)P(x)=Ep[logdQ(x)dP(x)]
由该式可知当两个分布相同时,相对熵为0并且相对熵具有不对称性。

相对熵与交叉熵之间的关系

将上式中的对数部分展开,可以看到相对熵与绝对熵之间的关系:
D K L ( p ∣ ∣ q ) = ∑ x ∈ X P ( x ) l o g P ( x ) + ∑ x ∈ X P ( x ) l o g 1 Q ( x ) = − H ( p ) + H c r o s s ( p , q ) = H c r o s s ( p , q ) − H ( p ) D_{KL}(p||q)=\sum_{x \in X}^{}P(x)logP(x) + \sum_{x \in X}^{}P(x)log\frac{1}{Q(x)} \newline =-H(p)+H_{cross}(p, q)\newline =H_{cross}(p,q)-H(p) DKL(p∣∣q)=xXP(x)logP(x)+xXP(x)logQ(x)1=H(p)+Hcross(p,q)=Hcross(p,q)H(p)
相对熵是交叉熵中去掉熵的部分。

猜你喜欢

转载自blog.csdn.net/wwx1239021388/article/details/130323855
今日推荐