交叉熵和相对熵(KL散度)

说交叉熵之前先介绍相对熵,相对熵又称为KL散度(Kullback-Leibler Divergence),用来衡量两个分布之间的距离,记为 D K L ( p | | q )

D K L ( p | | q ) = x X p ( x ) l o g p ( x ) q ( x ) = x X p ( x ) l o g   p ( x ) x X p ( x ) l o g   q ( x ) = H ( p ) x X p ( x ) l o g   q ( x )

这里 H ( p ) p 的熵。

假设有两个分布p和q,它们在给定样本集上的交叉熵定义为:

C E ( p , q ) = x X p ( x ) l o g   q ( x ) = H ( p ) + D K L ( p | | q )

从这里可以看出,交叉熵和相对熵相差了 H ( p ) ,而当 p 已知的时候, H ( p ) 是个常数,所以交叉熵和相对熵在这里是等价的,反映了分布 p q 之间的相似程度。

猜你喜欢

转载自blog.csdn.net/harry_128/article/details/80828881