相对熵 KL散度 (KullbackLeibler divergence)

这个属于香农信息论中的东西,在《PRML》书中1.6 信息论小节中有具体说明。真正碰到应用还是在洛桑联邦理工的POM文章中(概率占用图)。作者使用自己产生的估计Q来去逼近未知分布P,其中P是一个后验概率分布。这篇博文旨在明确KL散度的定义以及用途,以备后用。

香农大神:

 KL散度是两个概率分布间差异的非对称性度量,是一些优化算法(例如最大期望算法EM)的损失函数,参与计算的一个概率分布是真实分布,另一个是拟合分布。相对熵表示使用理论分布拟合真实分布时产生的信息损耗。

 设有未知分布p(x),使用估计概率分布q(x)逼近未知分布p(x),则KL散度定义为:

KL(p||q)=-\int{p(x)lnq(x)}dx-\left ( -\int{p(x)lnp(x)dx} \right )

KL(p||q)=-\int{p(x)ln\left (\frac{q(x)}{p(x)} \right )}dx

离散情况下写为:

KL(P||Q)=\sum P(x)log\frac{P(x)}{Q(x)}

1.  不对称性:KL散度的两个概率分布不可以随意调换位置,是有向的。

2.  并且KL(p||q)\geqslant 0,只有在p(x)=q(x)时才取等号。


放一个离散型KL散度的运算实例:

发布了50 篇原创文章 · 获赞 59 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/qq_36342854/article/details/101616417
今日推荐