正向跟反向KL距离到底有什么区别?

版权声明:本文为博主原创文章,未经博主允许不得转载。作为分享主义者(sharism),本人所有互联网发布的图文均采用知识共享署名 4.0 国际许可协议(https://creativecommons.org/licenses/by/4.0/)进行许可。转载请保留作者信息并注明作者Jie Qiao专栏:http://blog.csdn.net/a358463121。商业使用请联系作者。 https://blog.csdn.net/a358463121/article/details/79499801

如果我们要用一个分布q去近似一个分布p,我们一般的做法都是去优化一个KL距离使得他最小,但是KL距离是一个不对称的距离,那么我们优化 K L ( q | | p ) K L ( p | | q ) 的区别在哪里?

首先考虑第一种KL距离 K L ( p | | q ) ,也被称为M-projection 或 moment projection,定义如下:

K L ( p | | q ) = x p ( x ) ln p ( x ) q ( x )

在这个距离里面,我们发现只有当 p ( x ) = 0 的时候, q ( x ) 才能等于0,否则他们之间的距离就会无穷大,于是为了近似p,q会尽可能保持大于0,因为他能够等于0的地方太少了。于是在这种情况下q就会高估p的值域。

对于另外一个距离 K L ( q | | p ) ,又称为I-projection 或 information projection.

K L ( q | | p ) = x q ( x ) ln q ( x ) p ( x )

在这个距离里面,我们发现当 p ( x ) = 0 的时候 ,我们必须要保证 q ( x ) = 0 ,否则这个距离就会变成无穷大,那我们的q就无法近似p了。所以,q很可能为了近似p,而避开或被p(x)=0的点截断。这种特性会导致q会低估p的值域。

这里写图片描述

图也正好表达了这种关系, K L ( p | | q ) 会高估p的值域尽可能保持大于0,而 K L ( q | | p ) 会低估p的值域,被p的0点截断。

猜你喜欢

转载自blog.csdn.net/a358463121/article/details/79499801
今日推荐