版权声明:本文为博主原创文章,未经博主允许不得转载。作为分享主义者(sharism),本人所有互联网发布的图文均采用知识共享署名 4.0 国际许可协议(https://creativecommons.org/licenses/by/4.0/)进行许可。转载请保留作者信息并注明作者Jie Qiao专栏:http://blog.csdn.net/a358463121。商业使用请联系作者。 https://blog.csdn.net/a358463121/article/details/79499801
如果我们要用一个分布q去近似一个分布p,我们一般的做法都是去优化一个KL距离使得他最小,但是KL距离是一个不对称的距离,那么我们优化 跟 的区别在哪里?
首先考虑第一种KL距离
,也被称为M-projection 或 moment projection,定义如下:
在这个距离里面,我们发现只有当 的时候, 才能等于0,否则他们之间的距离就会无穷大,于是为了近似p,q会尽可能保持大于0,因为他能够等于0的地方太少了。于是在这种情况下q就会高估p的值域。
对于另外一个距离
,又称为I-projection 或 information projection.
在这个距离里面,我们发现当 的时候 ,我们必须要保证 ,否则这个距离就会变成无穷大,那我们的q就无法近似p了。所以,q很可能为了近似p,而避开或被p(x)=0的点截断。这种特性会导致q会低估p的值域。
图也正好表达了这种关系, 会高估p的值域尽可能保持大于0,而 会低估p的值域,被p的0点截断。