信息增益与KL散度

(一)前言

  • 早就耳闻$KL$散度$(Kullback-Leibler$ $divergence)$大名,一方面近日回归分析课上提到了一些,但还是似懂非懂,另一方面又在重温随机森林时不可避免地进一步了解了信息增益的相关性质,而信息增益与$KL$散度之间的联系之紧密是不言而喻的,故想整合收集到的资料来学习一下这方面的知识

(二)定义

  • 熵:$H(X)=E_X[\ln \frac{1}{p(x)}]$
  • 联合熵:$H(X,Y)=E_{X,Y}[\ln \frac{1}{p(x,y)}]$
  • 条件熵:$H(Y\vert X)=E_X[E_{Y\vert X}[\ln \frac{1}{p(y\vert x)}]]$
    • 上述三者的关系为:$H(X,Y)=H(X)+H(Y\vert X)$
      • $H(X,Y)= -\iint p(x,y) \ln p(x,y) dx dy\\=-\iint p(x,y)\ln p(x) dx dy-\iint p(x,y) \ln p(y \vert x) dx dy\\=H(X)-\int p(x) \int p(y\vert x)\ln p(y \vert x) dy dx\\=H(X)+H(Y\vert X)$
  • $KL$散度:$\int p(x)\ln \frac{p(x)}{q(x)} dx$
  • 信息增益:$I(X,Y)=H(X)-H(X\vert Y)=H(Y)-H(Y\vert X)$
    • 不难发现信息增益$I$是一个对称算子

猜你喜欢

转载自www.cnblogs.com/gyhhaha/p/11788408.html
今日推荐