版权声明: 本文为博主原创文章,未经博主允许不得转载 https://blog.csdn.net/u011467621/article/details/51540578
信息论小结
joey 周琦
某个事件x发生的概率为p(x),那么该事件的信息量
h(x)=−logP(x)
- 该定义满足h(x)>=0
- 若事件x,y相互独立,那么
熵:可以表示某个随机事件包含的信息量的期望
- 熵=
−∑ipilogpi - 条件熵:
H[y|x]=−∑p(y,x)logp(y|x) - 互信息:
I(x,y)=H(x)−H(x|y)=H(y)−H(y|x) - 决策树中的,information gain也就是互信息,即假设有数据集D,某特征A,
IG(D,A)=H(D)−H(D|A)
KL散度(kl divergence)
- 若有一个未知分布
p(x) , 假设我们利用q(x) 来逼近该分布,那么q(x) 逼近p(x) 的程度可以用KL divergence表示 -
KL(p||q)=−∫p(x)logq(x)−(−∫p(x)logp(x))=−∫p(x)logq(x)p(x) - 可以证明:KL散度不对称,>=0
- 可以证明:
I(x,y)=KL(p(x,y)||p(x)p(y))