互信息(Mutual Information),其表示两个变量X,Y之间是否有关系,以及关系的强弱。
公式:
互信息的公式为:
I(X,Y)=∫X∫YP(X,Y)logP(X,Y)/P(X)P(Y)
从中我们可以看出,若X与Y独立,则P(X,Y)=P(X)*P(Y),则互信息I(X,Y)为0,即代表X与Y不相关。
解析公式
I(X;Y)=∫X∫YP(X,Y)logP(X,Y)/P(X)P(Y)
=∫X∫YP(X,Y)logP(X,Y)/P(X)−∫X∫YP(X,Y)logP(Y)
=∫X∫YP(X)P(Y|X)logP(Y|X)−∫YlogP(Y)∫XP(X,Y)
=∫XP(X)∫YP(Y|X)logP(Y|X)−∫YlogP(Y)P(Y)
=−∫XP(X)H(Y|X=x)+H(Y)
=H(Y)−H(Y|X)
P(Y)=∫XP(X,Y),P(X)=∫YP(X,Y)
其中,H(Y)是Y的熵,定义为
H(Y)=−∫YP(Y)logP(Y)
Y的熵是用来衡量Y的不确定度,Y分布的越离散,H(Y)的值越高。(越确定,信息量越大,熵就越小)
H(Y|X)则表示在已知X的情况下,Y的不确定度
所以,根据互信息公式的变形:
I(X,Y)=H(Y)−H(Y|X)
可以看出,I(X,Y)可以解释为由X引入而使Y的不确定度减小的量,这个减小的量为H(Y|X)
所以,如果X,Y关系越密切,I(X,Y)就越大
I(X,Y)最大的取值是H(Y)H(Y),此时H(Y|X)为0,意义为X和Y完全相关,在X确定的情况下Y是个定值,没有出现其他不确定情况的概率,所以为H(Y|X)为0
I(X,Y)取0时,代表X与Y独立,此时H(Y)=H(Y|X),意义为X的出现不影响Y。。
参考博客: