概念

互信息，Mutual Information，缩写为MI，表示两个变量X与Y是否有关系，以及关系的强弱。

公式

我们定义互信息的公式为：

$I(X,Y)=\int_X \int_Y P(X,Y)\log\frac{P(X,Y)}{P(X)P(Y)}$

可以看出，如果X与Y独立，则P(X,Y)=P(X)P(Y)，I(X,Y)就为0，即代表X与Y不相关

解析公式

I (X; Y) = \int X \int Y P (X, Y) log P ( X , Y ) P ( X ) P ( Y ) = \int X \int Y P (X, Y) log P ( X , Y ) P ( X ) - \int X \int Y P (X, Y) log P (Y) = \int X \int Y P (X) P (Y | X) log P (Y | X) - \int Y log P (Y) \int X P (X, Y) = \int X P (X) \int Y P (Y | X) log P (Y | X) - \int Y log P (Y) P (Y) = - \int X P (X) H (Y | X = x) + H (Y) = H (Y) - H (Y | X)

$\begin{aligned} I(X;Y)&=\int_X \int_Y P(X,Y)\log\frac{P(X,Y)}{P(X)P(Y)}\\ &=\int_X \int_Y P(X,Y)\log\frac{P(X,Y)}{P(X)}-\int_X \int_Y P(X,Y)\log{P(Y)}\\ &=\int_X \int_Y P(X)P(Y|X)\log P(Y|X) -\int_Y \log{P(Y)}\int_X P(X,Y)\\ &=\int_X P(X)\int_Y P(Y|X)\log P(Y|X)-\int_Y \log{P(Y)}P(Y)\\ &=-\int_X P(X)H(Y|X=x)+H(Y)\\ &=H(Y)-H(Y|X)\\ \end{aligned}$
其中，H(Y)是Y的熵，定义为

H(Y)=−∫YP(Y)logP(Y) $H(Y)=-\int_Y P(Y)\log{P(Y)}$

Y的熵指的是衡量的是Y的不确定度，Y分布得越离散，H(Y)的值越高

H(Y|X)则表示在已知X的情况下，Y的不确定度

所以，根据互信息公式的变形：
$I(X,Y)=H(Y)-H(Y|X)$

可以看出，I(X,Y)可以解释为由X引入而使Y的不确定度减小的量，这个减小的量为H(Y|X)

所以，如果X,Y关系越密切，I(X,Y)就越大

I(X,Y)最大的取值是H(Y)H(Y)，此时H(Y|X)为0，意义为X和Y完全相关，在X确定的情况下Y是个定值，没有出现其他不确定情况的概率，所以为H(Y|X)为0

I(X,Y)取0时，代表X与Y独立，此时H(Y)=H(Y|X)，意义为X的出现不影响Y。。

性质

I(X;Y)I(X;Y)的性质：
1）I(X;Y)⩾0 ，I(X;Y)⩾0
2）H(X)−H(X|Y)=I(X;Y)=I(Y;X)=H(Y)−H(Y|X)H(X)−H(X|Y)=I(X;Y)=I(Y;X)=H(Y)−H(Y|X)
3）当X,Y独立时，I(X;Y)=0，I(X;Y)=0
4）当X,Y知道一个就能推断另一个时，I(X;Y)=H(X)=H(Y)

缺点

在做文本分类时，我们可能会判断一个词和某类的相关程度，但是计算时，未考虑词频的影响
（可以让互信息的结果再乘上tf-idf因子，从而将特征频率与特征分布考虑进去）

应用

1、文本自动摘要
2、两个词语同时出现的概率
PMI（点互信息），通过判断一个词分别与poor和excellent的互信息来判断这个词的情感倾向
这里写图片描述
3、特征提取时特征项与类别的关联程度

http://www.docin.com/p-1061736680.html 一个互信息的文本摘要应用
http://www.cnblogs.com/ywl925/p/3736277.html

参考文献：
http://www.fuzihao.org/blog/2015/01/17/%E4%BA%92%E4%BF%A1%E6%81%AF%E7%9A%84%E7%90%86%E8%A7%A3/

后续遇到应用再补充MI的更多用途

互信息（Mutual Information）的介绍

概念

公式

解析公式

性质

缺点

应用

更多

猜你喜欢