考虑一对连续的随机变量X和Y,这两者是相关的。由概率论,可以将X和Y的联合概率表示为:
pX,Y=pY(y|x)px(x)
由此根据微分熵的定义,有:
h(X,Y)=h(X)+h(Y|X)
这里h(X,Y)称为X和Y的联合微分熵,且h(Y|X)称为给定X,Y的条件微分熵。用文字描述,可以说关于X和Y的不确定性等于关于X的不确定性加上给定X时Y的不确定性。相似的,可以说关于X和Y的不确定性假设给定Y时X的不确定性,如下所示:
h(X,Y)=h(Y)+h(X|Y)
在连续随机变量X应用到系统的输入,在系统的输出端产生了一个连续的随机变量Y,通过定义,微分熵
h(X)
是在观察系统输出Y之前关于系统输入X的不确定性,而条件微分熵H(X|Y)是在观察了系统输出Y之后的系统输入X的不确定性。其差H(X) - H(X|Y)就是由观察系统输出Y所决定的系统输入X的不确定性。这一熵差称为系统输入X和系统输出Y之间的互信息;
I(X:Y),因此可以写为:
I(X;Y)=h(x)−h(X|Y)=∫+∞−∞∫+∞−∞px,y(x,y)log(pX,Y(x,y)pX(x)pY(y))dxdy
=∫+∞−∞∫+∞−∞pX|Y(x|y)pY(y)log(pX,Y(x,y)pY(y))dxdy
两个连续随机变量X和Y之间的互信息具有三个重要性质:
性质1 非负性
互信息
I(X;Y)
总是非负的,即:
I(X;Y)≥0
性质2 对称性
I(Y,X)=I(X;Y)
性质3 不变性
在随机变量的可逆变换下互信息是不变的
互信息的一般性