信息论学习模型 ----互信息

考虑一对连续的随机变量X和Y，这两者是相关的。由概率论，可以将X和Y的联合概率表示为：

p_{X, Y} = p_{Y} (y | x) p_{x} (x)

$p_{X,Y} = p_Y(y|x)p_x(x)$
由此根据微分熵的定义，有：

h (X, Y) = h (X) + h (Y | X)

$h(X,Y) = h(X)+h(Y|X)$
这里h(X,Y)称为X和Y的联合微分熵，且h(Y|X)称为给定X，Y的条件微分熵。用文字描述，可以说关于X和Y的不确定性等于关于X的不确定性加上给定X时Y的不确定性。相似的，可以说关于X和Y的不确定性假设给定Y时X的不确定性，如下所示：

h (X, Y) = h (Y) + h (X | Y)

$h(X,Y) = h(Y) +h(X|Y)$
在连续随机变量X应用到系统的输入，在系统的输出端产生了一个连续的随机变量Y，通过定义，微分熵

h (X)

$h(X)$ 是在观察系统输出Y之前关于系统输入X的不确定性，而条件微分熵H(X|Y)是在观察了系统输出Y之后的系统输入X的不确定性。其差H(X) - H(X|Y)就是由观察系统输出Y所决定的系统输入X的不确定性。这一熵差称为系统输入X和系统输出Y之间的互信息；
I(X:Y)，因此可以写为：

I (X; Y) = h (x) - h (X | Y) = \int_{- \infty}^{+ \infty} \int_{- \infty}^{+ \infty} p_{x, y} (x, y) \log (\frac{p_{X, Y} (x, y)}{p_{X} (x) p_{Y} (y)}) d x d y

$I(X;Y) = h(x) -h(X|Y) = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} {p_{x,y}(x,y)\log (\frac {p_{X,Y}(x,y)}{p_X(x)p_Y(y)})} \,{\rm d}x \,{\rm d}y$

= \int_{- \infty}^{+ \infty} \int_{- \infty}^{+ \infty} p_{X | Y} (x | y) p_{Y} (y) l o g (\frac{p_{X, Y} (x, y)}{p_{Y} (y)}) d x d y

$=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}p_{X|Y}(x|y)p_{Y}(y)log(\frac {p_{X,Y}(x,y)}{p_Y(y)}) \,{\rm d}x \,{\rm d}y$
两个连续随机变量X和Y之间的互信息具有三个重要性质：
性质1 非负性
互信息

I (X; Y)

$I(X;Y)$ 总是非负的，即：

I (X; Y) \geq 0

$I(X;Y)\geq0$
性质2 对称性

I (Y, X) = I (X; Y)

$I(Y,X) = I(X;Y)$
性质3 不变性
在随机变量的可逆变换下互信息是不变的
互信息的一般性

信息论学习模型 ----互信息

猜你喜欢