信息量的定义

某事件发生的概率小，则该事件的信息量大。
定义随机变量 $X$ 的概率分布为 $P\left( X \right)$ , $X$ 的信息量为： $h\left( X \right) = - {\log _2}P\left( X \right)$ .

熵

对随机事件的信息量求期望，得到随机变量 $X$ 的熵：
$H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right)$

当对数底数是2时，单位是bit，当对数底数是e时，单位是nat(奈特)。同时，若 $P\left( x \right) = 0$ ,则定义 $0\log 0 = 0$ 。由熵定义可知，随机变量的熵只依赖于 $X$ 的分布，而与 $X$ 的取值无关。
熵表示的是随机变量不确定性的度量。熵越大，随机变量的不确定性也就越大。

两点分布的熵

H (X) = - \sum_{x \in X} P (x) \log P (x) = - p \log_{2} p - (1 - p) \log_{2} (1 - p)

$H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right) = - p{\log _2}p - \left( {1 - p} \right){\log _2}\left( {1 - p} \right)$

这时，熵 $H\left( X \right)$ 随概率 $p$ 变化的曲线如下图所示。

当 $p = 0$ 或 $p = 1$ 时，随机变量完全没有不确定性。当 $p = 0.5$ 时， $H\left( X \right) = 1$ ,熵取得最大值，随机变量的不确定性最大。

离散随机变量的最大熵

假设离散随机变量 $X$ 的概率分布是 $P\left( X \right)$ ,则其熵是：

H (X) = - \sum_{x \in X} P (x) \log P (x)

$H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right)$
熵满足下列不等式：

0 \leq H (X) \leq \log | X |

$0 \le H\left( X \right) \le \log \left| X \right|$
其中

| X |

$\left| X \right|$ 是

X

$X$ 的取值个数，当且仅当

X

$X$ 的分布是均匀分布时右边的等号成立。也就是说，当

X

$X$ 服从均匀分布时，熵最大。

给定期望和方差，最大熵的分布形式

正态分布的概率密度函数为：

f (x) = \frac{1}{\sqrt{2 π} σ} e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}

$f\left( x \right) = \frac{1}{{\sqrt {2\pi } \sigma }}{e^{ - \frac{{{{\left( {x - \mu } \right)}^2}}}{{2{\sigma ^2}}}}}$
对数正态分布为：

\ln f (x) = \ln \frac{1}{\sqrt{2 π}} - \ln σ - - \frac{{(x - μ)}^{2}}{2 σ^{2}} = α \cdot x^{2} + β \cdot x + γ

$\ln f\left( x \right) = \ln \frac{1}{{\sqrt {2\pi } }} - \ln \sigma - - \frac{{{{\left( {x - \mu } \right)}^2}}}{{2{\sigma ^2}}} = \alpha \cdot {x^2} + \beta \cdot x + \gamma$
该分布的对数是关于随机变量

X

$X$ 的二次函数。根据计算过程的可逆性，若某对数分布能够写成随机变量二次形式，该分布必然是正态分布。
目标函数为：

\begin{array}{l} \arg max_{P (x)} H (X) = - \sum_{x \in X} P (x) \log P (x) \\ s . t . {\begin{cases} E (X) = μ \\ V a r (X) = σ^{2} \end{cases} \end{array}

$\begin{array}{l} \arg \mathop {\max }\limits_{P\left( x \right)} H\left( X \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right)\\ s.t.\left\{ \begin{array}{l} E\left( X \right) = \mu \\ Var\left( X \right) = {\sigma ^2} \end{array} \right. \end{array}$
由约束条件

E (X) = μ, V a r (X) = σ^{2}

$E\left( X \right) = \mu ,Var\left( X \right) = {\sigma ^2}$

可得 $Var\left( X \right) = E\left( {{X^2}} \right) - {E^2}\left( X \right) \Rightarrow E\left( {{X^2}} \right) = Var\left( X \right) + {E^2}\left( X \right) = {\mu ^2} + {\sigma ^2}$
采用拉格朗日乘子法转化为无约束的极值问题。拉格朗日函数为：

\begin{array}{l} L (P) = - \sum_{x \in X} P (x) \log P (x) + λ_{1} (E (X) - μ) + λ_{2} (E (X^{2}) - μ^{2} - σ^{2}) \\ = - \sum_{x \in X} P (x) \log P (x) + λ_{1} (\sum_{x \in X} x \cdot P (x) - μ) + λ_{2} (\sum_{x \in X} x^{2} \cdot P (x) - μ^{2} - σ^{2}) \end{array}

$\begin{array}{l} L\left( P \right) = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right) + {\lambda _1}\left( {E\left( X \right) - \mu } \right) + {\lambda _2}\left( {E\left( {{X^2}} \right) - {\mu ^2} - {\sigma ^2}} \right)\\ = - \sum\limits_{x \in X} {P\left( x \right)} \log P\left( x \right) + {\lambda _1}\left( {\sum\limits_{x \in X} {x \cdot P\left( x \right)} - \mu } \right) + {\lambda _2}\left( {\sum\limits_{x \in X} {{x^2} \cdot P\left( x \right)} - {\mu ^2} - {\sigma ^2}} \right) \end{array}$
对

P (x)

$P\left( x \right)$ 求导可得：

\frac{\partial L}{\partial P} = - \log P (x) - 1 + λ_{1} \cdot x + λ_{2} \cdot x^{2}

$\frac{{\partial L}}{{\partial P}} = - \log P\left( x \right) - 1 + {\lambda _1} \cdot x + {\lambda _2} \cdot {x^2}$
令其导数等于0，可得：

\log P (x) = λ_{1} \cdot x + λ_{2} \cdot x^{2} - 1

$\log P\left( x \right) = {\lambda _1} \cdot x + {\lambda _2} \cdot {x^2} - 1$

P (x)

$P\left( x \right)$ 的对数是关于随机变量

x

$x$ 的二次形式，所以该分布

P (x)

$P\left( x \right)$ 是正态分布。

联合熵和条件熵

设有随机变量 $\left( {X,Y} \right)$ ,其联合概率分布为：

P (X = x_{i}, Y = y_{j}) = p (x_{i}, y_{j}) = p_{i j}, i = 1, 2, \dots, n; j = 1, 2, \dots, m

$P\left( {X = {x_i},Y = {y_j}} \right) = p\left( {{x_i},{y_j}} \right) = {p_{ij}},i = 1,2, \cdots ,n;j = 1,2, \cdots ,m$
联合熵为

H (X, Y) = - \sum_{x, y} P (x, y) \log P (x, y)

$H\left( {X,Y} \right) = - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {x,y} \right)$
条件熵为

H (Y | X) = H (X, Y) - H (X)

$H\left( {Y\left| X \right.} \right) = H\left( {X,Y} \right) - H\left( X \right)$ 。条件熵表示在已知随机变量

X

$X$ 的条件下随机变量

Y

$Y$ 的不确定性。

\begin{array}{l} H (Y | X) = H (X, Y) - H (X) \\ = - \sum_{x, y} P (x, y) \log P (x, y) + \sum_{x} P (x) \log P (x) \\ = - \sum_{x, y} P (x, y) \log P (x, y) + \sum_{x} (\sum_{y} P (x, y)) \log P (x) \\ = - \sum_{x, y} P (x, y) \log P (x, y) + \sum_{x} \sum_{y} P (x, y) \log P (x) \\ = - \sum_{x, y} P (x, y) \log \frac{P (x, y)}{P (x)} \\ = - \sum_{x, y} P (x, y) \log P (y | x) \\ = - \sum_{x} \sum_{y} P (x) P (y | x) \log P (y | x) \\ = - \sum_{x} P (x) \sum_{y} P (y | x) \log P (y | x) \\ = \sum_{x} P (x) (- \sum_{y} P (y | x) \log P (y | x)) \\ = \sum_{x} P (x) H (Y | X = x) \end{array}

$\begin{array}{l} H\left( {Y\left| X \right.} \right) = H\left( {X,Y} \right) - H\left( X \right)\\ = - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {x,y} \right) + \sum\limits_x {P\left( x \right)} \log P\left( x \right)\\ = - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {x,y} \right) + \sum\limits_x {\left( {\sum\limits_y {P\left( {x,y} \right)} } \right)} \log P\left( x \right)\\ = - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {x,y} \right) + \sum\limits_x {\sum\limits_y {P\left( {x,y} \right)} } \log P\left( x \right)\\ = - \sum\limits_{x,y} {P\left( {x,y} \right)} \log \frac{{P\left( {x,y} \right)}}{{P\left( x \right)}}\\ = - \sum\limits_{x,y} {P\left( {x,y} \right)} \log P\left( {y\left| x \right.} \right)\\ = - \sum\limits_x {\sum\limits_y {P\left( x \right)} } P\left( {y\left| x \right.} \right)\log P\left( {y\left| x \right.} \right)\\ = - \sum\limits_x {P\left( x \right)\sum\limits_y {P\left( {y\left| x \right.} \right)} } \log P\left( {y\left| x \right.} \right)\\ = \sum\limits_x {P\left( x \right)\left( { - \sum\limits_y {P\left( {y\left| x \right.} \right)} \log P\left( {y\left| x \right.} \right)} \right)} \\ = \sum\limits_x {P\left( x \right)H\left( {Y\left| {X = x} \right.} \right)} \end{array}$

H (Y | X)

$H\left( {Y\left| X \right.} \right)$ 定义为

X

$X$ 给定的条件下

Y

$Y$ 的条件概率分布的熵对

X

$X$ 的数学期望。

相对熵

相对熵，又称互熵，交叉熵，K-L散度等。用来衡量两个概率分布之间的差异。
设有两个概率分布 $p\left( x \right)$ 和 $q\left( x \right)$ ，则 $p$ 对 $q$ 的相对熵为：

D (p ‖ q) = \sum_{x} p (x) \log \frac{p (x)}{q (x)}

$D\left( {p\left\| q \right.} \right) = \sum\limits_x {p\left( x \right)} \log \frac{{p\left( x \right)}}{{q\left( x \right)}}$
对于连续的随机变量，定义为：

D (p ‖ q) = \int p (x) \log \frac{p (x)}{q (x)} d x

$D\left( {p\left\| q \right.} \right) = \int {p\left( x \right)\log \frac{{p\left( x \right)}}{{q\left( x \right)}}} dx$
1.相对熵可以度量两个随机变量的“距离”。
2.在概率和统计学中，经常会使用一种近似的分布来代替复杂的分布。K-L散度度量了使用一个分布来近似另一个分布时所损失的信息。
3.一般的，

D (p ‖ q) \neq D (q ‖ p)

$D\left( {p\left\| q \right.} \right) \ne D\left( {q\left\| p \right.} \right)$ ,即是非对称的。
4.

D (p ‖ q) \geq 0, D (q ‖ p) \geq 0

$D\left( {p\left\| q \right.} \right) \ge 0,D\left( {q\left\| p \right.} \right) \ge 0$ 。这个可以利用凸函数中Jensen不等式来证明。

\begin{array}{l} D (p ‖ q) = \sum_{x} p (x) \log \frac{p (x)}{q (x)} \\ = - \sum_{x} p (x) \log \frac{q (x)}{p (x)} \geq - \log (\sum_{x} p (x) \cdot \frac{q (x)}{p (x)}) \\ = - \log (\sum_{x} p (x)) = - \log (1) = 0 \end{array}

$\begin{array}{l} D\left( {p\left\| q \right.} \right) = \sum\limits_x {p\left( x \right)} \log \frac{{p\left( x \right)}}{{q\left( x \right)}}\\ = - \sum\limits_x {p\left( x \right)} \log \frac{{q\left( x \right)}}{{p\left( x \right)}} \ge - \log \left( {\sum\limits_x {p\left( x \right)} \cdot \frac{{q\left( x \right)}}{{p\left( x \right)}}} \right)\\ = - \log \left( {\sum\limits_x {p\left( x \right)} } \right) = - \log \left( 1 \right) = 0 \end{array}$
其中，因为

l o g

$log$ 函数是凹函数，所以

- \log

$- \log$ 是凸函数。
同理可证

$D\left( {q\left\| p \right.} \right) \ge 0$ 。
5.假定已知随机变量

$P$ ,求相对简单的随机变量

$Q$ ,使得

$Q$ 尽量接近

$P$ 。就可以使用

$P$ 和

$Q$ 的K-L距离。
6.假定使用

$D\left( {Q\left\| P \right.} \right)$ ,为了让距离最小，则要求在

$P$ 为0的地方，

$Q$ 尽量为0。会得到比较“窄”的分布曲线。
7.假定使用

$D\left( {P\left\| Q \right.} \right)$ ,为了让距离最小，则要求在

$P$ 不为0的地方，

$Q$ 尽量不为0。会得到比较“宽”的分布曲线。

互信息

两个随机变量 $X$ , $Y$ 的互信息，定义为 $X$ , $Y$ 的联合分布和独立分布乘积的相对熵。

$\begin{array}{l} I\left( {X,Y} \right) = D\left( {p\left( {x,y} \right)\left\| {p\left( x \right)p\left( y \right)} \right.} \right)\\ = \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \end{array}$
计算

$\begin{array}{l} I\left( {X,Y} \right) = D\left( {p\left( {x,y} \right)\left| {p\left( x \right)p\left( y \right)} \right.} \right)\ = \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \end{array}$

$\begin{array}{l} H\left( Y \right) - I\left( {X,Y} \right)\\ = - \sum\limits_y {p\left( y \right)\log p\left( y \right) - } \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \\ = - \sum\limits_y {\left( {\sum\limits_x {p\left( {x,y} \right)} } \right)\log p\left( y \right) - } \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \\ = - \sum\limits_{x,y} {p\left( {x,y} \right)\log p\left( y \right) - } \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \\ {\rm{ = }} - \sum\limits_{x,y} {p\left( {x,y} \right)\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)}}} \\ = - \sum\limits_{x,y} {p\left( {x,y} \right)\log p} \left( {y\left| x \right.} \right)\\ = \sum\limits_x {p\left( x \right)\left( { - \sum\limits_y {p\left( {y\left| x \right.} \right)\log p} \left( {y\left| x \right.} \right)} \right)} \\ = \sum\limits_x {p\left( x \right)} H\left( {Y\left| x \right.} \right)\\ = H\left( {Y\left| X \right.} \right) \end{array}$
所以

$\begin{array}{l} H\left( {Y\left| X \right.} \right){\rm{ = }}H\left( {X,Y} \right) - H\left( X \right) = H\left( Y \right) - I\left( {X,Y} \right)\\ I\left( {X,Y} \right) = H\left( X \right) + H\left( Y \right) - H\left( {X,Y} \right) \end{array}$
因为

$I\left( {X,Y} \right) = H\left( X \right) + H\left( Y \right) - H\left( {X,Y} \right)$ ,所以从另一个角度也可以推出互信息的表达式。

$\begin{array}{l} I\left( {X,Y} \right) = H\left( X \right) + H\left( Y \right) - H\left( {X,Y} \right)\\ = - \sum\limits_x {p\left( x \right)} \log p\left( x \right) - \sum\limits_y {p\left( y \right)} \log p\left( y \right) + \sum\limits_{x,y} {p\left( {x,y} \right)} \log p\left( {x,y} \right)\\ = \left( { - \sum\limits_x {\sum\limits_y {p\left( {x,y} \right)\log p\left( x \right)} } } \right) - \left( {\sum\limits_y {\sum\limits_x {p\left( {x,y} \right)\log p\left( y \right)} } } \right) + \sum\limits_{x,y} {p\left( {x,y} \right)} \log p\left( {x,y} \right)\\ = - \sum\limits_{x,y} {p\left( {x,y} \right)\log p\left( x \right)} - \sum\limits_{x,y} {p\left( {x,y} \right)\log p\left( y \right)} + \sum\limits_{x,y} {p\left( {x,y} \right)} \log p\left( {x,y} \right)\\ = \sum\limits_{x,y} {p\left( {x,y} \right)\left( {\log p\left( {x,y} \right) - \log p\left( x \right) - \log p\left( y \right)} \right)} \\ = \sum\limits_{x,y} {p\left( {x,y} \right)\left( {\log \frac{{p\left( {x,y} \right)}}{{p\left( x \right)p\left( y \right)}}} \right)} \end{array}$

Venn图

通过Venn图，可以方便我们记忆熵，联合熵，条件熵，互信息之间的关系。

左边的圆表示随机变量 $X$ 的熵,右边的圆表示随机变量 $Y$ 的熵。左边的橙色部分表示随机变量 $Y$ 给定的条件下随机变量 $X$ 的条件熵。右边的绿色部分表示随机变量 $X$ 给定的条件下随机变量 $Y$ 的条件熵。两圆中间相交的部分表示随机变量 $X$ 和 $Y$ 的互信息。橙色部分、两圆相交的咖啡色部分以及绿色部分加在一起表示 $X$ 和 $Y$ 的联合熵。通过此图，各种熵之间的关系就很好记忆了。

详解熵、最大熵、联合熵和条件熵、相对熵以及互信息之间的关系