【ML Method】熵、联合熵、条件熵、互信息、相对熵、交叉熵

更新时间：2018-07-07

前言

之前有写过一篇文章介绍信息增益、Gini、信息增益率的，上面介绍过熵及其相关概念，地址为：https://blog.csdn.net/roguesir/article/details/76619919。这篇文章从另外的角度详细介绍熵、联合熵、条件熵、互信息、相对熵、交叉熵、信息增益等信息，为后面介绍最大熵模型做铺垫。下面进行详细介绍：
这里写图片描述

熵的概念理解

熵（Entropy）最初在热力学中提出，后由香农引入信息论中，成为一个重要物理量，在机器学习中，经典算法如决策树、随机森林等算法都涉及熵的概念。

信息量

信息量作为信息的度量，可以用来衡量熵的定义，设 $p(x_i)$ 表示 $x_i$ 发生的概率，则信息量可以表示为：

\begin{matrix} (1) & h (x_{i}) = - l o g_{a} p (x_{i}) = l o g_{a} \frac{1}{p (x_{i})} \end{matrix}

$h(x_i)=-log_{a}p(x_i)=log_{a}\frac{1}{p(x_i)} \tag{1}$ 其中，a值常取2，表示比特，即非0即1，由此可知，信息量与概率成反比，可以理解为：事件发生概率越高，含有的信息量就越低，事件就越寻常易见。

熵的定义

熵在热力学熵用来描述物质的混乱程度，用来衡量不确定性，也就是说，物质越混乱，不确定性越大，熵值越大。
同步到信息论中，事件发生的不确定行越大，则熵越大。例如：掷骰子，六个面机会均等，因此投一次得到的点数不确定性最大（因为每个点数的概率都是六分之一），因此此时熵最大；再如：敲代码时候打错一个词，编译时出问题的概率为1，是一个确定事件，因此此时熵最小。
熵是信息量的期望，公式如下：

\begin{matrix} (2) & H (X) = - \sum_{i = 1}^{n} p (x_{i}) l o g_{a} p (x_{i}) = \sum_{i = 1}^{n} p (x_{i}) l o g_{a} \frac{1}{p (x_{i})} \end{matrix}

$H(X)=-\sum_{i=1}^{n}p(x_i)log_{a}p(x_i)=\sum_{i=1}^{n}p(x_i)log_{a}\frac{1}{p(x_i)} \tag{2}$ 其中

l o g_{a} \frac{1}{p (x_{i})}

$log_{a}\frac{1}{p(x_i)}$ 表示信息量，

\sum_{i = 1}^{n} p (x_{i}) l o g_{a} \frac{1}{p (x_{i})}

$\sum_{i=1}^{n}p(x_i)log_{a}\frac{1}{p(x_i)}$ 则表示信息量的期望，反应不确定性。
定义熵时，约定：

\begin{matrix} (3) & lim_{p - > 0^{+}} p l o g_{a} p = 0 \end{matrix}

$\lim_{p->0^+}plog_ap=0 \tag{3}$ 概率和熵具有如下的性质：

\begin{matrix} (4) & 0 \leq p \leq 1 a n d \sum p = 1 \end{matrix}

$0 \leq p \leq1 \ \ and \ \ \sum p=1\tag{4}$

\begin{matrix} (5) & H (X) 可 以 大 于 1 \end{matrix}

$H(X)可以大于1\tag{5}$

联合熵

由上面的Venn图可知，联合熵可以表示为两个事件的熵的并集：

\begin{array}{rcl} (6) & H (X, Y) & = & - \sum_{i = 1}^{n} \sum_{j = 1}^{n} p (x_{i}, y_{j}) l o g_{2} p (x_{i}, y_{j}) \\ (7) & = & \sum_{i = 1}^{n} \sum_{j = 1}^{n} p (x_{i}, y_{j}) l o g_{2} \frac{1}{p (x_{i}, y_{j})} \end{array}

$\begin{eqnarray} H(X,Y) &=& -\sum_{i=1}^{n} \sum_{j=1}^{n}p(x_i,y_j)log_2p(x_i,y_j) \tag{6}\\ & =& \sum_{i=1}^{n} \sum_{j=1}^{n}p(x_i,y_j)log_2\frac{1}{p(x_i,y_j)}\tag{7} \end{eqnarray}$ 可以得到如下性质：

\begin{matrix} (8) & m a x [H (X), H (Y)] \leq H (X, Y) \leq H (X) + H (Y) \end{matrix}

$max[H(X),H(Y)]\leq H(X,Y)\leq H(X)+H(Y)\tag{8}$

条件熵

通过上述Venn图可知，条件熵实际上是联合熵与熵的差集，也可表示为熵与互信息的差集，具体如下：

\begin{array}{rcl} (9) & H (X | Y) & = & H (X, Y) - H (Y) \\ (10) & = & H (X) - I (X, Y) \end{array}

$\begin{eqnarray} H(X|Y) & = & H(X,Y)-H(Y) \tag{9}\\ & = & H(X)-I(X,Y) \tag{10} \end{eqnarray}$
具体的推到过程如下：

\begin{array}{rcl} (11) & H (Y | X) & = & \sum_{i = 1}^{n} p (x_{i}) H (Y | X = x_{i}) \\ (12) & = & - \sum_{i = 1}^{n} \sum_{j = 1}^{n} p (x_{i}) p (y_{i} | x_{j}) l o g_{2} p (y_{i} | x_{j}) \\ (13) & = & \sum_{i = 1}^{n} \sum_{j = 1}^{n} p (x_{i}, y_{j}) l o g_{2} \frac{p (x_{i})}{p (x_{i}, y_{j})} \end{array}

$\begin{eqnarray} H(Y|X) &=& \sum_{i=1}^{n}p(x_i)H(Y|X=x_i) \tag{11}\\ & = & -\sum_{i=1}^{n} \sum_{j=1}^{n}p(x_i)p(y_i|x_j)log_2p(y_i|x_j)\tag{12}\\ & = & \sum_{i=1}^{n} \sum_{j=1}^{n}p(x_i,y_j)log_2\frac{p(x_i)}{p(x_i,y_j)}\tag{13} \end{eqnarray}$

互信息

上面提到了互信息，互信息是用来表示变量间相互以来的程度，常用在特征选择和特征关联性等方面，公式如下：

\begin{matrix} (14) & I (X, Y) = - \sum_{i = 1}^{n} \sum_{j = 1}^{n} p (x_{i}, y_{j}) l o g_{2} \frac{p (x_{i}, y_{j})}{p (x_{i}) p (y_{j})} \end{matrix}

$I(X,Y)=-\sum_{i=1}^{n} \sum_{j=1}^{n}p(x_i,y_j)log_2\frac{p(x_i,y_j)}{p(x_i)p(y_j)}\tag{14}$
互信息与相关性

ρ

$\rho$ 相关，

ρ

$\rho$ 用来描述线性相关性，互信息用来描述非线性相关性，其中：

\begin{matrix} (15) & ρ = \frac{c o v (x, y)}{\sqrt{v a r (x)} \sqrt{v a r (y)}} \end{matrix}

$\rho=\frac{cov(x,y)}{\sqrt{var(x)}\sqrt{var(y)}}\tag{15}$

相对熵（KL散度）

相对熵用来描述像个分布之间的差异，在GAN上获得了广泛应用。

\begin{matrix} (16) & K L (p | | q) = \sum_{i = 1}^{n} p (x_{i}) l o g_{2} \frac{p (x_{i})}{q (x_{i})} \end{matrix}

$KL(p||q)=\sum_{i=1}^{n}p(x_i)log_2\frac{p(x_i)}{q(x_i)}\tag{16}$
其中，p，q表示两个分布，易知：

\begin{matrix} (17) & K L (p | | q) \neq K L (q | | p) \end{matrix}

$KL(p||q)\neq KL(q||p)\tag{17}$ KL散度越大，两个分布间的差异越明显，并且：

\begin{matrix} (18) & K L (p | | q) \geq 0 \end{matrix}

$KL(p||q)\geq0\tag{18}$ 对于式(18)，可以通过如下证明：

交叉熵

交叉熵常用在深度学习中目标函数优化。

\begin{array}{rcl} (19) & C H (p, q) & = & - \sum_{i = 1}^{n} p (x_{i}) l o g_{2} q (x_{i}) \\ (20) & = & - \sum_{i = 1}^{n} p_{i} l o g_{2} p_{i} + \sum_{i = 1}^{n} p_{i} l o g_{2} p_{i} - \sum_{i = 1}^{n} p_{i} l o g_{2} q_{i} \\ (21) & = & H (p) + \sum_{i = 1}^{n} p_{i} l o g_{2} \frac{p_{i}}{q_{i}} \\ (22) & = & H (p) + K L (p | | q) \end{array}

$\begin{eqnarray} CH(p,q) & = & -\sum_{i=1}^{n}p(x_i)log_2q(x_i)\tag{19}\\ & = & -\sum_{i=1}^{n}p_ilog_2p_i+\sum_{i=1}^{n}p_ilog_2p_i-\sum_{i=1}^{n}p_ilog_2q_i\tag{20}\\ & = & H(p)+\sum_{i=1}^{n}p_ilog_2\frac{p_i}{q_i}\tag{21}\\ & = & H(p)+KL(p||q)\tag{22} \end{eqnarray}$