信息论相关概念

本文将重点介绍与信息论相关的5个概念，分别是信息熵、条件熵、互信息、交叉熵以及相对熵。这5个概念在机器学习和深度学习中都被广泛应用。下面我们分别对这5个概念进行详细介绍。

1. 信息熵

首先，我们给出信息熵的定义：在概率论与数据统计中，熵（Entropy）表示随机变量不确定性的度量。设 $X$ 是一个取有限个值得离散随机变量，即 $X$ 是一离散型随机变量，其概率分布为：

$\large P(X=x_{k})=p_{k}, k=1,2,...,k$

则随机变量 $X$ 的信息熵定义为：

$\large H(X)=-\sum_{i=1}^{n}p_{i}*logp_{i}$

此处， $\large log$ 取以2为底或者以 $\large e$ 为底。同时，在这里约定 $\large 0*log0 = 0$ 。根据熵的定义，我们可以发现熵的大小只与 $X$ 的分布有关，而跟 $X$ 的取值并无任何关系。

信息熵越大，包含的信息就越多，那么随机变量的不确定行就越大。例如，假设随机变量 $X$ 服从概率为 $\large p$ 的伯努利分布，即概率分布为：

$\large P(X=1)=p, \quad P(x=0)=1-p,\quad 0\leqslant p< 1$

熵为：

$\large H(X)=-p*logp-(1-p)*log(1-p)$

最大熵定理：当离散随机变量的概率分布是等概率分布时， $\large H(X)$ 取最大值，结果为 $\large logn$ ，其中 $\large n$ 表示随机变量 $\large X$ 有 $\large n$ 不同的取值。

2. 条件熵

假设有二维随机变量 $\large (X, Y)$ ，其联合概率密度为：

$\large p(X=x_{i},Y=y_{j})=p_{ij},\quad i=1,2,...,n;\;j=1,2,..,m$

条件熵表示在已知随机变量 $\large X$ 的条件下，随机变量 $\large Y$ 的不确定性，条件熵为：

$\large H(Y|X)=-\sum_{i=1}^{n}\sum_{j=1}^{m}p(X=x_{i},Y=y_{j})*logp(Y=y_{j}|X=x_{i})$

从感知角度出发，条件熵的值要比信息熵的值要小（随机变量 $\large X$ 与随机变量 $\large Y$ 要相关），因为当我们有了更多的背景知识时，信息的不确定性自然也就会下降。

定理：对二维随机变量 $\large (X, Y)$ ，条件熵 $\large H(Y| X)$ 和信息熵 $\large H(Y)$ 满足如下关系

$\large H(Y| X)\leq H(Y)$

证： $H(Y|X)=-\sum_{i=1}^{n}\sum_{j=1}^{m}p(X=x_{i},Y=y_{j})*logp(Y=y_{j}|X=x_{i})$

$=-\sum_{i=1}^{n}p(X=x_{i})[\sum_{j=1}^{m}p(Y=y_{j}|X=x_{i})*logp(Y=y_{j}|X=x_{i})]$

$\leq -\sum_{i=1}^{n}p(X=x_{i})[\sum_{j=1}^{m}p(Y=y_{j}|X=x_{i})*logp(Y=y_{j})]$

$=-\sum_{j=1}^{m}[\sum_{i=1}^{n}p(Y=y_{j}|X=x_{i})*p(X=x_{i})]*logp(Y=y_{j})$

$=-\sum_{j=1}^{m}p(Y=y_{j})*logp(Y=y_{j})$

$\large =H(Y)$

当随机变量 $X$ 与随机变量 $Y$ 相互独立时， $\large H(Y| X)= H(Y)$ ，从感知角度上来说，随机变量 $X$ 对理解随机变量 $Y$ 没有任何帮助，没有消除不确定性。

3. 互信息

互信息，即在决策树章节中的信息增益，是描述两个随机变量之间的相关程度，也就是给定一个随机变量 $X$ 后，另外一个随机变量 $Y$ 不确定性的削弱程度，互信息为：

$\large I(X,Y)=H(Y)-H(Y|X)$

综合信息熵与条件熵，我们可以发现互信息具有如下几个性质：

因为 $\large H(Y| X)\leq H(Y)$ ，所以 $\large 0\leq I(X,Y)\leq H(Y)$

当随机变量 $X$ 与随机变量 $Y$ 完全相关时，条件熵 $\large H(Y|X)=0$ ，此时 $\large I(X,Y)=H(Y)-H(Y|X)=H(Y)$

当随机变量 $X$ 与随机变量 $Y$ 完全无关时，条件熵 $\large H(Y|X)=H(Y)$ ，此时 $\large I(X,Y)=H(Y)-H(Y|X)=0$

在决策树算法中，信息增益被用来作为特征选取的一种度量指标，给定训练数据集 $\large D$ ，每个数据集都由 $\large n$ 维特征构成，在构建决策树时，最为核心的问题是选取哪一维特征来划分数据集？每一个特征可以看成是一个随机变量， $\large n$ 维特征可以记为 $\large \left ( X_{1},X_{2},...,X_{n} \right )$ 。

一种合理的特征选择方案为：分别计算 $\large I\left ( D,X_{i} \right )$ ，计算第 $\large i$ 维特征与训练数据集 $\large D$ 的相关性， $\large I\left ( D,X_{i} \right )$ 越大，说明第 $\large i$ 维特征与训练数据集 $\large D$ 越无关，也就是第 $\large i$ 维特征的数据包含数据集 $\large D$ 的信息更多。

4. 交叉熵

机器学习与深度学习的目的归结为尽量准确的学习数据见的变量关系

5. 相对熵

陆续更新中

1. 信息熵

2. 条件熵

3. 互信息

4. 交叉熵

5. 相对熵

猜你喜欢