信息论概述

信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信道上用离散的字母表来发送消息,例如通过无线电传输来通信。在这种情况下,信息论告诉我们如何对消息设计最优编码以及计算消息的期望长度,这些消息是使用多种不同编码机制、从特定的概率分布上采样得到的。在机器学习中,我们也可以把信息论应用于连续型变量,此时某些消息长度的解释不再适用。信息论是电子工程和计算机科学中许多领域的基础。我们主要使用信息论的一些关键思想来描述概率分布或者量化概率分布之间的相似性

信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事 件发生,能提供更多的信息。消息说:‘‘今天早上太阳升起’’ 信息量是如此之少以至 于没有必要发送,但一条消息说:‘‘今天早上有日食’’ 信息量就很丰富。 我们想要通过这种基本想法来量化信息。特别地,

  • 非常可能发生的事件信息量要比较少,并且极端情况下,确保能够发生的事件 应该没有信息量。

  • 较不可能发生的事件具有更高的信息量。

  • 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量, 应该是投掷一次硬币正面朝上的信息量的两倍。 

为了满足上述三个性质,我们定义一个事件 X = x 的 自信息(self-information) 为:

我们总是用 log 来表示自然对数,其底数为 e。

因此我们定义的I(x) 单位是 奈特(nats)。一奈特是以 1 /e 的概率观测到一个事件时获得的信息量。其他的材料中可能使用底数为 2 的对数,单位是 比特(bit)或者 香农(shannons);通过比特度量的信息是通过奈特度量信息的常数倍。

这里要注意:如果X是连续的,采用上述信息定义可能会丢失一些离散形式的性质,比如,一个具有单位密度的事件信息量仍然为 0,但是不能保证它一定发生。

产生上述问题的bug在于:自信息只处理单个的输出。我们可以用 香农熵(Shannon entropy)对整个概率分布中的不确定性总量进行量化:

也记作 H(P)。换言之,一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。它给出了对依据概率分布 P 生成的符号进行编码所需的比特数在平均意义上的下界 (当对数底数不是 2 时,单位将有所不同)。那些接近确定性的分布 (输出几乎可以确定) 具有较低的熵;那些接近均匀分布的概率分布具有较高的熵。下图给出了一个说明。该图说明了更接近确定性的分布是如何具有较低的香农熵,而更接近均匀分布的分布是如何具有较高的香农熵。水平轴是 p,表示二值随机变量等于 1 的概率。熵由 (p − 1) log(1 − p) − p log p 给出。当 p 接近 0 时,分布几乎是确定的,因为随机变量几乎总是 0。当 p 接近 1 时,分布也几乎是确定的,因为随机变量几乎总是 1。当 p = 0.5 时,熵是最大的, 因为分布在两个结果(0 和 1)上是均匀的。

当 x 是连续的,香农熵被称为微分熵(differential entropy)。

如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异:

在离散型变量的情况下,KL 散度衡量的是当我们使用一种被设计成能够使得概率分布 Q 产生的消息的长度最小的编码,发送包含由概率分布 P 产生的符号的消息时,所需要的额外信息量 (如果我们使用底数为 2 的对数时,信息量用比特衡量,但在机器学习中,我们通常用奈特和自然对数。)

KL 散度有很多有用的性质,最重要的是它是非负的。KL 散度为 0 当且仅当 P 和 Q 在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是 ‘‘几乎处处’’ 相同的。因为 KL 散度是非负的并且衡量的是两个分布之间的差异,它经常被用作分布之间的某种距离。然而,它并不是真的距离因为它不是对称的:对于某些 P 和 Q:

这种非对称性意味着选择 DKL(P||Q) 还是DKL(Q||P) 影响很大。

关于KL散度的不对称性及其含义,详细读一读下面这个例子就可以理解:

一个和 KL 散度密切联系的量是 交叉熵(cross-entropy):H(P, Q) = H(P) + DKL(P||Q),它和 KL 散度很像但是缺少左边一项:

针对 Q 最小化交叉熵等价于最小化 KL 散度,因为 Q 并不参与被省略的那一项。

当我们计算这些量时,经常会遇到 0 log 0 这个表达式。按照惯例,在信息论中, 我们将这个表达式处理为:

 

参考资料:

【1】Ian Goodfellow 等《DEEP LEANRNING》

【2】维基百科:https://zh.wikipedia.org/wiki/%E4%BF%A1%E6%81%AF%E8%AE%BA

 

猜你喜欢

转载自blog.csdn.net/lyxleft/article/details/84867306