信息论的基本概念比较:自信息、香浓熵、微分熵、相对熵、交叉熵

版权声明:其他网站转载请注明原始链接,尽量不要破坏格式 https://blog.csdn.net/landstream/article/details/82383503

本文主要介绍和比较若干信息论中的重要定义:自信息、香浓熵、微分熵、相对熵、交叉熵。

定义概述

信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息。

希望能有一种量化信息的方法,并且具备一些性质,如:
• 非常可能发生的事件信息量要比较少,并且极端情况下,确保能够发生的事件
应该没有信息量。
• 较不可能发生的事件具有更高的信息量。
• 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,
应该是投掷一次硬币正面朝上的信息量的两倍。

这就引出了自信息,我们定义一个事件x = x 的自信息(self-information):

I ( x ) = l n P ( x )

自信息只处理单个的输出。我们可以用 香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化:
H ( x ) = E X P [ I ( x ) ] = E X P [ l o g P ( x ) ]

一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。当x 是连续的,香农熵被称为 微分熵(differential entropy)。

如果我们对于同一个随机变量x 有两个单独的概率分布P(x) 和Q(x),我们可以使用KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异。KL散度又称为相对熵

D K L ( P | | Q ) = E X P [ l o g P ( x ) l o g Q ( x ) ]

KL散度的物理意义可以理解为:在离散型变量的情况下,KL 散度衡量的是,当我们使用一种被设计成能够使得概率分布Q 产生的消息的长度最小的编码,发送包含由概率分布P 产生的符号的消息时,所需要的额外信息量。

一个和KL 散度密切联系的量是交叉熵(cross-entropy),它和KL 散度很像但是缺少左边一项:

H ( P , Q ) = E X P l o g Q ( x )

总结比较

名称 性质 用途
自信息 非负 量化单个事件发生包含信息量(不确定度)的基本方法
香浓熵 非负 对概率分布中的不确定性总量进行量化
微分熵 非负 对连续性随机变量的概率分布中的不确定性总量进行量化
相对熵 非负,非对称 衡量两个分布之间的差异;用作机器学习分类任务的损失函数时,往往可以替换为交叉熵
交叉熵 非负 衡量两个随机变量之间的相似度;当真实输出a与期望输出y接近的时候,代价函数接近于0;常用作分类问题中的损失函数

猜你喜欢

转载自blog.csdn.net/landstream/article/details/82383503