信息量、相对熵(KL散度)、交叉熵

信息量(Information)是一种度量某一消息所包含信息量多少的概念,由克劳德·香农在1948年的“信息论”中首次提出。信息的基本单位是比特(bit)。

在信息论中,一条消息的信息量是由以下公式计算的:

 
 

scssCopy code

I(x) = -log(P(x))

其中,I(x) 是事件 x 的信息量,P(x) 是事件 x 的概率。log 是对数函数,通常在信息论中,我们使用的是以2为底的对数,这样得到的信息量单位就是比特

这个公式的意义在于,一个事件的发生概率越小,我们就说这个事件包含的信息越多。因为发生概率小的事件更能提供一些新的、未知的信息。相反,如果一个事件发生的概率很大,甚至接近确定,那么它就不会给我们提供什么新的信息,所以它的信息量就很小。这就是为什么在公式中有一个负号,因为对数函数的性质是,当0 < P(x) < 1时,log(P(x))是负数

举个例子,如果我们要预测一个公正的硬币的结果,每次抛掷的结果都是无法预测的(正面或反面的概率各为0.5)。所以,每次抛掷都会给我们带来新的信息。如果我们用上面的公式计算,就是I(x) = -log2(0.5) = 1比特。也就是说,每次抛掷都会带来1比特的信息量

而如果硬币是偏的,比如正面的概率是0.9,那么每次抛掷的结果就比较容易预测,带来的新信息量就小一些。这时候,信息量I(x) = -log2(0.9) ≈ 0.152比特

猜你喜欢

转载自blog.csdn.net/qq_39970492/article/details/131246840