信息论基础

引言

所谓的信息,就是以前不知道现在知道的事实,如果某件事以前就知道,当别人再告诉你时,你会忽略,这件事对你的认知没有任何影响,这就不叫信息,反之,如果某件事以前你不知道,有人告诉你了,你现在知道了,那么对你而言,这件事就是信息。

让我们更进一步,看一件事带来的信息量的大小如何来度量。顾名思义,信息量就是度量信息大小的一种量,让我们看一个形象的例子。有人告诉你巴西赢了世界杯,那么这件事对大多数人而言,并不值得关注,它并没有带来多少惊喜,如果是中国赢得了世界杯,那么这件事可能会刷新很多人的世界观,这件事带来的信息量就特别大,我们常说的黑天鹅事件就是概率极低但确实发生了的事件。定性的说,小概率事件带来的信息量大,大概率事件带来的信息量小。下面我们看下以上这句话如何定量的描述。

用概率来度量信息是合理的,这并不是空穴来风,半个多世纪之前,香农提出的信息论便是以概率论为基础。执果索因,我们先来看看香农为什么用事件发生概率的对数来度量信息量。

用概率描述信息量的重要性质:

  • 事件发生的概率越低,信息量越大
  • 事件发生的概率越高,信息量越少
  • 多个事件同时发生的概率是多个事件概率相乘,总信息量是多个事件信息量相加

通过第三点,我们可以知道:
x 1 x 2 P ( x 1 , x 2 ) = P ( x 1 ) P ( x 2 ) x_1和x_2同时发生的概率:P(x_1, x_2) = P(x_1)\cdot P(x_2) x 1 x 2 l o g [ P ( x 1 ) P ( x 2 ) ] = l o g [ P ( x 1 ) ] + l o g [ P ( x 2 ) ] x_1和x_2总信息量:log[P(x_1)P(x_2)] = log[P(x_1)] + log[P(x_2)]
通过前两点,我们知道信息量,信息量和概率之间一定是减函数的关系。
由此确定,信息量描述为:
I ( x ) = l o g P ( x ) I(x) = -logP(x)
I ( x ) I(x) 为自信息,如果以 2 为底,单位是bit。当使用以 e 为底的对数时,单位将是 nat。对于基底为 10 的对数,单位是 hart。

信息熵

对于离散系统
H ( X ) = i p i l o g ( p i ) H(X) = -\sum_{i}p_ilog (p_{i})
对于连续的系统
H ( x ) = E x P [ I ( x ) ] = E x P [ l o g P ( x ) ] H(x) = E_{x\sim P}[I(x)] = - E_{x\sim P}[log P(x)]
信息熵反应了信息量的多少,信息熵越大表明信息越多,随机事件的信息量与随机变量的确定性有关,不确定性越大包含的信息量就越大,所有可能的事件等概率时不确定性最高。

交叉熵

令不完美的编码用 Q Q 表示,平均编码长度为
H ( P , Q ) = E P ( x ) Q ( x ) = P ( x ) l o g Q ( x ) d x H(P,Q) = -E_{P(x)}Q(x) = -\int P(x)logQ(x)dx

交叉熵用来衡量编码方案不一定完美时,平均编码的长度。
交叉熵常用作损失函数。原因是真实的样本分布是 P P , 而模型概率分布是 Q Q , 只有模型分布于真实样本分布相等时,交叉熵最小。

KL散度

D K L ( P Q ) = E x P [ l o g P ( x ) Q ( x ) ] = P ( x ) l o g P ( x ) d x P ( x ) l o g Q ( x ) d x D_{KL}(P||Q) = E_{x\sim P}[log \frac{P(x)}{Q(x)}] = \int P(x)logP(x)dx -\int P(x)logQ(x)dx
KL散度用来衡量两个概率分布之间的相似程度,其重要性质是非负性,而且,当且仅当两个概率分布处处相等时,KL散度取到零。KL散度与一般的距离不同,它一般不具有对称性。
H ( P , Q ) = D K L ( P Q ) + H ( P ) H(P, Q) = D_{KL}(P||Q) + H(P) 上述关系很容易推导,此处从略,可以看出样本的真实分布 P P 保持不变,最优化交叉熵等价于最优化KL散度。KL散度还可用于异常检测

Reference:
https://www.cnblogs.com/yinheyi/p/6426431.html
https://blog.csdn.net/dog250/article/details/78944526

猜你喜欢

转载自blog.csdn.net/weixin_42018112/article/details/88251023