引言
所谓的信息,就是以前不知道现在知道的事实,如果某件事以前就知道,当别人再告诉你时,你会忽略,这件事对你的认知没有任何影响,这就不叫信息,反之,如果某件事以前你不知道,有人告诉你了,你现在知道了,那么对你而言,这件事就是信息。
让我们更进一步,看一件事带来的信息量的大小如何来度量。顾名思义,信息量就是度量信息大小的一种量,让我们看一个形象的例子。有人告诉你巴西赢了世界杯,那么这件事对大多数人而言,并不值得关注,它并没有带来多少惊喜,如果是中国赢得了世界杯,那么这件事可能会刷新很多人的世界观,这件事带来的信息量就特别大,我们常说的黑天鹅事件就是概率极低但确实发生了的事件。定性的说,小概率事件带来的信息量大,大概率事件带来的信息量小。下面我们看下以上这句话如何定量的描述。
用概率来度量信息是合理的,这并不是空穴来风,半个多世纪之前,香农提出的信息论便是以概率论为基础。执果索因,我们先来看看香农为什么用事件发生概率的对数来度量信息量。
用概率描述信息量的重要性质:
- 事件发生的概率越低,信息量越大
- 事件发生的概率越高,信息量越少
- 多个事件同时发生的概率是多个事件概率相乘,总信息量是多个事件信息量相加
通过第三点,我们可以知道:
通过前两点,我们知道信息量,信息量和概率之间一定是减函数的关系。
由此确定,信息量描述为:
称
为自信息,如果以 2 为底,单位是bit。当使用以 e 为底的对数时,单位将是 nat。对于基底为 10 的对数,单位是 hart。
信息熵
对于离散系统
对于连续的系统
信息熵反应了信息量的多少,信息熵越大表明信息越多,随机事件的信息量与随机变量的确定性有关,不确定性越大包含的信息量就越大,所有可能的事件等概率时不确定性最高。
交叉熵
令不完美的编码用
表示,平均编码长度为
交叉熵用来衡量编码方案不一定完美时,平均编码的长度。
交叉熵常用作损失函数。原因是真实的样本分布是
, 而模型概率分布是
, 只有模型分布于真实样本分布相等时,交叉熵最小。
KL散度
KL散度用来衡量两个概率分布之间的相似程度,其重要性质是非负性,而且,当且仅当两个概率分布处处相等时,KL散度取到零。KL散度与一般的距离不同,它一般不具有对称性。
上述关系很容易推导,此处从略,可以看出样本的真实分布
保持不变,最优化交叉熵等价于最优化KL散度。KL散度还可用于异常检测。
Reference:
https://www.cnblogs.com/yinheyi/p/6426431.html
https://blog.csdn.net/dog250/article/details/78944526