熵、信息量、信息熵、交叉熵、联合熵、条件熵

1854年,德国物理学家鲁道夫·克劳修斯(T.Clausius) 首次提出熵的概念,我国物理学家胡刚复教授于1923年根据“热温商”之意首次把entropy译为“熵”。

物理学中的熵
19世纪,物理学家开始认识到,世界的动力是能量,并且提出"能量守恒定律",即能量的总和是不变的。但是,有一个现象让他们很困惑。物理学家发现,能量无法百分百地转换。比如,蒸汽机使用的是热能,将其转换为推动机器的机械能。这个过程中,总是有一些热能损耗掉,无法完全转变为机械能。一开始,物理学家以为是技术水平不高导致的,但后来发现,技术再进步,也无法将能量损耗降到零。他们就将那些在能量转换过程中浪费掉的、无法再利用的能量称为熵。后来,这个概念被总结成了"热力学第二定律":能量转换总是会产生熵,如果是封闭系统,所有能量最终都会变成熵。

多种解释之一:能量转换的时候,大部分能量会转换成预先设定的状态,比如热能变成机械能、电能变成光能。但是,就像细胞突变那样,还有一部分能量会生成新的状态。这部分能量就是熵,由于状态不同,所以很难利用,除非外部注入新的能量,专门处理熵。

总之,能量转换会创造出新的状态,熵就是进入这些状态的能量。状态多,就是可能性多,表示比较混乱;状态少,就是可能性少,相对来说就比较有秩序。因此,上面结论的另一种表达是:能量转换会让系统的混乱度增加,熵就是系统的混乱度。

宏观态与微观态
一个一分为二的气缸,4个不同的分子,那么有多少种放置的可能?

显然一共有5种宏观态。
对于第1种情况—左4右0,有1种微观态;
对于第2种情况—左3右1,有4种微观态;
对于第3种情况—左2右2,有6种微观态;
对于第4种情况—左2右3,有4种微观态;
对于第5种情况—左0右4,有1种微观态;

再来看一个例子:
一副扑克牌54张
1、从中随机抽1张,共有多少可能? C 54 1 = 54 C_{54}^1=54
  这种情况下的微观态数是54个。
2、从中随机抽3张,共有多少可能? C 54 3 = 54 53 52 3 2 1 = 24804 C_{54}^3=\frac{54*53*52}{3*2*1}=24804
  这种情况下的微观态数是24804个。
3、从中随机抽3张且这3张是同花的情况? 4 C 13 3 = 1144 4*C_{13}^3=1144
  这种情况下的微观态数是1144个。

那么抽取的3张中是同花的概率为 p ( ) = 1144 24804 = 4.6 % p(同花)=\frac{1144}{24804}=4.6\%
那么抽取的3张中不是同花的概率为 1 p ( ) = 95.4 % 1-p(同花)=95.4\%

显然同花的概率小,非同花的概率大,为什么呢?
  3张是同花的微观态数是1144;
  3张不是同花的微观态数是24804-1144=23660;
  因为非同花微观态 > 同花微观态

如何定量描述这种问题呢?—产生了熵(Entropy)的概念
熵的公式: E = ϵ l n Ω E=\epsilon*ln\Omega
其中: ϵ \epsilon 为玻尔兹曼参数, ϵ = 1.38 1 0 23 J / K \epsilon=1.38*10^{-23} J/K
    Ω \Omega 就是某种情况下的微观态个数。

大自然总是倾向于熵最大化;而人类总是倾向于熵最小化,即规则化。

因为自然界总是从微观态个数少向微观态个数多的方向发展,所以 Ω \Omega 总是由少向多变化,熵总是由小向大变化。
熵增加理论:在一个孤立系统中,熵是不减少的!

熵可以作为一个系统混乱程度的标准 。
如果一个系统随机性很大、非常混乱、毫无秩序,则此系统的信息熵越大;反之,如果一个系统是确定的、具有一定的规则、服从一定的秩序,则此系统的信息熵越小。

信息量

信息量是对信息的度量,就跟温度的度量是摄氏度一样,信息的大小跟随机事件的概率有关。
信息论创始人C.E.Shannon定义的一个事件的信息量为:

I = l o g 2 ( 1 p ( x ) ) = l o g 2 ( p ( x ) ) I= log_2(\frac{1}{p(x)}) =-log_2(p(x))

其中 p ( x ) p(x) 为事件 x x 发生的概率。信息量的单位是bits, 1 b i t = l o g 2 ( 2 ) 1 bit=log_2(2)

0 p ( x ) 1 0 \leqslant p(x) \leqslant 1 ,当 p ( x ) = 0.02 p(x)=0.02 时,其信息量为5.644

例子:
小明国际象棋下的很一般,假设他在一次国际象棋比赛中获得冠军的概率为0.1;小红国际象棋下的很好,假设他在一次国际象棋比赛中获得冠军的概率为0.9。

如果我告诉你小明在一场国际象棋比赛中获得了冠军,你肯定很惊讶,因为你觉得小明下棋一般,不太可能获得冠军,也就是说你得到的信息量很大,即 I = l o g 2 ( p ( ) ) = l o g 2 ( p ( 0.1 ) ) 3.32 I_{小明得冠军}=-log_2(p(小明得冠军))=-log_2(p(0.1))\approx 3.32比特
如果我告诉你小红在一场国际象棋比赛中获得了冠军,你可能不觉得奇怪,对你来说这个信息量很小,即 I = l o g 2 ( p ( ) ) = l o g 2 ( p ( 0.9 ) ) 0.152 I_{小红得冠军}=-log_2(p(小红得冠军))=-log_2(p(0.9))\approx 0.152 比特

信息熵

信息熵是信息价值大小的度量指标。
香农(Shannon)给出的信息熵公式:
E = k i = 1 n p i ( l o g n p i ) = k i = 1 n p i l o g n p i E=k\sum_{i=1}^np_i*(-log_n*p_i)=-k\sum_{i=1}^np_i*log_n*p_i
一般我们让 n = 2 n=2 ,并去掉系数 k k ,所以有:
E = i = 1 n p i l o g 2 p i E=-\sum_{i=1}^np_i*log_2*p_i

例1:
某天气预报报道哈尔滨的冬天气温为30摄氏度。这一听很震惊,因为信息量很大,但是细细一想,觉得这十有八九是假的,也就是说这条报道的价值很低。如果说哈尔滨的夏天气温为30摄氏度,这很常见,也就是说其信息量很低,那么其价值呢?如何去衡量?
例2:
假如有32个足球对进行比赛,每一队的实力相当,那么每一队胜出的概率都是 1 32 \frac{1}{32} ,那么要猜哪个队胜出很困难,其信息熵为:
E = 32 ( 1 32 l o g 2 ( 1 32 ) = 5 E=-32*(\frac{1}{32}*log_2(\frac{1}{32})=5

交叉熵

L = 1 n j = 0 n ( y j l o g n ( H j ) + ( 1 y j ) l o g n ( 1 H j ) ) L=\frac{1}{n}\sum_{j=0}^n\biggl(y_j*log_n(H_j)+(1-y_j)*log_n(1-H_j)\biggr)    (1)
为了计算简便,我们可以使用 l o g 2 log_2 l n ln 替代上式中的 l o g n log_n
损失函数 L L 越大(约有价值),证明我们得到的 w i , b w_i,b 越好,但是我们习惯损失函数越小越好,所以对右边取负:

L = 1 n j = 0 n ( y j l o g ( H j ) + ( 1 y j ) l o g ( 1 H j ) ) L=-\frac{1}{n}\sum_{j=0}^n\biggl(y_j*log(H_j)+(1-y_j)*log(1-H_j)\biggr)
= 1 n j = 0 n ( y j l n ( H j ) + ( 1 y j ) l n ( 1 H j ) ) \quad=-\frac{1}{n}\sum_{j=0}^n\biggl(y_j*ln(H_j)+(1-y_j)*ln(1-H_j)\biggr)

极大似然估计(Maximum Likelihood Estimation,MLE)角度理解:

M L E = 1 n j = 0 n ( H j y j ( 1 H j ) 1 y j ) MLE=\frac{1}{n}\prod_{j=0}^n\biggl(H_j^{y_j}*(1-H_j)^{1-y_j}\biggr)

对MLE做等价变形:两边同时取对数就等同于上面的公式(1)了。

相对熵

相对熵(relative entropy)又称为KL散度(Kullback-Leibler divergence)。

联合熵

猜你喜欢

转载自blog.csdn.net/weixin_38052918/article/details/107662227