熵
1854年,德国物理学家鲁道夫·克劳修斯(T.Clausius) 首次提出熵的概念,我国物理学家胡刚复教授于1923年根据“热温商”之意首次把entropy译为“熵”。
物理学中的熵
19世纪,物理学家开始认识到,世界的动力是能量,并且提出"能量守恒定律",即能量的总和是不变的。但是,有一个现象让他们很困惑。物理学家发现,能量无法百分百地转换。比如,蒸汽机使用的是热能,将其转换为推动机器的机械能。这个过程中,总是有一些热能损耗掉,无法完全转变为机械能。一开始,物理学家以为是技术水平不高导致的,但后来发现,技术再进步,也无法将能量损耗降到零。他们就将那些在能量转换过程中浪费掉的、无法再利用的能量称为熵。后来,这个概念被总结成了"热力学第二定律":能量转换总是会产生熵,如果是封闭系统,所有能量最终都会变成熵。
多种解释之一:能量转换的时候,大部分能量会转换成预先设定的状态,比如热能变成机械能、电能变成光能。但是,就像细胞突变那样,还有一部分能量会生成新的状态。这部分能量就是熵,由于状态不同,所以很难利用,除非外部注入新的能量,专门处理熵。
总之,能量转换会创造出新的状态,熵就是进入这些状态的能量。状态多,就是可能性多,表示比较混乱;状态少,就是可能性少,相对来说就比较有秩序。因此,上面结论的另一种表达是:能量转换会让系统的混乱度增加,熵就是系统的混乱度。
宏观态与微观态
一个一分为二的气缸,4个不同的分子,那么有多少种放置的可能?
显然一共有5种宏观态。
对于第1种情况—左4右0,有1种微观态;
对于第2种情况—左3右1,有4种微观态;
对于第3种情况—左2右2,有6种微观态;
对于第4种情况—左2右3,有4种微观态;
对于第5种情况—左0右4,有1种微观态;
再来看一个例子:
一副扑克牌54张
1、从中随机抽1张,共有多少可能?
这种情况下的微观态数是54个。
2、从中随机抽3张,共有多少可能?
这种情况下的微观态数是24804个。
3、从中随机抽3张且这3张是同花的情况?
这种情况下的微观态数是1144个。
那么抽取的3张中是同花的概率为
那么抽取的3张中不是同花的概率为
显然同花的概率小,非同花的概率大,为什么呢?
3张是同花的微观态数是1144;
3张不是同花的微观态数是24804-1144=23660;
因为非同花微观态 > 同花微观态
如何定量描述这种问题呢?—产生了熵(Entropy)的概念
熵的公式:
其中:
为玻尔兹曼参数,
就是某种情况下的微观态个数。
大自然总是倾向于熵最大化;而人类总是倾向于熵最小化,即规则化。
因为自然界总是从微观态个数少向微观态个数多的方向发展,所以
总是由少向多变化,熵总是由小向大变化。
熵增加理论:在一个孤立系统中,熵是不减少的!
熵可以作为一个系统混乱程度的标准 。
如果一个系统随机性很大、非常混乱、毫无秩序,则此系统的信息熵越大;反之,如果一个系统是确定的、具有一定的规则、服从一定的秩序,则此系统的信息熵越小。
信息量
信息量是对信息的度量,就跟温度的度量是摄氏度一样,信息的大小跟随机事件的概率有关。
信息论创始人C.E.Shannon定义的一个事件的信息量为:
;
其中
为事件
发生的概率。信息量的单位是bits,
。
,当
时,其信息量为5.644
例子:
小明国际象棋下的很一般,假设他在一次国际象棋比赛中获得冠军的概率为0.1;小红国际象棋下的很好,假设他在一次国际象棋比赛中获得冠军的概率为0.9。
如果我告诉你小明在一场国际象棋比赛中获得了冠军,你肯定很惊讶,因为你觉得小明下棋一般,不太可能获得冠军,也就是说你得到的信息量很大,即
。
如果我告诉你小红在一场国际象棋比赛中获得了冠军,你可能不觉得奇怪,对你来说这个信息量很小,即
。
信息熵
信息熵是信息价值大小的度量指标。
香农(Shannon)给出的信息熵公式:
一般我们让
,并去掉系数
,所以有:
例1:
某天气预报报道哈尔滨的冬天气温为30摄氏度。这一听很震惊,因为信息量很大,但是细细一想,觉得这十有八九是假的,也就是说这条报道的价值很低。如果说哈尔滨的夏天气温为30摄氏度,这很常见,也就是说其信息量很低,那么其价值呢?如何去衡量?
例2:
假如有32个足球对进行比赛,每一队的实力相当,那么每一队胜出的概率都是
,那么要猜哪个队胜出很困难,其信息熵为:
交叉熵
(1)
为了计算简便,我们可以使用
或
替代上式中的
。
损失函数
越大(约有价值),证明我们得到的
越好,但是我们习惯损失函数越小越好,所以对右边取负:
极大似然估计(Maximum Likelihood Estimation,MLE)角度理解:
对MLE做等价变形:两边同时取对数就等同于上面的公式(1)了。
相对熵
相对熵(relative entropy)又称为KL散度(Kullback-Leibler divergence)。