熵与信息熵的概念

(统计物理与信息论术语)

熵的概念 [1]  是由德国物理学家克劳修斯于1865年所提出。最初是用来描述“能量退化”的物质状态参数之一,在热力学中有广泛的应用。但那时熵仅仅是一个可以通过热量改变来测定的物理量,其本质仍没有很好的解释,直到统计物理、信息论等一系列科学理论发展,熵的本质才逐渐被解释清楚,即,熵的本质是一个系统“内在的混乱程度”。它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,在不同的学科中也有引申出的更为具体的定义,按照数理思维从本质上说,这些具体的引申定义都是相互统一的,熵在这些领域都是十分重要的参量。

熵概念的提出

编辑

熵(希腊语:entropia 英语:entropy)的概念是由德国物理学家克劳修斯于1865年所提出。在希腊语源中意为“内在”,即“一个系统内在性质的改变”,公式中一般记为S。1923年,德国科学家普朗克(Planck)来中国讲学用到entropy这个词,胡刚复教授翻译时灵机一动,把“商”字加火旁来意译“entropy”这个字,创造了“熵”字(读shāng),因为熵变dS是dQ除以T(温度)的商数。

克劳修斯将一个热力学系统中熵的改变定义为:在一个可逆过程中,输入热量相对于温度的变化率,即

T为物质的热力学温度;dQ为热传导过程中的输入热量,下标“reversible”表示是“可逆过程”。

首先这里解释一下什么是“可逆过程”。热力学过程是指一个系统热力学性质的改变过程,例如温度、体积、压强、内能等。当一个过程被界定为“可逆”时,即指改变过程在的每一个极短的步骤内,系统都保持非常接近平衡的状态,称为“准静态过程”。否则,该过程即是“不可逆的”。例如,在一个活塞管中的气体,其体积可以因为活塞移动而改变。“可逆”体积改变是指在进行得极其慢的步骤中,气体的密度一直保持均匀。“不可逆”体积改变即是指在快速的体积改变中,由于体积改变太快,可以形成密度梯度和压力波,并造成不稳定状态。无耗散的“准静态过程”即是“可逆过程”。若过程是不可逆的,则

不可逆。这里过程的“可逆性”涉及到一个和“熵”密切相关的物理原理,称为“熵增原理”,也就是“热力学第二定律”。热力学第二定律有很多表述形式,例如:

①热量总是从高温物体传到低温物体,不可能作相反的传递而不引起其他的变化;

②功可以全部转化为热(例如物体间摩擦使一部分机械能不可逆地转变为热),但任何热机不能全部地,连续不断地把所接受的热量转变为功(即无法制造第二类永动机);

③在孤立系统中,实际发生过程,总使整个系统的熵值趋于增大。

这些不同表述各有侧重,但彼此等价。例如:在一个孤立系统中有两个温度不同的物体,热量dQ 由高温(T1)物体传至低温(T2)物体,高温物体的熵减少

,低温物体的熵增加

,把两个物体合起来当成一个系统来看,熵的变化是

,即熵是增加的。这说明了表述①和表述③的等价性。

物理解释

编辑

1877年左右,玻尔兹曼提出熵的统计物理学解释。他在一系列论文中证明了:系统的宏观物理性质,可以认为是所有可能微观状态的等概率统计平均值。例如,考虑一个容器内的理想气体。微观状态可以用每个气体原子的位置及动量予以表达。所有可能的微观状态必须满足以下条件:(i)所有粒子的位置皆在容器的体积范围内;(ii)所有原子的动能总和等于该气体的总能量值。

玻尔兹曼提出一个系统的熵和所有可能微观状态的数目满足以下简单关系,

这个公式称为“玻尔兹曼公式”,其中

是玻尔兹曼常数,Ω则为系统宏观状态中所包含的微观状态总数。

根据这个公式,我们可以将熵看作是一个系统“混乱程度”的度量,因为一个系统越混乱,可以看作是微观状态分布越均匀。例如,设想有一组10个硬币,每一个硬币有两面,掷硬币时得到最有规律的状态是10个都是正面或10个都是反面,这两种状态都只有一种构型(排列)。反之,如果是最混乱的情况,有5个正面5个反面,排列构型可以有排列组合数

,共252种。

根据熵的统计学定义 [1]  ,热力学第二定律说明一个孤立系统的倾向于增加混乱程度,根据上述硬币的例子可以明白,每一分钟我们随便掷一个硬币,经过一段长时间后,我们检查一下硬币,有“可能”10个都是正面或都是反面,但是最大的可能性是正面和反面的数量相等。

我们发现,混乱程度倾向于增加的观念被许多人接受,但容易引起一些错误认识,最主要的是必须明白ΔS ≥ 0只能用于“孤立”系统,值得注意的是地球并不是一个孤立系统,因为地球不断地从太阳以太阳光的形式接收能量。但有人认为宇宙是一个孤立系统,即宇宙的混乱程度在不断地增加,可以推测出宇宙最终将达到“热寂”状态,因为(所有恒星)都在以同样方式放散热能,能源将会枯竭,再没有任何可以作功的能源了。当然”宇宙是一个孤立系统“严格来说只是个未被验证的假设。

可以严格证明,玻尔兹曼公式的另一种等价表述形式是

其中i标记所有可能的微观态,

表示微观态i的出现几率。

信息论解释

信息熵(Information Entropy)

什么是信息熵

  信息熵是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率(离散随机事件的出现概率)。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。信息熵也可以说是系统有序化程度的一个度量。

信息熵的计算

  根据Charles H. Bennett对Maxwell's Demon的解释,对信息的销毁是一个不可逆过程,所以销毁信息是符合热力学第二定律的。而产生信息,则是为系统引入负(热力学)熵的过程。所以信息熵的符号与热力学熵应该是相反的。一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。

  信源的平均不定度。在信息论中信源输出是随机量,因而其不定度可以用概率分布来度量。记 H(X)=H(P1,P2,…,Pn)=P(xi)logP(xi),这里P(xi),i=1,2,…,n为信源取第i个符号的概率。P(xi)=1,H(X)称为信源的信息熵。

  熵的概念来源于热力学。在热力学中熵的定义是系统可能状态数的对数值,称为热熵。它是用来表达分子状态杂乱程度的一个物理量。热力学指出,对任何已知孤立的物理系统的演化,热熵只能增加,不能减少。然而这里的信息熵则相反,它只能减少,不能增加。所以热熵和信息熵互为负量。且已证明,任何系统要获得信息必须要增加热熵来补偿,即两者在数量上是有联系的。

  可以从数学上加以证明,只要H(X)满足下列三个条件:

  ①连续性:H(P,1-P)是P的连续函数(0≤P≤1);

  ②对称性:H(P1,…,Pn)与P1,…,Pn的排列次序无关;

  ③可加性:若Pn=Q1+Q2>0,且Q1,Q2≥0,则有H(P1,…,Pn-1,Q1,Q2)=H(P1,…,Pn-1)+PnH;则一定有下列唯一表达形式:H(P1,…,Pn)=-CP(xi)logP(xi)

  其中C为正整数,一般取C=1,它是信息熵的最基本表达式。

  信息熵的单位与公式中对数的底有关。最常用的是以2为底,单位为比特(bit);在理论推导中常采用以e为底,单位为奈特(Nat);还可以采用其他的底和单位,并可进行互换。

  信息熵除了上述三条基本性质外,还具有一系列重要性质,其中最主要的有:

  ①非负性:H(P1,…,Pn)≥0;

  ②确定性:H(1,0)=H(0,1)=H(0,1,0,…)=0;

  ③扩张性:Hn-1(P1,…,Pn-ε,ε)=Hn(P1,…,Pn);

  ④极值性:P(xi)logP(xi)≤P(xi)logQ(xi);这里Q(xi)=1;

  ⑤上凸性:H[λP +(1-λ)Q]>λH(P)+(1-λ)H(Q),式中0<λ<1。

事实上,香农证明如果要求度量满足这些性质,则可以完全确定“信息熵”的定义表达式。

热力学熵

根据E. T. Jaynes(1957) [2]  的观点,热力学熵可以被视为香农信息理论的一个应用(这从玻尔兹曼公式和信息熵的定义相似性明显可以看出。):热力学熵被定义为与要进一步确定系统的微观状态所需要的更多香农信息的量成比例。比如,系统温度的上升提高了系统的热力学熵,这增加了系统可能存在的微观状态的数量,也意味着需要更多的信息来描述对系统的完整状态。

麦克斯韦在以他的名字命名的思想实验(“麦克斯韦妖”)中认为,如果存在一个小妖精知道每个分子的状态信息(热,或者冷),就能够降低系统的热力学熵。Landauer和他的同事则反驳说,让小妖精行使职责本身——即便只是了解和储存每个分子最初的香农信息——就会给系统带来热力学熵的增加,因此总的来说,系统的熵的总量没有减少。这就解决了“麦克斯韦妖”引发的悖论。Landauer法则能够解释现代计算机在处理大量信息时,必须解决散热问题。

熵增定律

克劳修斯引入了熵的概念来描述这种不可逆过程

这种熵增 [3]  是一不可逆过程,而总熵变总是大于零。

但最终达到熵的最大状态,也就是系统的最混乱无序状态。

猜你喜欢

转载自blog.csdn.net/qq_43590614/article/details/105835539