信息熵和香农定理

香农定义的信息熵的计算公式如下:

            这里写图片描述

​      其中X表示随机变量,随机变量的取值为(x1,x2,…,xn),p(xi))表示事件xi发生的概率,且有∑p(xi)=1.信息熵的单位为bit。


​      首先定义时间xi的信息量为其发生概率对数的负数,记为I(xi),有: 
             I(xi)=−log(p(xi))​      
由该定义可得,H(x)为随机变量X的平均信息量(即期望,期望等于试验中每次可能的结果乘以其结果概率的综合)


​      为什么I(xi)=−log(p(xi))可以表示为事件xi的信息量?


      事件xi的信息量大小和它发生的概率(不确定性)有直接的关系。比如说,要搞清楚一件非常不确定的事,或是一无所知的事情(即:信息量小),就需要了解大量的信息。相反,如果对某件事已经有较多了解,我们不需要太多的信息就能把它搞清楚。即信息量函数应该与事件概率成单调递减关系。同时,两个独立事件xi,xj(满足p(xi,xj)=p(xi)∗p(xj)信息量大小应等于各自信息量之和。那么同时符合以上要求的是I(xi)=−logp(xi)。 (取log原因: p(xi,xj)=p(xi)∗p(xj),info(xi,xj)=info(xi)+info(xj))

private:

​      取负号原因小思: 信息量越高,不确定量度越高,概率越小,log(p(xi))越小,−log(p(xi))越大,即信息量越大。

根据香农(Shannon)给出的信息熵公式

上述随机变量(谁获得冠军)的信息量是: 

H=-(p1·logp1+p2·logp2+…p32·logp32)


其中,p1,p2,…,p32分别是这32强球队夺冠的概率。 
吴军的书中给出了几个结论:一是32强球队夺冠概率相同时,H=5;二是夺冠概率不同时,H<5;三是H不可能大于5。

对于第一个结论:结果是很显然的,夺冠概率相同,即每个球队夺冠概率都是1/32,所以H=-((1/32)·log(1/32)+(1/32)·log(1/32)+…+(1/32)·log(1/32))=-log(1/32)=log(32)=5(bit)

对于第二个结论和第三个结论:使用拉格朗日乘子法进行证明,详见《求约束条件下极值的拉格朗日乘子法》。这实际上是说系统中各种随机性的概率越均等,信息熵越大,反之越小。

从香农给出的数学公式上可以看出,信息熵其实是一个随机变量信息量的数学期望。

2.日常语境中的信息量与信息熵的关系。

日常生活中,我们经常说某人说话言简意赅,信息量却很大,某些人口若悬河,但是废话连篇,没啥信息量;这个电视剧情节太拖沓,一集都快演完了也没演啥内容。这里的信息量/内容与信息熵有什么关系呢?

很多人把这些东西与信息熵混为一谈,得出“说话信息量越大,信息熵越高”“语言越言简意赅,信息熵越高;语言越冗余堆积,信息熵越低。”等等结论。

不是说这些说法错了,而是容易引起误导。个人认为,这里日常语境的信息量与其说是信息量,不如说是信息质量和信息传递效率问题,有没有干货,有没有观点,有没有思想,并且在一定的文字长度/播放时间内,能不能有效的表达出来,这个其实是人的能力问题,和信息熵没啥关系好不!

猜你喜欢

转载自blog.csdn.net/dyx810601/article/details/82226456
今日推荐