最大离散熵定理
一般的离散信源的r个概率分量分别为
p1,
p2,
...,
pr,必须满足条件
∑i=1rpi=1.熵函数
H(p1,p2,...,pr)的最大值,即在满足约束条件
∑i=1rpi=1的条件下,熵函数
H(p1,p2,...,pr)的最大值。
以下为求解证明过程:
按照在高数上求取极值点的方法,首先根据拉格朗日数乘法,做出辅助函数,如下所示:
F(p1,p2,...,pr)=H(p1,p2,...,pr)+λ[i=1∑rpi−1]=−i=1∑rpilnpi+λ[i=1∑rpi−1](公式1)
在公式中,
λ为待定常数,对辅助函数
F(p1,p2,...,pr)中的r个变量
pi(i=1,2,...,r),分别求偏导,并使之为0,可以得到方程;
−(1+lnpi)+λ=0(i=1,2,...,r)(公式2)
对上述方程求解可得:
pi=eλ−1(i=1,2,...,r)(公式3)
将以上公式三带入
∑i=1rpi=1可得:
i=1∑rpi=i=1∑re(λ−1)=re(λ−1)=1
对上式整理可得:
e(λ−1)=r1(公式4)
由上边的公式三和公式四可以解得使熵函数
H(p1,p2,...,pr)取得的条件极大值,也就是熵函数
H(p1,p2,...,pr)的最大值的信源符号
ai(i=1,2,...,r)相应的概率分布
pi=r1(i=1,2,...,r)(公式5)
根据公式五可以求得熵函数的最大值
H0(p1,p2,...,pr)=H(r1,r1,...,r1)=−i=1∑rr1logr1=logr(比特/信符)(公式6)
在一般情况下,离散信源的熵不会超过公式6所计算的数值,也就出现了以下的公式:
H(p1,p2,...,pr)≤logr(比特/信符)(公式7)
以上也就是最大离散熵定理的证明过程。这个定理表明,在所有符号种数相同,而符号的概率分布不同的离散信源中,以先验等概的离散的信源的信息熵最大,其最大值为信源符号种数
r的对数。这说明,离散信源熵的最大值,只取决于信源的符号种数
r,符号种数
r越大,其信息熵的最大值也越大。
均值受限的最大熵值
最大 离散熵是离散信源在满足约束条件
∑i=1rpi=1下,推导得出的一般性结论,如果在此基础上再加上一个约束条件:信源输出符号
ai(i=1,2,...,r)的均值受限,即
i=1∑raipi=m
同样的,采用拉格朗日数乘法来构造辅助函数:
F(p1,p2,...,pr)=H(p1,p2,...,pr)+λ1[i=1∑rpi−1]+λ2[i=1∑raipi−m]
其中的
λ1、
λ2均为待定常数,对辅助函数
F(p1,p2,...,pr)中的变量
pi(i=1,2,...,r)分别求偏导,并使其为0,可得如下方程:
−(1+lnpi)+λ1+λ2ai=0(i=1,2,...,r)
对上述方程整理可得
pi 表达式:
pi=eλ1−1eλ2ai(i=1,2,...,r)
将
pi带入约束方程
∑i=1rpi=1得:
i=1∑reλ1−1eλ2ai=1⟹e(λ1−1)=∑i=1reλ2ai1
结合
pi公式,对上式等式两边同乘
eλ2ai可得:
eλ2aie(λ1−1)=∑i=1reλ2aieλ2ai⟹pi=∑i=1reλ2aieλ2ai(i=1,2,...,r)(公式1)
再由另一个约束条件
∑i=1raipi=m,将p_i带入可得:
i=1∑rai∑j=1reλ2ajeλ2ai=m
在计算
∑i=1rai(.)时,可将
∑j=1reλ2aj视为常数
C,则有:
i=1∑raiCeλ2ai=m⟹i=1∑raieλ2ai=Cm=mj=1∑reλ2aj(公式2)
由上式可以求得待定常数
λ2,并将其带入公式1
pi表达式,则可以得出使得熵函数
H(p1,p2,...,pr)达到最大值的
p1,p2,p3,...,pi等各个频率分量,进而求得熵函数的最大值。
事实上,我们可以根据概率分量
pi(i=1,2,...,r)的表达式,就可以直接构成满足约束条件
∑i=1rpi=1和
∑i=1raipi=m的最大熵表达式:
H0(p1,p2,...,pr;m)=−i=1∑rpilnpi=−i=1∑r[∑j=1reλ2ajeλ2ailn∑j=1reλ2ajeλ2ai]=−i=1∑r[∑j=1reλ2ajeλ2ailn(eλ2ai)]+i=1∑r[∑j=1reλ2ajeλ2ailn(j=1∑reλ2aj)](式3)
对于上式的化简,我们采用与第一节同样的方法,在计算
∑i=1r(.)时,可将
∑j=1reλ2aj视为常数
C1,将上式化简如下:
式3=−i=1∑r[C1eλ2ailn(eλ2ai)]+i=1∑r[C1eλ2ailn(j=1∑reλ2aj)]=−C1∑i=1reλ2ailn(eλ2ai)+C1∑i=1reλ2ailn(j=1∑reλ2aj)=−C1λ2∑i=1raieλ2ai+C1∑i=1reλ2ailn(j=1∑reλ2aj)(式4)
在公式2两端同乘
λ2得
λ2i=1∑raieλ2ai=mλ2j=1∑reλ2aj
带入上述公式4则有:
式4=−C1mλ2∑i=1reλ2ai+C1∑i=1reλ2ailn(j=1∑reλ2aj)=−C1mλ2C1+C1C1ln(j=1∑reλ2aj)=−mλ2+ln(j=1∑reλ2aj)
经过化简以后最大熵函数得表达式为:
H0(p1,p2,...,pr;m)=−mλ2+ln(j=1∑reλ2aj)(式5)
最后再将公式2解出的待定常数
λ2带入式5,则可以直接计算出熵函数
H0(p1,p2,...,pr;m)的最大值。
参考书目
信息论与编码第二版 姜丹编著