关于信息熵最大值的讨论

最大离散熵定理

\qquad 一般的离散信源的r个概率分量分别为 p 1 , p_1, p 2 , p_2, . . . , ..., p r , p_r, 必须满足条件 i = 1 r p i = 1 \sum_{i=1}^rp_i=1 .熵函数 H ( p 1 , p 2 , . . . , p r ) H(p_1,p_2,...,p_r) 的最大值,即在满足约束条件 i = 1 r p i = 1 \sum_{i=1}^rp_i=1 的条件下,熵函数 H ( p 1 , p 2 , . . . , p r ) H(p_1,p_2,...,p_r) 的最大值。

以下为求解证明过程:
按照在高数上求取极值点的方法,首先根据拉格朗日数乘法,做出辅助函数,如下所示:
F ( p 1 , p 2 , . . . , p r ) = H ( p 1 , p 2 , . . . , p r ) + λ [ i = 1 r p i 1 ] = i = 1 r p i l n p i + λ [ i = 1 r p i 1 ] ( 1 ) F(p_1,p_2,...,p_r)=H(p_1,p_2,...,p_r)+\lambda[\sum_{i=1}^r{p_i-1}] \\ \quad\quad\quad\quad\quad=-\sum_{i=1}^r{p_ilnp_i+\lambda[\sum_{i=1}^rp_i-1]}\qquad\qquad\qquad(公式1)

\qquad 在公式中, λ \lambda 为待定常数,对辅助函数 F ( p 1 , p 2 , . . . , p r ) F(p_1,p_2,...,p_r) 中的r个变量 p i ( i = 1 , 2 , . . . , r ) p_i (i=1,2,...,r) ,分别求偏导,并使之为0,可以得到方程;
( 1 + l n p i ) + λ = 0 ( i = 1 , 2 , . . . , r ) ( 2 ) \quad\quad\quad-(1+lnp_i)+\lambda=0 \quad\quad(i=1,2,...,r)\qquad\qquad(公式2)

对上述方程求解可得:
p i = e λ 1 ( i = 1 , 2 , . . . , r ) ( 3 ) \qquad\qquad\qquad p_i=e^{\lambda-1}\quad\quad(i=1,2,...,r)\qquad\qquad\qquad(公式3)

将以上公式三带入 i = 1 r p i = 1 \sum_{i=1}^rp_i=1 可得:
i = 1 r p i = i = 1 r e ( λ 1 ) = r e ( λ 1 ) = 1 \quad \sum_{i=1}^rp_i=\sum_{i=1}^re^{(\lambda-1)}=re^{(\lambda-1)}=1

对上式整理可得:
e ( λ 1 ) = 1 r ( 4 ) \qquad\qquad\qquad\quad e^{(\lambda-1)}=\frac{1}{r} \qquad\qquad(公式4)

\qquad 由上边的公式三和公式四可以解得使熵函数 H ( p 1 , p 2 , . . . , p r ) H(p_1,p_2,...,p_r) 取得的条件极大值,也就是熵函数 H ( p 1 , p 2 , . . . , p r ) H(p_1,p_2,...,p_r) 的最大值的信源符号 a i ( i = 1 , 2 , . . . , r ) a_i (i=1,2,...,r) 相应的概率分布
p i = 1 r ( i = 1 , 2 , . . . , r ) ( 5 ) \quad\qquad\quad p_i=\frac{1}{r} \qquad\qquad (i=1,2,...,r)\qquad(公式5)

根据公式五可以求得熵函数的最大值
H 0 ( p 1 , p 2 , . . . , p r ) = H ( 1 r , 1 r , . . . , 1 r ) = i = 1 r 1 r l o g 1 r = l o g r ( / ) 6 H_0(p_1,p_2,...,p_r)=H(\frac1r,\frac1r,...,\frac1r)\\ \quad\quad\qquad\qquad=-\sum_{i=1}^r{\frac1rlog{\frac1r}}\\\qquad\qquad\qquad\qquad\qquad\qquad=logr (比特/信符)(公式6)

在一般情况下,离散信源的熵不会超过公式6所计算的数值,也就出现了以下的公式:
H ( p 1 , p 2 , . . . , p r ) l o g r ( / ) ( 7 ) \quad\quad\qquad H(p_1,p_2,...,p_r)\leq{logr} \qquad(比特/信符)\quad(公式7)

\quad 以上也就是最大离散熵定理的证明过程。这个定理表明,在所有符号种数相同,而符号的概率分布不同的离散信源中,以先验等概的离散的信源的信息熵最大,其最大值为信源符号种数 r r 的对数。这说明,离散信源熵的最大值,只取决于信源的符号种数 r r ,符号种数 r r 越大,其信息熵的最大值也越大。

均值受限的最大熵值

\qquad 最大 离散熵是离散信源在满足约束条件 i = 1 r p i = 1 \sum_{i=1}^rp_i=1 下,推导得出的一般性结论,如果在此基础上再加上一个约束条件:信源输出符号 a i ( i = 1 , 2 , . . . , r ) a_i (i=1,2,...,r) 的均值受限,即
i = 1 r a i p i = m \sum_{i=1}^r{a_ip_i}=m
同样的,采用拉格朗日数乘法来构造辅助函数:
F ( p 1 , p 2 , . . . , p r ) = H ( p 1 , p 2 , . . . , p r ) + λ 1 [ i = 1 r p i 1 ] + λ 2 [ i = 1 r a i p i m ] F(p_1,p_2,...,p_r)=H(p_1,p_2,...,p_r)+\lambda_1[\sum_{i=1}^r{p_i-1}]\\+\lambda_2[{\sum_{i=1}^r}a_ip_i-m]

\qquad 其中的 λ 1 \lambda_1 λ 2 \lambda_2 均为待定常数,对辅助函数 F ( p 1 , p 2 , . . . , p r ) F(p_1,p_2,...,p_r) 中的变量 p i ( i = 1 , 2 , . . . , r ) p_i (i=1,2,...,r) 分别求偏导,并使其为0,可得如下方程:
( 1 + l n p i ) + λ 1 + λ 2 a i = 0 ( i = 1 , 2 , . . . , r ) -(1+ln{p_i})+\lambda_1+\lambda_2a_i=0 \qquad(i=1,2,...,r)

对上述方程整理可得 p i p_i 表达式:
p i = e λ 1 1 e λ 2 a i ( i = 1 , 2 , . . . , r ) p_i=e^{\lambda_1-1}e^{\lambda_2a_i}\qquad(i=1,2,...,r)

p i p_i 带入约束方程 i = 1 r p i = 1 \sum_{i=1}^rp_i=1 得:
i = 1 r e λ 1 1 e λ 2 a i = 1 e ( λ 1 1 ) = 1 i = 1 r e λ 2 a i \sum_{i=1}^r{e^{\lambda_1-1}e^{\lambda_2a_i}}=1\Longrightarrow e^{(\lambda_1-1)}=\frac1{\sum_{i=1}^r{e^{\lambda_2a_i}}}

结合 p i p_i 公式,对上式等式两边同乘 e λ 2 a i e^{\lambda_2a_i} 可得:
e λ 2 a i e ( λ 1 1 ) = e λ 2 a i i = 1 r e λ 2 a i p i = e λ 2 a i i = 1 r e λ 2 a i ( i = 1 , 2 , . . . , r ) ( 1 ) e^{\lambda_2a_i}e^{(\lambda_1-1)}=\frac{e^{\lambda_2a_i}}{\sum_{i=1}^r{e^{\lambda_2a_i}}}\Longrightarrow p_i=\frac{e^{\lambda_2a_i}}{\sum_{i=1}^r{e^{\lambda_2a_i}}}\quad(i=1,2,...,r)\qquad(公式1)

再由另一个约束条件 i = 1 r a i p i = m \sum_{i=1}^r{a_ip_i}=m ,将p_i带入可得:
i = 1 r a i e λ 2 a i j = 1 r e λ 2 a j = m \sum_{i=1}^r{a_i\frac{e^{\lambda_2a_i}}{\sum_{j=1}^r{e^{\lambda_2a_j}}}}=m

在计算 i = 1 r a i ( . ) \sum_{i=1}^r{a_i(.)} 时,可将 j = 1 r e λ 2 a j \sum_{j=1}^r{e^{\lambda_2a_j}} 视为常数 C C ,则有:
i = 1 r a i e λ 2 a i C = m i = 1 r a i e λ 2 a i = C m = m j = 1 r e λ 2 a j ( 2 ) \sum_{i=1}^r{a_i\frac{e^{\lambda_2a_i}}{C}}=m \Longrightarrow \sum_{i=1}^ra_ie^{\lambda_2a_i}=Cm=m \sum_{j=1}^r{e^{\lambda_2a_j}}\qquad(公式2)

\qquad 由上式可以求得待定常数 λ 2 \lambda_2 ,并将其带入公式1 p i p_i 表达式,则可以得出使得熵函数 H ( p 1 , p 2 , . . . , p r ) H(p_1,p_2,...,p_r) 达到最大值的 p 1 , p 2 , p 3 , . . . , p i p_1,p_2,p_3,...,p_i 等各个频率分量,进而求得熵函数的最大值。
事实上,我们可以根据概率分量 p i ( i = 1 , 2 , . . . , r ) p_i (i=1,2,...,r) 的表达式,就可以直接构成满足约束条件 i = 1 r p i = 1 \sum_{i=1}^rp_i=1 i = 1 r a i p i = m \sum_{i=1}^r{a_ip_i}=m 的最大熵表达式:
H 0 ( p 1 , p 2 , . . . , p r ; m ) = i = 1 r p i l n p i = i = 1 r [ e λ 2 a i j = 1 r e λ 2 a j l n e λ 2 a i j = 1 r e λ 2 a j ] = i = 1 r [ e λ 2 a i j = 1 r e λ 2 a j l n ( e λ 2 a i ) ] + i = 1 r [ e λ 2 a i j = 1 r e λ 2 a j l n ( j = 1 r e λ 2 a j ) ] ( 3 ) H_0(p_1,p_2,...,p_r;m)=-\sum_{i=1}^r{p_ilnp_i}\\=-\sum_{i=1}^r \left[{\frac{e^{\lambda_2a_i}}{\sum_{j=1}^r{e^{\lambda_2a_j}}}ln{\frac{e^{\lambda_2a_i}}{\sum_{j=1}^r{e^{\lambda_2a_j}}}}}\right]\\ =-\sum_{i=1}^r\left[{\frac{e^{\lambda_2a_i}}{\sum_{j=1}^r{e^{\lambda_2a_j}}}}ln{(e^{\lambda_2a_i})}\right]+\sum_{i=1}^r{\left[\frac{e^{\lambda_2a_i}}{\sum_{j=1}^re^{\lambda_2a_j}}ln{(\sum_{j=1}^re^{\lambda_2a_j})}\right]}\qquad(式3)
\qquad 对于上式的化简,我们采用与第一节同样的方法,在计算 i = 1 r ( . ) \sum_{i=1}^r{(.)} 时,可将 j = 1 r e λ 2 a j \sum_{j=1}^r{e^{\lambda_2a_j}} 视为常数 C 1 C_1 ,将上式化简如下:
3 = i = 1 r [ e λ 2 a i C 1 l n ( e λ 2 a i ) ] + i = 1 r [ e λ 2 a i C 1 l n ( j = 1 r e λ 2 a j ) ] = i = 1 r e λ 2 a i C 1 l n ( e λ 2 a i ) + i = 1 r e λ 2 a i C 1 l n ( j = 1 r e λ 2 a j ) = λ 2 i = 1 r a i e λ 2 a i C 1 + i = 1 r e λ 2 a i C 1 l n ( j = 1 r e λ 2 a j ) ( 4 ) 式3=-\sum_{i=1}^r\left[{\frac{e^{\lambda_2a_i}}{C_1}}ln{(e^{\lambda_2a_i})}\right]+\sum_{i=1}^r{\left[\frac{e^{\lambda_2a_i}}{C_1}ln{(\sum_{j=1}^re^{\lambda_2a_j})}\right]}\\=-\frac{\sum_{i=1}^re^{\lambda_2a_i}}{C_1}ln(e^{\lambda_2a_i})+\frac{\sum_{i=1}^re^{\lambda_2a_i}}{C_1}ln{(\sum_{j=1}^re^{\lambda_2a_j})}\\=-\frac{\lambda_2\sum_{i=1}^ra_ie^{\lambda_2a_i}}{C_1}+\frac{\sum_{i=1}^re^{\lambda_2a_i}}{C_1}ln{(\sum_{j=1}^re^{\lambda_2a_j})}\qquad(式4)

在公式2两端同乘 λ 2 \lambda_2
λ 2 i = 1 r a i e λ 2 a i = m λ 2 j = 1 r e λ 2 a j \lambda_2\sum_{i=1}^ra_ie^{\lambda_2a_i}=m\lambda_2 \sum_{j=1}^r{e^{\lambda_2a_j}}

带入上述公式4则有:
4 = m λ 2 i = 1 r e λ 2 a i C 1 + i = 1 r e λ 2 a i C 1 l n ( j = 1 r e λ 2 a j ) = m λ 2 C 1 C 1 + C 1 C 1 l n ( j = 1 r e λ 2 a j ) = m λ 2 + l n ( j = 1 r e λ 2 a j ) 式4=-\frac{m\lambda_2 \sum_{i=1}^r{e^{\lambda_2a_i}}}{C_1}+\frac{\sum_{i=1}^re^{\lambda_2a_i}}{C_1}ln{(\sum_{j=1}^re^{\lambda_2a_j})}\\=-\frac{m\lambda_2 C_1}{C_1}+\frac{C_1}{C_1}ln{(\sum_{j=1}^re^{\lambda_2a_j})}\\=-m\lambda_2+ln{(\sum_{j=1}^re^{\lambda_2a_j})}

经过化简以后最大熵函数得表达式为:
H 0 ( p 1 , p 2 , . . . , p r ; m ) = m λ 2 + l n ( j = 1 r e λ 2 a j ) ( 5 ) H_0(p_1,p_2,...,p_r;m)=-m\lambda_2+ln{(\sum_{j=1}^re^{\lambda_2a_j})}\qquad(式5)

\qquad 最后再将公式2解出的待定常数 λ 2 \lambda_2 带入式5,则可以直接计算出熵函数 H 0 ( p 1 , p 2 , . . . , p r ; m ) H_0(p_1,p_2,...,p_r;m) 的最大值。

参考书目

信息论与编码第二版 姜丹编著

发布了44 篇原创文章 · 获赞 37 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/weixin_38468077/article/details/100435303
今日推荐