信息论——the Convexity

这篇博客来介绍熵,互信息,鉴别信息的凸性,与优化有着重要的关系。

凸集(Convex Set)

凸集:在欧氏空间中,凸集是对于集合内的每一对点,连接该对点的直线段上的每个点也在该集合内的集合。

凸集有:实数,概率矢量集合等。整数,有理数等不是凸集。

想要研究凸函数,首先凸函数一定要定义在凸集上。而概率矢量集合为凸集,是一个好消息。

凸函数有个坑。就是中国教材总是叫凸函数和凹函数,但是实际上中国的凸函数,是有最大值的函数,而非国外的convex function(最小值)。另外一种比较好的叫法是上凸和下凸,这个就容易区分了,上凸函数有最大值,下凸函数有最小值。

严格的数学定义:

  • 定义在凸集D上的函数$f(x)$如果满足$f(lambda alpha + (1-lambda)beta) leq lambda f(alpha) + (1-lambda) f(beta)$,则为下凸函数。

  • 定义在凸集D上的函数f(x)如果满足$f(lambda alpha + (1-lambda)beta) geq lambda f(alpha) + (1-lambda) f(beta)$,则为上凸函数。

Jenson不等式

如果f是下凸函数,且X是离散随机变量,则$Ef(X)geq f(EX)$,并且如果f是严格下凸函数,则上式中等号说明X为常数,及X与EX以概率1相等。(其中E为平均取值)。

由Jenson不等式可以推出对数求和不等式
对于非负实数$a_1,a_2,…,a_n;b_1,b_2,…,b_n$有

这个式子的证明如下:

首先,当$t>0$时,$t log t$为一个严格下凸函数.可自行用导数证明。
由Jenson不等式可以得到:

令$alpha _i = frac {b_i}{B},t_i=frac {a_i}{b_i}, B = sum_{b_i}$,代入上式可以得到:

在这里要学会如何构造去证明这个不等式。

凸性

鉴别信息的凸性

$D(pVert q)$是$(p,q)$的下凸函数。即若存在$(p_1,q_1)$和$(p_2,q_2)$,则

上式对所有的$0leq lambda leq 1$成立。

证明如下:

可以看到上式的证明利用到了之前的对数求和不等式。

熵的凸性

知道了鉴别信息的下凸性质,证明熵的凸性就非常容易。

$H(X) = log |X| - D(pVert u)$

上式中,u不变,是均匀分布的情况,这时候D是一个下凸函数,而很明显$log |X|$不变,因此$H(X)$是一个上凸函数。其实大家也很容易理解。因为均匀分布式的熵最大,也就是有最大值。

互信息的凸性

下面来证明互信息的凸性。

互信息定义为下:

这样的写法,对于信道传输的模型更有帮助。

首先如果给定Q,这意味着给定了信道:

Fix $Q =[q(y|x)]$

上式中既然Q已经给定,因此H(Y|X)也就是p(x)线性组合。因此整个函数为上凸减去线性,依然为上凸函数。

如果给定p:

Fix $p(x)$:

因此p(x,y),p(y),p(x)p(y)都是q(y|x)的线性组合。而D本身是下凸函数。所以互信息固定p(x)时候为下凸函数。可用于有失真编码。

原文:大专栏  信息论——the Convexity


猜你喜欢

转载自www.cnblogs.com/chinatrump/p/11588867.html