信息论复习笔记(1):信息熵、条件熵,联合熵,互信息、交叉熵,相对熵

1.1 信息和信息的测量

1.1.1 什么是信息

信息是对接收者来说是一种不确切的知识,可以认为是一种不确定性的度量。比如下面的例子,假设随机变量 X= ‘出生年份’:

1) I will be one year older next year. ----> No information
2) I was born in 1993.  ----> little information
3) I was born in 1990s. ---->More information

可见,信息量随机变量可能值的数量相关。随机变量能取到的值越多,代表事件的不确定度越大,包含的信息越多。不确定度越大,信息量越多

1.1.1 信息怎么表示

例如,一个班有30个学生,我们要用一个二进制序列区分他们,需要多少bits?

l o g 2 30 = 4.907 b i t s log_2 30 = 4.907 bits

所以至少需要5个bits才能代表每个学生

1.2 信息熵

在通信系统中,信息熵用来表示平均每符号携带多少比特(bit)信息,信息熵的单位是 bit/symbol(比特每符号)。其背景如下:

我们需要把一个信源符号,转化成一个0-1的二进制比特形式,那么需要多少个二进制比特位,才能表达这个通信符号的所有信息呢?

上文说到,信息代表不确定性,与事件的概率相关。那么假设一个信源有5种可能的符号,记为 x 1 , x 2 , x 3 , x 4 , x 5 x_1,x_2,x_3,x_4,x_5 , 并且每个符号出现的概率分别为 P ( x 1 ) , P ( x 2 ) , P ( x 3 ) , P ( x 4 ) , P ( x 5 ) P(x_1), P(x_2),P(x_3),P(x_4),P(x_5) ,
所以(平均每比特携带的信息量)为:
H ( X ) = E [ l o g 2 P ( X ) 1 ] = i = 1 5 P ( x i ) l o g 2 P ( x i ) 1 H(X) = E [ log_2 P(X)^{-1} ] = \sum_{i=1}^{5}P(x_i) *log_2P(x_i)^{-1}

1.3 条件熵和联合熵

联合熵上与联合分布相关。联合熵表示为:
H ( X , Y ) = x ϵ X y ϵ Y P ( X , Y ) l o g 2 P ( X , Y ) H(X,Y ) = - \sum_{x\epsilon X}\sum_{y\epsilon Y}P(X,Y) log_2 P(X,Y)
条件熵上与条件分布联合分布相关。条件熵表示为:
H ( X Y ) = x ϵ X y ϵ Y P ( X , Y ) l o g 2 P ( X Y ) H(X|Y ) = - \sum_{x\epsilon X}\sum_{y\epsilon Y}P(X,Y) log_2 P(X|Y)

The Chain Rule (Relationship between Joint Entropy and Conditional Entropy)

链式法则:
H ( X , Y ) = H ( X Y ) + H ( Y ) = H ( X ) + H ( Y X ) H(X,Y ) = H(X|Y ) + H(Y) = H(X) + H(Y|X)

1.4 互信息

互信息为减去条件熵
I ( X , Y ) = H ( Y ) H ( Y X ) = H ( X ) + H ( X Y ) I(X,Y ) = H(Y) - H(Y|X ) = H(X) + H(X|Y)
互信息为 熵 的和减去 联合熵
I ( X , Y ) = H ( Y ) H ( Y X ) = H ( X ) + H ( X Y ) I(X,Y ) = H(Y) - H(Y|X ) = H(X) + H(X|Y)

上诉过程可以用图加深理解:
在这里插入图片描述

1.5 相对熵和交叉熵

相对熵和交叉熵

猜你喜欢

转载自blog.csdn.net/promisejia/article/details/81053493