信息熵、条件熵、联合熵、互信息和条件互信息



1. 信息熵

信息熵是用于度量信息量大小的指标。

X X X 是一个随机变量,则 X X X 的信息熵定义为:

H ( X ) = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) (1) H(X) = - \sum_{x \in X} p(x) \log p(x) \tag{1} H(X)=xXp(x)logp(x)(1)

有时也写作:

H ( X ) = − ∑ i = 1 n p ( x i ) log ⁡ p ( x i ) H(X) = - \sum_{i=1}^{n} p(x_i) \log p(x_i) H(X)=i=1np(xi)logp(xi)


2. 联合熵

两个随机变量 X X X Y Y Y 的联合熵定义为:

H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) (2) H(X, Y) = - \sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(x, y) \tag{2} H(X,Y)=xXyYp(x,y)logp(x,y)(2)


3. 条件熵

X X X Y Y Y 是随机变量,条件熵 H ( Y ∣ X ) H(Y|X) H(YX) 表示在已知随机变量 X X X 的条件下随机变量 Y Y Y 的不确定性。
条件熵 H ( Y ∣ X ) H(Y|X) H(YX) 定义为 X X X 给定条件下 Y Y Y 的条件概率分布的熵对 X X X 的数学期望:

H ( Y ∣ X ) = ∑ x ∈ X p ( x ) H ( Y ∣ X = x ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y ∣ x ) log ⁡ p ( y ∣ x ) (3) \begin{aligned} H(Y|X) & = \sum_{x \in X} p(x) H(Y|X = x) \\ & = - \sum_{x \in X} p(x) \sum_{y \in Y} p(y|x) \log p(y|x) \end{aligned} \tag{3} H(YX)=xXp(x)H(YX=x)=xXp(x)yYp(yx)logp(yx)(3)

还有一个推导公式:

H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X) = H(X, Y) - H(X) H(YX)=H(X,Y)H(X)

证明

H ( Y ∣ X ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y ∣ x ) log ⁡ p ( y ∣ x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x ) p ( y ∣ x ) log ⁡ p ( y ∣ x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) p ( x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) [ log ⁡ p ( x , y ) − log ⁡ p ( x ) ] = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) − [ − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x ) ] = H ( X , Y ) − [ − ∑ x ∈ X p ( x ) log ⁡ p ( x ) ] = H ( X , Y ) − H ( X ) . \begin{aligned} H(Y|X) & = - \sum_{x \in X} p(x) \sum_{y \in Y} p(y|x) \log p(y|x) \\ & = - \sum_{x \in X} \sum_{y \in Y} p(x) p(y|x) \log p(y|x) \\ & = - \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \frac{p(x, y)}{p(x)} \\ & = - \sum_{x \in X} \sum_{y \in Y} p(x, y) [\log p(x, y) - \log p(x)] \\ & = - \sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(x, y) - [- \sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(x)] \\ & = H(X, Y) - [- \sum_{x \in X} p(x) \log p(x)] \\ & = H(X, Y) - H(X). \end{aligned} H(YX)=xXp(x)yYp(yx)logp(yx)=xXyYp(x)p(yx)logp(yx)=xXyYp(x,y)logp(x)p(x,y)=xXyYp(x,y)[logp(x,y)logp(x)]=xXyYp(x,y)logp(x,y)[xXyYp(x,y)logp(x)]=H(X,Y)[xXp(x)logp(x)]=H(X,Y)H(X).

得证。


4. 互信息

在已知了 Y Y Y 之后, X X X 的熵减少的量,称为 X X X Y Y Y 之间的互信息,定义为:

I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ ( p ( x , y ) p ( x ) p ( y ) ) (4) \begin{aligned} I(X; Y) = \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \Big ( \frac{p(x, y)}{p(x) p(y)} \Big ) \end{aligned} \tag{4} I(X;Y)=xXyYp(x,y)log(p(x)p(y)p(x,y))(4)

实际上,还有一个推导公式:

I ( X ; Y ) = I ( Y ; X ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X; Y) = I(Y; X) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X, Y) I(X;Y)=I(Y;X)=H(X)H(XY)=H(Y)H(YX)=H(X)+H(Y)H(X,Y)

证明

I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ ( p ( x , y ) p ( x ) p ( y ) ) = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( y ) + ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) = H ( X ) − ∑ y ∈ Y p ( y ) log ⁡ p ( y ) − [ − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) ] = H ( X ) − H ( X , Y ) + H ( Y ) = H ( X ) + H ( Y ) − H ( X , Y ) . \begin{aligned} I(X; Y) & = \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \Big ( \frac{p(x, y)}{p(x) p(y) } \Big ) \\ & = - \sum_{x \in X} p(x) \log p(x) - \sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(y) + \sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(x, y) \\ & = H(X) - \sum_{y \in Y} p(y) \log p(y) - [- \sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(x, y)] \\ & = H(X) - H(X, Y) + H(Y) \\ & = H(X) + H(Y) - H(X, Y). \end{aligned} I(X;Y)=xXyYp(x,y)log(p(x)p(y)p(x,y))=xXp(x)logp(x)xXyYp(x,y)logp(y)+xXyYp(x,y)logp(x,y)=H(X)yYp(y)logp(y)[xXyYp(x,y)logp(x,y)]=H(X)H(X,Y)+H(Y)=H(X)+H(Y)H(X,Y).


5. 条件互信息

假设 Z Z Z 是已知的,在知道 Z Z Z 的情况下, X X X Y Y Y 的互信息称为条件互信息,定义为:

I ( X ; Y ∣ Z ) = ∑ z ∈ Z ∑ y ∈ Y ∑ x ∈ X p ( x , y , z ) log ⁡ p ( z ) p ( x , y , z ) p ( x , z ) p ( y , z ) (5) I(X; Y|Z) = \sum_{z \in Z} \sum_{y \in Y} \sum_{x \in X} p(x, y, z) \log \frac{p(z) p(x, y, z)}{p(x, z) p(y, z) } \tag{5} I(X;YZ)=zZyYxXp(x,y,z)logp(x,z)p(y,z)p(z)p(x,y,z)(5)

实际上,有推导公式:

I ( X ; Y ∣ Z ) = I ( X ; Y , Z ) − I ( X ; Z ) I(X; Y|Z) = I(X; Y, Z) - I(X; Z) I(X;YZ)=I(X;Y,Z)I(X;Z)



6. 参考文章

  1. 信息熵及其相关概念
  2. Lin Y, Hu Q, Liu J, et al. Multi-label feature selection based on max-dependency and min-redundancy[J]. Neurocomputing, 2015, 168: 92-103.
  3. 机器学习特征选择之卡方检验与互信息
  4. Conditional mutual information 条件互信息

猜你喜欢

转载自blog.csdn.net/PursueLuo/article/details/95901019