Teoría de la probabilidad | Representación, relación y tamaño entre entropía conjunta, entropía condicional e información mutua

1. Deducir la relación y tamaño entre entropía conjunta, entropía condicional e información mutua

definición relacionada

Entropía Conjunta
Variable Aleatoria XXX Y Y La entropía conjunta H de Y ( X , Y ) H(X,Y)H ( X ,Y )表示二者一起发生时的不确定度:
H ( X , Y ) = ∑ xi ∈ X ∑ yi ∈ Y p ( xi , yi ) I ( xi , yi ) = ∑ xi ∈ X ∑ yi ∈ Y p ( xi , yi ) Iniciar sesión ⁡ 1 pags ( xi , yi ) H(X,Y)=\sum\limits_{x_{i}\in X}\sum\limits_{y_{i}\in Y}p(x_ {i},y_{i})I(x_{i},y_{i})\\ =\sum\limits_{x_{i}\in X}\sum\limits_{y_{i}\in Y} p(x_{i},y_{i})\log\frac{1}{p(x_{i},y_{i})}H ( X ,Y )=Xyo∈X _yyoYpag ( xyo,yyo) yo ( xyo,yyo)=Xyo∈X _yyoYpag ( xyo,yyo)iniciar sesiónpag ( xyo,yyo)1
简记为:
H ( X , Y ) = − ∑ x , yp ( x , y ) log ⁡ ( x , y ) H(X,Y)=-\sum\limits_{x,y}p(x,y )\registro(x,y)H ( X ,Y )=x , ypag ( x ,y )lo g ( x ,y )


Variable aleatoria de entropía condicional XXX Y Y La entropía condicional H de Y ( X ∣ Y ) H(X|Y)H ( X Y ) significaYYDespués de que sucede Y , XXX的不确定度:
H ( X ∣ Y ) = ∑ yj ∈ Y pags ( yj ) H ( X ∣ Y = yj ) = − ∑ yj ∈ Y pags ( yj ) ∑ xi ∈ X pags ( xi ∣ yj ) log ⁡ pags ( xi ∣ yj ) = − ∑ yj ∈ Y ∑ xi ∈ X pags ( yj ) pags ( xi ∣ yj ) Iniciar sesión ⁡ pags ( xi ∣ yj ) = − ∑ xi , yjp ( xi , yj ) logp ( xi ∣ yj ) H(X|Y)=\sum\limits_{y_{j}\in Y}p(y_{j})H(X|Y=y_{j})\\ =-\sum\limits_{y_ {j}\in Y}p(y_{j})\sum\limits_{x_{i}\in X}p(x_{i}|y_{j})\log p(x_{i}|y_{ j})\\ =-\sum\limits_{y_{j}\in Y}\sum\limits_{x_{i}\in X}p(y_{j})p(x_{i}|y_{j })\log p(x_{i}|y_{j})\\ =-\sum\limits_{x_{i},y_{j}}p(x_{i},y_{j})logp(x_ {i}|y_{j})H ( X Y )=yjYp(yj) H ( X Y=yj)=yjYp(yj)Xyo∈X _pag ( xyoyj)iniciar sesiónpag ( xyoyj)=yjYXyo∈X _p(yj) p ( xyoyj)iniciar sesiónpag ( xyoyj)=Xyo, yjpag ( xyo,yj) log p ( x _ _yoyj)
简记为:
H ( X ∣ Y ) = − ∑ x , yp ( x , y ) log ⁡ p ( x ∣ y ) H(X|Y)=-\sum\limits_{x,y}p(x ,y)\log p(x|y)H ( X Y )=x , ypag ( x ,y )iniciar sesiónpags ( x y )


Variable aleatoria de información mutua XXX Y Y Comunicación tipo Y I ( X ; Y ) I(X;Y)yo ( X ;Y ) significaYYDespués de que sucede Y , XXEl grado de reducción de la incertidumbre de X se define como el logaritmo del cociente entre la probabilidad posterior y la probabilidad previa:
I ( xi ; yj ) = log ⁡ p ( xi ∣ yj ) p ( xi ) I(x_{i };y_ {j})=\log \frac{p(x_{i}|y_{j})}{p(x_{i})}yo ( xyo;yj)=iniciar sesiónpag ( xyo)pag ( xyoyj)
简记为:
H ( X ; Y ) = ∑ x , yp ( x , y ) log ⁡ p ( x ∣ y ) p ( x ) H(X;Y)=\sum\limits_{x,y}p( x,y)\log\frac{p(x|y)}{p(x)}H ( X ;Y )=x , ypag ( x ,y )iniciar sesiónpag ( x )p ( x y )

Derivación de relaciones

Relación de entropía conjunta y entropía condicional
H ( X ∣ Y ) = H ( X , Y ) − H ( Y ) H(X|Y)=H(X,Y)-H(Y)H ( X Y )=H ( X ,Y )H ( Y ),其推导过程如下
H ( X ∣ Y ) = − ∑ x , yp ( x , y ) Iniciar sesión ⁡ pags ( x ∣ y ) = − ∑ x , yp ( x , y ) Iniciar sesión ⁡ pags ( x , y ) pags ( y ) = − ∑ x , yp ( x , y ) Iniciar sesión ⁡ pags ( x , y ) + ∑ y ( ∑ xp ( x , y ) ) Iniciar sesión ⁡ pags ( y ) = − ∑ x , yp ( X , y ) Iniciar sesión ⁡ pags ( X , y ) + ∑ yp ( y ) Iniciar sesión ⁡ pags ( y ) = H ( X , Y ) − H ( Y ) H(X|Y)=-\sum\limits_{ x,y}p(x,y)\log p(x|y)\\ =-\sum\limits_{x,y}p(x,y)\log \frac{p(x,y)}{ p(y)}\\ =-\sum\limits_{x,y}p(x,y)\log p(x,y)+\sum\limits_{y}(\sum\limits_{x}p( x,y))\log p(y)\\ =-\sum\limits_{x,y}p(x,y)\log p(x,y)+\sum\limits_{y}p(y) \log p(y)\\ =H(X,Y)-H(Y)H ( X Y )=x , ypag ( x ,y )iniciar sesiónpags ( x y )=x , ypag ( x ,y )iniciar sesiónp(y)pag ( x ,y )=x , ypag ( x ,y )iniciar sesiónpag ( x ,y )+y(Xpag ( x ,y ))iniciar sesiónp(y)=x , ypag ( x ,y )iniciar sesiónpag ( x ,y )+yp(y)iniciar sesiónp(y)=H ( X ,Y )H ( Y )
同理可得:H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X)=H(X,Y)-H(X)H ( Y X )=H ( X ,Y )H ( X )

Información mutua y relación de entropía condicional
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y)=H(X)-H(X|Y)yo ( X ;Y )=H ( X )H ( X Y ),其推导过程如下
Yo ( X ; Y ) = ∑ X , yp ( X , y ) Iniciar sesión ⁡ pags ( X ∣ y ) pags ( x ) = − ∑ xp ( x ) Iniciar sesión ⁡ pags ( x ) + ∑ x , yp ( x , y ) Iniciar sesión ⁡ pags ( x ∣ y ) = H ( X ) − H ( X ∣ Y ) I(X;Y)=\sum\limits_{x,y}p( x,y)\log\frac{p(x|y)}{p(x)}\\ =-\sum\limits_{x}p(x)\log p(x) +\sum\limits_{x ,y}p(x,y)\log p(x|y)\\ =H(X)-H(X|Y)yo ( X ;Y )=x , ypag ( x ,y )iniciar sesiónpag ( x )p ( x y )=Xpag ( x )iniciar sesiónpag ( x )+x , ypag ( x ,y )iniciar sesiónpags ( x y )=H ( X )H ( X Y )
同理可得:I ( Y ; X ) = H ( Y ) − H ( Y ∣ X ) I(Y;X)=H(Y)-H(Y|X)yo ( Y ;x )=H ( Y )H ( Y X )
entropía conjunta y relación de información mutua
De la fórmula (7) (8), se puede obtener que
H ( X ∣ Y ) = H ( X , Y ) − H ( Y ) = H ( X ) − yo ( X ; Y ) H(X|Y)=H(X,Y)-H(Y)\\=H(X)-I(X;Y)H ( X Y )=H ( X ,Y )H ( Y )=H ( X )yo ( X ;Y )

H ( X , Y ) = H ( X ) + H ( Y ) − I ( X ; Y ) H(X,Y)=H(X)+H(Y)-I(X;Y)H ( X ,Y )=H ( X )+H ( Y )yo ( X ;Y )

comparación de tamaño

Para información mutua y entropía condicional, este documento usa un diagrama de Venn para ilustrar su relación de tamaño.
inserte la descripción de la imagen aquí

Entropía conjunta y tamaño de la información mutua
Como se muestra en el diagrama de Venn, la parte sombreada de la figura de la izquierda representa H ( X ) H(X)H ( X ) , la parte sombreada de la figura de la derecha representaH ( Y ) H(Y)H ( Y ),而H ( X ) ∪ H ( Y ) = H ( X , Y ) H(X)\taza H(Y)=H(X,Y)H ( X )H ( Y )=H ( X ,Y )H ( X ) ∩ H ( Y ) = Yo ( X ; Y ) H(X)\cap H(Y)=I(X;Y)H ( X )H ( Y )=yo ( X ;Y ),易得H ( X , Y ) > I ( X ; Y ) H(X,Y)>I(X;Y)H ( X ,Y )>yo ( X ;Y )
entropía conjunta y tamaño de entropía condicional
ConocidoH ( X ∣ Y ) = H ( X , Y ) − H ( Y ) H(X|Y)=H(X,Y)-H(Y)H ( X Y )=H ( X ,Y )H ( Y ) , es decir, el área en blanco en el lado derecho del diagrama de Venn, es fácil obtenerH ( X , Y ) > H ( X ∣ Y ) H(X,Y)>H(X|Y )H ( X ,Y )>H ( X Y ) De manera similar,H ( Y , X ) > H ( Y ∣ X ) H(Y,X)>H(Y|X)H ( Y ,x )>H ( Y X ) La
información mutua y la entropía condicional
no pueden juzgarse debido a condiciones insuficientes.

2. Demostrar que la variable aleatoria continua XXX distancia entre centros de primer ordenα \alphaα y la distancia entre centros de segundo ordenβ \betaBajo qué distribución es la entropía diferencial de β la más grande, y encuentre la función de densidad de probabilidad

Sea X ∼ p ( X ) X\sim p(X)Xp ( X ) es una variable aleatoria continua, entonces el problema de este tema es
max ⁡ p H ( p ) = − ∫ − ∞ + ∞ p ( x ) log ⁡ p ( x ) dx \max\limits_{p} H (p)=-\int_{-\infty}^{+\infty} p(x)\log p(x)dxpagmáximoH ( pag )=+pag ( x )iniciar sesiónp ( x ) re x

st .
F ( x ) = ∫ − ∞ + ∞ pags ( x ) dx = 1 F(x)=\int_{-\infty}^{+\infty} p(x)dx=1F ( x )=+p ( x ) re x=1

mi ( X ) = ∫ − ∞ + ∞ xp ( x ) dx = α E(X)=\int_{-\infty}^{+\infty}xp(x)dx=\alphaE ( X )=+x pags ( x ) re x=a

var ( X ) = ∫ − ∞ + ∞ x 2 p ( x ) dx = β var(X)=\int_{-\infty}^{+\infty}x^{2}p(x)dx=\betavar ( X ) _ _=+X2 p(x)rex=b

Entre ellas, la fórmula (11) es la restricción de regularización de esta pregunta, la fórmula (12) es la restricción de valor medio, la fórmula (13) es la restricción de varianza. Entonces, naturalmente, pensamos en usar el método del multiplicador de Lagrange para resolver:

\paragraph{proof} introduce multiplicadores lagrangianos m , n , γ m,n,\gammam ,n ,γ,由由时间可以可得
L ( pags , metro , norte , γ ) = − ∫ − ∞ + ∞ pags ( x ) iniciar sesión ⁡ pags ( x ) dx + metro ( ∫ − ∞ + ∞ pags ( x ) dx − 1 ) + norte ( ∫ − ∞ + ∞ xp ( X ) dx − α ) + γ ( ∫ − ∞ + ∞ X 2 pags ( X ) dx − β ) L(p,m,n,\gamma)=-\ int_{-\infty}^{+\infty}p(x)\log p(x)dx\\ +m(\int_{-\infty}^{+\infty}p(x)dx-1)\ \ +n(\int_{-\infty}^{+\infty}xp(x)dx-\alpha)\\ +\gamma(\int_{-\infty}^{+\infty}x^{2} p(x)dx-\beta)L ( pag ,m ,n ,c )=+pag ( x )iniciar sesiónp ( x ) re x+ metro ( +p ( x ) re x1 )+ norte ( +x pags ( x ) re xun )+ γ ( +X2 p(x)rexsegundo )

a ppAl tomar la derivada parcial de p y establecerla en 0, se obtiene
∂ L ∂ p = − ∂ ∂ p ( ∫ − ∞ + ∞ p ( x ) log ⁡ p ( x ) − mp ( x ) − nxp ( x ) − γ ( x − α ) 2 p ( x ) ) dx = 0 \frac{\parcial L}{\parcial p}=-\frac{\parcial}{\parcial p}(\int_{-\infty}^{+\ infinito} p(x)\log p(x)-mp(x)-n xp(x)-\gamma(x-\alpha)^{2}p(x))dx=0pag L=pag( +pag ( x )iniciar sesiónpag ( x )metro pag ( x )norte x pag ( x )c ( xun )2 p(x))rex=0

W = pags ( x ) iniciar sesión ⁡ pags ( x ) − mp ( x ) − nxp ( x ) − γ ( x − α ) 2 pags ( x ) W=p(x)\log p(x)-mp( x)-n xp(x)-\gamma(x-\alpha)^{2}p(x)W=pag ( x )iniciar sesiónpag ( x )metro pag ( x )norte x pag ( x )c ( xun )2 p(x), dado que W es el funcional de p(x) y x, existe∂ W ∂ p = 0 \frac{\parcial W}{\parcial p}=0pag W=0,故:
p ( x ) = e − 1 + m + nx + γ x 2 p(x)=e^{-1+m+nx+\gamma x^{2}}pag ( x )=mi1 + metro + norte X + γ X2

De acuerdo con las restricciones (11) y (13), es fácil obtener:
p ( x ) = 1 2 π β e − ( x − α ) 2 2 β p(x)=\frac{1}{\sqrt{ 2 \pi \beta}}e^{-\frac{(x-\alpha)^2}{2\beta}}pag ( x )=2 pag _ 1mi2b _( x - a )2

Por lo tanto, en la variable aleatoria continua XXX distancia entre centros de primer ordenα \alphaα y la distancia entre centros de segundo ordenβ \betaCuando se conoce β , la distribución con mayor entropía diferencial es una distribución normal, y su función de densidad de probabilidad se muestra en la fórmula (17).

Supongo que te gusta

Origin blog.csdn.net/weixin_43427721/article/details/127434206
Recomendado
Clasificación