La base de la teoría de la información en el aprendizaje automático: entropía, entropía condicional, entropía conjunta, entropía relativa, información mutua y sus propiedades

En 1948, "Una teoría matemática de la comunicación" del Dr. Shannon (Teoría matemática de la comunicación) resultó ser la creación de la teoría de la información. Desde entonces, la teoría de la información ha estado brillando en el campo de la comunicación, sentando una teoría sólida para el éxito. de la base de ingeniería de comunicaciones. Sin embargo, la teoría de la información es una teoría universal. Se considera que es la "fuerza interna" del auge actual de la inteligencia artificial y el aprendizaje automático. Esto se debe a que la esencia de la inteligencia artificial es procesar información . Creemos que el algoritmo de la máquina el aprendizaje puede entenderse con el pensamiento de la teoría de la información.

inserte la descripción de la imagen aquí


prefacio

在引入熵的概念之前,我们可以思考这样一个问题:
¿Qué experimento es más incierto, lanzar una moneda con caras pares o lanzar un dado con seis caras?
inserte la descripción de la imagen aquí

En términos generales, sentimos que el experimento de lanzar una moneda al aire tendrá menos incertidumbre, porque después de todo, la moneda tiene solo 2 resultados y el dado tiene 6 resultados , pero por un hecho tan intuitivo, ¿cómo lo cuantificamos para que el número ¿Refleja la relación de tamaño entre las incertidumbres de dos variables aleatorias?

Shannon propuso el concepto de entropía para resolver el problema anterior. Para los eventos aleatorios discretos anteriores, la entropía discreta se puede utilizar para definir su incertidumbre:

La entropía es una medida de la incertidumbre de una variable aleatoria, para una variable aleatoria discreta X ∼ p ( x ) X \sim p(x)Xp ( x ) , su entropía discreta se puede definir como:

H ( X ) = − ∑ X ∈ χ pags ( X ) Iniciar sesión ⁡ pags ( X ) H(X)=-\sum_{x \in \chi} p(x) \log p(x)H ( X )=x xpag ( x )iniciar sesiónpag ( x )

Entre ellos: floritura χ \chiχ se expresa incluyendo todoslos xxConjunto de elementos x , base logarítmica 2.

Lo siguiente utiliza la cuantificación de entropía discreta de Shannon para resolver los dos experimentos que presentamos antes:

Sea una variable aleatoria XXX es el valor de lanzar una moneda justa, donde las caras están representadas por 1 y las cruces están representadas por 0, por lo que hay:

P { X = 0 , 1 } = 1 2 P\{X=0,1\}=\frac{1}{2}P { X=0 ,1 }=21
Nota: Dado que X = 0, X = 1 X=0, X=1X=0 ,X=1 Las probabilidades son todas iguales y se combinan por motivos de disposición ordenada. H ( X ) = − 1 2 × Iniciar sesión ⁡ 1 2 − 1 2 × Iniciar sesión ⁡ 1 2 = 1 H(X)=-\frac{1}{2} \times \log \frac{1}{2}- \frac{1}{2} \times \log \frac{1}{2}=1H ( X )=21×iniciar sesión2121×iniciar sesión21=1

Sea variable aleatoria YYY es el valor de lanzar un dado uniforme de seis caras, dondeY = 1 , 2 , … , 6 Y=1,2, \ldots, 6Y=1 ,2 ,,6 , entonces:
P { Y = 1 , 2 , … , 6 } = 1 6 P\{Y=1,2, \ldots, 6\}=\frac{1}{6}P{ Y=1 ,2 ,,6 }=61

H ( Y ) = 6 × ( − 1 6 log ⁡ 1 6 ) = log ⁡ 6 H(Y)=6 \times\left(-\frac{1}{6} \log \frac{1}{6 }\derecha)=\registro 6H ( Y )=6×( -61iniciar sesión61)=iniciar sesión6En
resumen, tenemos las siguientes conclusiones:
H ( X ) = 1 = log ⁡ 2 < H ( Y ) = log ⁡ 6 H(X)=1=\log 2<H(Y)=\log 6H ( X )=1=iniciar sesión2<H ( Y )=iniciar sesión6
es la variable aleatoriaXXDe hecho, X es más incierto que una variable aleatoriaYYY viene más pequeño, en línea con nuestra intuición.

Para echar un vistazo más de cerca, cuanto mayor es la entropía de una variable aleatoria, mayor es la incertidumbre, en otras palabras, cuanto mayor es la cantidad de información contenida en la variable aleatoria , entonces, ¿cuál es la cantidad de información? La cantidad de información al lanzar una moneda es, cara arriba, cruz arriba, este 2 22 es la cantidad de información; de manera similar, la cantidad de información al tirar los dados es6 66 números diferentes boca arriba, el6 66 es también la cantidad de información. Entonces, desde el punto de vista de la computadora, qué es exactamente la entropía, también podríamos ver
H ( X ) = 1 , H ( Y ) = log ⁡ 6 H(X)=1, H(Y)=\log 6H ( X )=1 ,H ( Y )=iniciar sesión6
en realidad significa que en una computadora, para expresar el resultado de lanzar una moneda, necesitas usar1 bit 1 bit1 bit t , para expresar el resultado de tirar los dados se necesita usarlog 6 bit log6 bitl o g 6 bit t (la representación real se redondea3 bit 3 bit3 bit ), es decir,la entropía es la longitud de codificación de las variables aleatorias en el sentido medio . ¿Por qué dices eso?

De la definición de entropía, sabemos:
H ( X ) = − ∑ x ∈ χ pags ( x ) log ⁡ pags ( x ) = ∑ x ∈ χ pags ( x ) log ⁡ 1 pags ( x ) = E [ log ⁡ 1 p ( X ) ] H(X)=-\sum_{x \in \chi} p(x) \log p(x)=\sum_{x \in \chi} p(x) \log \frac{ 1 }{p(x)}=E\izquierda[\log \frac{1}{p(X)}\derecha]H ( X )=x xpag ( x )iniciar sesiónpag ( x )=x xpag ( x )iniciar sesiónpag ( x )1=mi[ registro _pag ( x )1]

Es decir, la entropía es en realidad la variable aleatoria XXLa función de X log ⁡ 1 p ( X ) \log \frac{1}{p(X)}iniciar sesiónpag ( x )1Expectativas.

Hasta ahora, hemos entendido el significado de la entropía en la teoría de la información y el significado físico en la codificación informática. Finalmente, expliquemos nuevamente, ¿qué es la entropía de un evento inevitable? Debe ser 0, porque el evento inevitable es cierto y no contiene incertidumbre, es decir, el evento inevitable no contiene información.

上面的介绍只是让各位读者基本对熵有了解,接下来我们进入正题

1. Autoinformación, ¿qué es la entropía?

Primero repasemos el concepto de autoinformación. Para el conjunto de eventos X = { x 1 , x 2 … xn } X=\left\{x_{1}, x_{2} \ldots x_{n}\right\}X={ x1,X2Xn} , uno de los eventosxi x_{i}XyoLa probabilidad de ocurrencia es pi p_{i}pagyo, entonces la autoinformación se define como:
I ( xi ) = − log ⁡ pi I\left(x_{i}\right)=-\log p_{i}I( Xyo)=iniciar sesiónpagyo
显然I (xi) ≥ 0 I\left(x_{i}\right) \geq 0I( Xyo)0 , y conpi p_{i}pagyoDisminuir y aumentar. La base aquí se puede elegir arbitrariamente, por conveniencia, tomamos 2 2 uniformemente2. En este momento, la unidad de autoinformación es "bit" (bit bitpoco ) . Pero también medido en Sh, nat, Hart, dependiendo de la base del logaritmo utilizado por la definición.

De acuerdo con el punto de vista de la teoría de la probabilidad, aquí el conjunto de eventos XXDe hecho, X se puede considerar como undominio de eventos en un espacio de probabilidad, por lo que también se pueden definir variables aleatorias en el espacio de probabilidad. Para facilitar la comprensión, esta variable aleatoria se puede registrar comoXXX,而{ x 1 , x 2 … xn } \left\{x_{1}, x_{2} \ldots x_{n}\right\}{ x1,X2Xn} esel conjunto de observaciones de esta variable aleatoria. Para la autoinformación, se puede entender desde múltiples perspectivas:

  • Indica la magnitud de la incertidumbre del evento.
  • Indica la cantidad de información generada por la ocurrencia de un evento. Una vez que ocurre un evento, elimina la incertidumbre y por lo tanto trae información.
  • Indica la cantidad de información requerida para determinar la ocurrencia de un evento.

Por ejemplo, una pequeña castaña: la probabilidad de un tsunami en Tokio es del 0,01 % 0,01 \%0.01% , entonces la autoinformación correspondienteI ( x ) = − log ⁡ p ( x ) = 13.2879 I(x)=-\log p(x)=13.2879yo ( x )=iniciar sesiónpag ( x )=13.2879

inserte la descripción de la imagen aquí

Luego, para cuantificar la incertidumbre de esta variable aleatoria, podemos introducir el concepto de entropía.

1. Definición de entropía

"Información" en la teoría de la información se refiere a "información de probabilidad". Cuanto menor sea la probabilidad de un evento, más información nos puede dar . En la vida, una vez que ocurre un evento de pequeña probabilidad, a menudo nos sorprende, e incluso exclama: "La cantidad de información es demasiado para aceptar por un tiempo", mientras que la ocurrencia de un evento de alta probabilidad está dentro de nuestras expectativas. Este es un reflejo intuitivo de la cantidad de información del evento. Desde un punto de vista cualitativo, cuanto menor sea la probabilidad de un evento, mayor será la incertidumbre y mayor será la cantidad de información que se traerá una vez que ocurra. Los siguientes conceptos se utilizan para analizar cuantitativamente esta incertidumbre.

Entropía : Es una medida de la estabilidad de un sistema. De hecho, es la expectativa o valor medio de toda la información variable en un sistema , también conocida como autoinformación promedio.La definición matemática es la siguiente:

Fórmula (variable discreta):
H ( X ) = ∑ x ∈ XP ( x ) log ⁡ 1 P ( x ) = − ∑ x ∈ XP ( x ) log ⁡ P ( x ) = − E log ⁡ P ( X ) H (X)=\sum_{x \in X} P(x) \log \frac{1}{P(x)}=-\sum_{x \in X} P(x) \log P(x)= -E \log P(X)H ( X )=X Xpag ( x )iniciar sesiónpag ( x )1=X Xpag ( x )iniciar sesiónpag ( x )=miiniciar sesiónP ( X )
puede entender el concepto de entropía desde varias perspectivas:

  • El tamaño de la incertidumbre de la variable aleatoria.
  • La observación de esta variable aleatoria arroja el tamaño de la entropía promedio
  • La cantidad promedio de información requerida para determinar el valor de esta variable aleatoria
  • desorden del sistema

Cuanto más inestable es un sistema, o cuanto mayor es la incertidumbre de los eventos que ocurren, mayor es su entropía.
Tomando una moneda como ejemplo, la probabilidad de cara es , y la probabilidad de cruz es , entonces la entropía de este sistema es
obviamente fácil de obtener, en ese momento, el valor de es el más grande, lo que también confirma que cuanto mayor sea la incertidumbre de la ocurrencia del evento, cuanto mayor sea su entropía, mayor será .

2. Propiedades matemáticas de la entropía

  1. Simetría
    cuando pi p_{i}pagyoAl intercambiar lugares, el valor de entropía no cambia. Esto es en realidad una limitación de la entropía, porque solo considera la distribución de probabilidad general de los eventos, eliminando la particularidad de los individuos.
    Para solucionar esta limitación se propone el concepto de entropía ponderada:
    H w ( X ) = − ∑ i = 1 nwipi log ⁡ pi H_{w}(X)=-\sum_{i=1}^{n} w_ { yo} p_{i} \log p_{i}Hw( X )=yo = 1nwyopagyoiniciar sesiónpagyo
    De esta manera, la importancia de cada evento se puede reflejar a través del peso.
  2. La no negatividad
    obviamente tiene H ( X ) = − ∑ i = 1 npi log ⁡ pi ≥ 0 H(X)=-\sum_{i=1}^{n} p_{i} \log p_{i} \geq 0H ( X )=yo = 1npagyoiniciar sesiónpagyo0 , solo unpi = 1 p_{i}=1pagyo=1 en punto está disponible y así sucesivamente. Esto muestra que la entropía solo puede reducirse a 0 cuando la incertidumbre desaparece por completo.
  3. Escalabilidad
    De hecho, es difícil para nosotros enumerar todos los eventos posibles, porque siempre hay algunos eventos de pequeña probabilidad que son inesperados, y la escalabilidad nos dice que estos eventos de pequeña probabilidad no tienen efecto sobre la entropía.
    lim ⁡ ϵ → 0 H ( pags 1 , pags 2 , ... , pags - ϵ , ϵ ) = H ( pags 1 , pags 2 , ... , pags ) \lim _{\epsilon \rightarrow 0} H\left(p_{ 1}, p_{2}, \ldots, p_{n}-\epsilon, \epsilon\right)=H\left(p_{1}, p_{2}, \ldots, p_{n}\right)ϵ 0límiteH( pag1,pag2,,pagn, _) _=H( pag1,pag2,,pagn)
  4. Aditividad
    Esto refleja la relación entre entropía, entropía condicional y entropía conjunta:
    H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X, Y)=H(X)+H( Y \mid X)H ( X ,Y )=H ( X )+H ( YX )
    Del mismo modo, hay:
    H ( X , Y ) = H ( Y ) + H ( X ∣ Y ) H(X, Y)=H(Y)+H(X \mid Y)H ( X ,Y )=H ( Y )+H ( XY )
    se puede probar mediante la fórmula de probabilidad condicional, que se omite y se deja como ejercicio.
  5. Valor extremo (teorema de la máxima entropía)
    Cuando todos los eventos del conjunto ocurren con la misma probabilidad, la entropía del conjunto alcanza el valor máximo:
    H ( p 1 , p 2 , … , pn ) ≤ H ( 1 n , 1 n , … , 1 n ) = log ⁡ n H\left(p_{1}, p_{2}, \ldots, p_{n}\right) \leq H\left(\frac{1}{n}, \frac{ 1}{ n}, \ldots, \frac{1}{n}\right)=\log nH( pag1,pag2,,pagn)H(norte1,norte1,,norte1)=iniciar sesiónnorte
  6. Convexidad
    La función de entropía es una función convexa.

2. Entropía condicional

1. Autoinformación condicional

En la vida, la ocurrencia de un evento hará que cambie la probabilidad de otro evento. Por ejemplo, el brote de la epidemia en Tianjin ha reducido drásticamente la probabilidad de conferencias fuera de línea en la Universidad de Nankai, y la probabilidad de posponer los exámenes finales ha aumentado rápidamente. Combinado con el concepto de información anterior, es decir, la información dada por la ocurrencia del evento y cambiará la incertidumbre del evento x, y la incertidumbre del evento x en este momento es su autoinformación condicional. Definido matemáticamente como:
I ( x ∣ y ) = − log ⁡ p ( x ∣ y ) I(x \mid y)=-\log p(x \mid y)yo ( xy )=iniciar sesiónpag ( xy )
sigue siendo la castaña en lo anterior, si se ha demostrado que ha ocurrido un terremoto en el fondo marino frente a la costa de Tokio, entonces la probabilidad de un tsunami en Tokio en este momento aumentará al 1 % 1 \%1% , entonces su autoinformación condicionalI ( x ∣ y ) = − log ⁡ p ( x ∣ y ) = 6.6584 I(x \mid y)=-\log p(x \mid y)=6.6584yo ( xy )=iniciar sesiónpag ( xy )=6.6584 , menor queI ( x ) I(x)I ( x ) , su incertidumbre se reduce.

inserte la descripción de la imagen aquí

2. Entropía condicional

Al considerar la relación de incertidumbre entre dos variables aleatorias, es necesario introducir el concepto de entropía condicional. Una variable aleatoria en una situación dada, la entropía del sistema.
H ( Y ∣ X ) = ∑ x ∈ XP ( x ) H ( Y ∣ X = x ) = ∑ x ∈ XP ( x ) [ ∑ y ∈ YP ( y ∣ x ) Iniciar sesión ⁡ 1 PAGS ( y ∣ x ) ] = ∑ x ∈ X ∑ y ∈ YP ( x ) PAGS ( y ∣ x ) Iniciar sesión ⁡ 1 PAGS ( y ∣ x ) = ∑ x ∈ X ∑ y ∈ YP ( x , y ) Iniciar sesión ⁡ 1 PAGS ( y ∣ x ) = − mi Iniciar sesión ⁡ PAGS ( Y ∣ X ) \begin{alineado} H(Y \mid X) & =\sum_{x \in X} P(x) H(Y \mid X=x) \\ & = \sum_{x \in X} P(x)\left[\sum_{y \in Y} P(y \mid x) \log \frac{1}{P(y \mid x)}\right] \ \ & =\sum_{x \in X} \sum_{y \in Y} P(x) P(y \mid x) \log \frac{1}{P(y \mid x)} \\ & = \sum_{x \in X} \sum_{y \in Y} P(x, y) \log \frac{1}{P(y \mid x)} \\ & =-E \log P(Y \ medio X)\end{alineado}H ( Yx )=X XP ( x ) H ( YX=x )=X Xpag ( x ) y yP(yx )iniciar sesiónP(yx )1 =X Xy ypags ( x ) pags ( yx )iniciar sesiónP(yx )1=X Xy yPAG ( X ,y )iniciar sesiónP(yx )1=miiniciar sesiónP(Yx )
No es difícil ver que la entropía condicional es la expectativa de la cantidad de información en el sistema bajo una variable dada.

La entropía condicional también tiene múltiples ángulos de comprensión:

  • La incertidumbre promedio que permanece en la variable aleatoria Y cuando se observa X
  • Después de obtener la observación de X, la cantidad promedio de información que se puede obtener al observar Y
  • Después de obtener la observación de X, piense en la cantidad de información necesaria para determinar Y

3. Entropía conjunta

La entropía conjunta, también conocida como coentropía, tiene un significado similar a la entropía, excepto que se considera que los eventos en dos conjuntos ocurren simultáneamente.
H ( X , Y ) = ∑ X ∈ X ∑ y ∈ YP ( X , y ) Iniciar sesión ⁡ 1 PAGS ( X , y ) = − E Iniciar sesión ⁡ PAGS ( X , Y ) H(X, Y)=\sum_{ x \in X} \sum_{y \in Y} P(x, y) \log \frac{1}{P(x, y)}=-E \log P(X, Y)H ( X ,Y )=X Xy yPAG ( X ,y )iniciar sesiónPAG ( X ,y )1=miiniciar sesiónP ( X ,Y )

4. Entropía diferencial

Todas las discutidas anteriormente son variables aleatorias discretas, pero las variables aleatorias continuas son algo diferentes. Dado que el valor de la variable aleatoria continua es infinito, su incertidumbre también es infinita, para una mejor descripción. Dividimos el 樀 de las variables aleatorias continuas en entropía diferencial y entropía absoluta, donde la entropía diferencial corresponde a la entropía de las variables aleatorias discretas, generalmente denominada entropía.
H C ( X ) = − ∫ − ∞ + ∞ pags ( X ) Iniciar sesión ⁡ pags ( X ) dx H_{c}(X)=-\int_{-\infty}^{+\infty} p(x) \ log p(x) dxHdo( X )=+pag ( x )iniciar sesiónp ( x ) d x
Cabe señalar quela entropía diferencial puede ser negativa, lo que es diferente de la entropía de las variables aleatorias discretas.

5. Entropía relativa

Kullback-Leibler Divergence, es decir K-L散度, es una forma de cuantificar la diferencia entre dos distribuciones de probabilidad P y Q , aka 相对熵. En probabilidad y estadística, a menudo usamos a 更简单的、近似的分布para reemplazar 观察数据o 太复杂的分布. La divergencia KL nos ayuda a medir la cantidad de información que se pierde al usar una distribución para aproximar otra.
DKL ( pags ∥ q ) = ∑ ip ( xi ) ⋅ [ Iniciar sesión ⁡ 1 q ( xi ) − Iniciar sesión ⁡ 1 pags ( xi ) ] = ∑ ip ( xi ) ⋅ Iniciar sesión ⁡ pags ( xi ) q ( xi ) D_{KL }(p \| q)=\sum_{i} p\left(x_{i}\right) \cdot\left[\log \frac{1}{q\left(x_{i}\right)}- \log \frac{1}{p\left(x_{i}\right)}\right]=\sum_{i} p\left(x_{i}\right) \cdot \log \frac{p\left (x_{i}\derecha)}{q\izquierda(x_{i}\derecha)}DK L( pag q )=ipag( Xyo)[ registro _q( Xyo)1iniciar sesiónpag( Xyo)1]=ipag( Xyo)iniciar sesiónq( Xyo)pag( Xyo)
donde es la distribución variable observada, qqq es una distribución de mejor esfuerzo que encontramos. Es una medida asimétrica, aquí esperamos que cuando ocurra una mayor probabilidad, la diferencia entre el valor aproximado y la distribución real de la información tenga un mayor peso.

No negatividad de la divergencia KL
Según la definición de divergencia KL, hay:
KL ( P ∥ Q ) = ∑ i = 1 npi log ⁡ piqi = − EP [ log ⁡ qipi ] KL(P \| Q)=\sum_ { i=1}^{n} p_{i} \log \frac{p_{i}}{q_{i}}=-\mathbb{E}_{P}\left[\log \frac{q_{ yo }}{p_{i}}\derecho]K L ( PAG Q )=yo = 1npagyoiniciar sesiónqyopagyo=mipag[ registro _pagyoqyo]
De acuerdo con la desigualdad de Jensen, se puede probar queKL ( P ∥ Q ) ≥ 0 KL(P \| Q) \geq 0K L ( PAG Q )0 , igual si y solo si las dos distribuciones son iguales. También:H ( PAGS , Q ) ≥ H ( PAGS ) H(P, Q) \geq H(P)H ( P ,q )H ( P ) .
En la entropía cruzada asimétrica
y la divergencia KL, P y Q no son intercambiables, es decir, no satisfacen la definición de "distancia", pero a menudo los usamos para medir dos distribuciones en la práctica y especificar la distribución real como P.

6. Entropía cruzada

Entropía cruzada (cross entropy): También se utiliza para medir la diferencia entre dos distribuciones.
HCE ( pags , q ) = ∑ ip ( xi ) ⋅ log ⁡ 1 q ( xi ) H_{CE}(p, q)=\sum_{i} p\left(x_{i}\right) \cdot \log \frac{1}{q\izquierda(x_{i}\derecha)}HCE( pag ,q )=ipag( Xyo)iniciar sesiónq( Xyo)1
Aparentemente, la entropía cruzada es la primera parte de la entropía relativa, porque generalmente la conocemos, es decir, la segunda parte es una constante. En este momento, la entropía cruzada y la entropía relativa son una relación lineal. Teniendo en cuenta la cantidad de cálculo, generalmente todos utilizar esta parte de la entropía cruzada para hacer. |

JS散度(divergencia de Jensen-Shannon):为了解决相对熵(KL散度不对称的问题),对KL散 度进行变体。 DJS ( p ∥
q ) = = 0.5 ∗ [ DKL ( pags ∥ pags + q 2 ) + DKL ( q ∥ pags + q 2 ) ] = 0.5 ∗ [ ∑ ip ( xi ) ⋅ Iniciar sesión ⁡ 2 pags ( xi ) pags ( xi ) + q ( xi ) + ∑ iq ( xi ) ⋅ Iniciar sesión ⁡ 2 q ( xi ) pags ( xi ) + q ( xi ) ] \begin{alineado} D_{JS}(p \| q) & ==0.5 *\left[D_{KL}\left(p \| \frac{p +q}{2}\right)+D_{KL}\left(q \| \frac{p+q}{2}\right)\right] \\ & =0.5 *\left[\sum_{i} p\left(x_{i}\right) \cdot \log \frac{2 p\left(x_{i}\right)}{p\left(x_{i}\right)+q\left(x_{ i}\right)}+\sum_{i} q\left(x_{i}\right) \cdot \log \frac{2 q\left(x_{i}\right)}{p\left(x_{ i}\right)+q\left(x_{i}\right)}\right] \end{alineado}DJ S( pag q )==0.5[ DK L( pag 2pag+q)+DK L( q 2pag+q) ]=0.5[ipag( Xyo)iniciar sesiónpag( Xyo)+q( Xyo)2p _( Xyo)+iq( Xyo)iniciar sesiónpag( Xyo)+q( Xyo)2 q( Xyo)]

7. Ganancia de información

Ganancia de información: en un conjunto de entrenamiento, se usa para medir una variable AALa influencia de A en él. Por ejemplo, ya sea que la sandía esté madura o no, tiene un 樀. Sin embargo, la incertidumbre del juicio se puede reducir a través de los pedículos y las texturas del melón, y muchas veces la variable que mejor nos permite determinar la madurez del melón es la variable clave.
gramo ( re , UN ) = H ( re ) − H ( re ∣ UN ) = − ∑ PAGS ( re yo ) Iniciar sesión ⁡ PAGS ( re yo ) − ∑ ∣ re yo ∣ ∣ re ∣ H ( re yo ) \begin{ alineado} g(D, A) & =H(D)-H(D \mid A) \\ & =-\sum P\left(D_{i}\right) \log P\left(D_{i} \right)-\sum \frac{\left|D_{i}\right|}{|D|} H\left(D_{i}\right) \end{alineado}g ( re ,un )=alto ( fondo )H ( Dun )=PAG( Dyo)iniciar sesiónPAG( Dyo)re DyoH( Dyo)
Cuando este valor es grande, es decir, no hay cambio en la entropía original, la variable no es una variable clave, por el contrario, la variable clave reducirá en gran medida el 樀 del sistema. Esta métrica se usa a menudo para seleccionar el nodo raíz de un árbol de decisión.

8. Información mutua

1. Información mutua

A partir de la autoinformación condicional, sabemos que existe una conexión inextricable entre los eventos, para caracterizar la cercanía de esta conexión, definimos el concepto de información mutua.
yo ( X ; y ) = ( − Iniciar sesión ⁡ pags ( X ) ) − ( − Iniciar sesión ⁡ pags ( X ∣ y ) ) = Iniciar sesión ⁡ pags ( X ∣ y ) pags ( X ) = yo ( X ) − yo ( X ∣ y ) I(x ; y)=(-\log p(x))-(-\log p(x \mid y))=\log \frac{p(x \mid y)}{p(x )}=I(x)-I(x \mid y)yo ( x ;y )=( -iniciar sesiónpag ( x ))( -iniciar sesiónpag ( xy ))=iniciar sesiónpag ( x )pag ( xy )=yo ( x )yo ( xy )
en realidad, es decir:

Información mutua = autoinformación - confianza condicional = evento yyy esxxIncertidumbre eliminada por x

En la teoría de la probabilidad y la teoría de la información, la información mutua ( información mutua, denominada MI) o la información de transferencia (transinformación ) de dos variables aleatorias es una medida de la interdependencia entre las variables. A diferencia del coeficiente de correlación, la información mutua no se limita a variables aleatorias de valor real, es más general y determina la distribución conjunta p ( X , Y ) p(X,Y)pag ( X ,Y ) y el producto de la distribución marginal descompuestap ( X ) p ( Y ) p(X)p(Y)El grado de similitud entre p ( X ) yp ( Y ) . La información mutua es una medida de la correlación entre dos conjuntos de eventos.

Formalmente, la información mutua de dos variables aleatorias discretas X e Y se puede definir como:
donde p ( x , y ) p(x,y)pag ( x ,y ) esXXX Y Y La función de distribución de probabilidad conjunta de Y , yp ( x ) p(x)p ( x ) yp ( y ) p(y)p ( y ) son las funciones de distribución de probabilidad marginal de X e Y respectivamente.

yo ( X ; Y ) = ∑ y ∈ Y ∑ X ∈ X pags ( X , y ) Iniciar sesión ⁡ ( pags ( X , y ) pags ( X ) pags ( y ) ) yo(X ; Y)=\sum_{y \in Y} \sum_{x \in X} p(x, y) \log \left(\frac{p(x, y)}{p(x) p(y)}\right)yo ( X ;Y )=y yX Xpag ( x ,y )iniciar sesión(p ( x ) p ( y )pag ( x ,y ))
en el caso de variables aleatorias continuas, la suma se reemplaza por una integral definida doble:
I ( X ; Y ) = ∫ Y ∫ X p ( x , y ) log ⁡ ( p ( x , y ) p ( x ) p ( y ) ) dxdy I(X ; Y)=\int_{Y} \int_{X} p(x, y) \log \left(\frac{p(x, y)}{p(x) p( y)}\right) dxdyyo ( X ;Y )=yXpag ( x ,y )iniciar sesión(p ( x ) p ( y )pag ( x ,y ))d x d y
la información mutua se puede expresar de manera equivalente como
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = H ( X ) + H ( Y ) − H ( X , Y ) = H ( X , Y ) − H ( X ∣ Y ) − H ( Y ∣ X ) \begin{alineado} I(X ; Y) & =H(X)-H (X \mid Y) \\ & =H(Y)-H(Y \mid X) \\ & =H(X)+H(Y)-H(X, Y) \\ & =H(X, Y) -H(X \mid Y)-H(Y \mid X) \end{alineado}yo ( X ;Y )=H ( X )H ( XY )=H ( Y )H ( Yx )=H ( X )+H ( Y )H ( X ,Y )=H ( X ,Y )H ( XY )H ( Yx )
donde H ( X ) H(X)H ( X ) yH(Y)H(Y)H ( Y ) es la entropía marginal,H ( X ∣ Y ) H(X \mid Y)H ( XY) H ( Y ∣ X ) H(Y \mid X) H ( YX ) es condicional, yH ( X , Y ) H(X, Y)H ( X ,Y ) esXXX Y Y La entropía conjunta de Y. Tenga en cuenta que este conjunto de relaciones es similar a las relaciones de unión, diferencia e intersección, usandoVenn VennEl diagrama de V e nn muestra que
inserte la descripción de la imagen aquí
cuando dos variables aleatorias son iguales, la información mutua es mayor, de la siguiente manera:
I ( X ; X ) = H ( X ) − H ( X ∣ X ) = H ( X ) I( X ; X )= H(X)-H(X \mid X)=H(X)yo ( X ;x )=H ( X )H ( Xx )=H ( X )
En el aprendizaje automático, idealmente, cuando la información mutua es la más grande, se puede considerar que la distribución de probabilidad de la variable aleatoria ajustada a partir del conjunto de datos es la misma que la distribución real.

Usando la desigualdad de Jensen sobre la base de la definición de información mutua, podemos probar que I ( X ; Y ) I(X;Y)yo ( X ;Y ) no es negativo, entoncesH ( X ) >= H ( X ∣ Y ) H(X)>=H(X|Y)H ( X )>=H ( X Y ) , aquí damosI ( X ; Y ) = H ( Y ) – H ( Y ∣ X ) I(X;Y) = H(Y) – H(Y|X)yo ( X ;Y )=H ( Y ) Derivación detallada de H ( Y X ) :
yo ( X ; Y ) = ∑ x , yp ( x , y ) Iniciar sesión ⁡ pags ( x , y ) pags ( x ) pags ( y ) = ∑ x , yp ( x , y ) Iniciar sesión ⁡ pags ( x , y ) pags ( x ) − ∑ x , yp ( x , y ) Iniciar sesión ⁡ pags ( y ) = ∑ x , yp ( x ) pags ( y ∣ x ) Iniciar sesión ⁡ pags ( y ∣ x ) − ∑ x , yp ( x , y ) Iniciar sesión ⁡ pags ( y ) = ∑ xp ( x ) ( ∑ yp ( y ∣ x ) Iniciar sesión ⁡ pags ( y ∣ x ) ) − ∑ y Iniciar sesión ⁡ pags ( y ) ( ∑ xp ( x , y ) ) = − ∑ xp ( x ) H ( Y ∣ X = x ) − ∑ y Iniciar sesión ⁡ pags ( y ) pags ( y ) = − H ( Y ∣ X ) + H ( Y ) = H ( Y ) − H ( Y ∣ X ) . \begin{alineado} I(X ; Y) & =\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\ & =\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)}-\sum_{x, y} p(x, y) \log p (y) \\ & =\sum_{x, y} p(x) p(y \mid x) \log p(y \mid x)-\sum_{x, y} p(x, y) \log p(y) \\ & =\sum_{x} p(x)\left(\sum_{y} p(y \mid x) \log p(y \mid x)\right)-\sum_{y} \log p(y)\left(\sum_{x} p(x, y)\right) \\ & =-\sum_{x} p(x) H(Y \mid X=x)-\sum_{y} \log p(y) p(y) \\ & =-H (Y \mid X)+H(Y) \\ & =H(Y)-H(Y \mid X) . \end{alineado}yo ( X ;Y )=x , ypag ( x ,y )iniciar sesiónp ( x ) p ( y )pag ( x ,y )=x , ypag ( x ,y )iniciar sesiónpag ( x )pag ( x ,y )x , ypag ( x ,y )iniciar sesiónp(y)=x , yp ( x ) p ( yx )iniciar sesiónp(yx )x , ypag ( x ,y )iniciar sesiónp(y)=Xpag ( x )(yp(yx )iniciar sesiónp(yx ) )yiniciar sesiónp(y)(Xpag ( x ,y ) )=Xp ( x ) H ( YX=x )yiniciar sesiónp(y)p(y)=H ( Yx )+H ( Y )=H ( Y )H ( YX ) .
Después de la derivación, podemos ver intuitivamente que H ( X ) H(X)H ( X ) se expresa como la variable aleatoria originalXXLa cantidad de información de X ,H ( X ∣ Y ) H(X \mid Y)H ( XY ) por conocer el hechoYYY después deXXLa cantidad de información de X , la información mutuaI ( X ; Y ) I(X ; Y)yo ( X ;Y ) significa conocer el hechoYYDespués de Y , cuánto se reduce la cantidad original de información.

Pongamos un ejemplo para ilustrar el cambio de la incertidumbre del evento:

Supongamos que ahora te doy una moneda y te digo que es par. Por favor, tírala 100 veces y dime el resultado. Después de que la lanzaste 100 veces, el resultado registrado es: 90 caras y 10 cruces, y empiezas a preguntarte "¿Es ¿Esta es realmente una moneda justa?"

De la primera parte de la entropía, sabemos que la entropía de esta moneda debe ser de 1 bit, pero después de tal experimento, ¿sigue siendo la entropía de esta moneda de 1 bit? Podemos suponer que la probabilidad de cara es 0,9 y la probabilidad de cruz es 0,1. Calcula la entropía:
H ( X ∣ X ^ ) = − 0,9 log ⁡ 0,9 − 0,1 log ⁡ 0,1 ≈ 0,469 H(X \mid \ hat{ X})=-0.9 \log 0.9-0.1 \log 0.1 \approx 0.469H ( XX^ )=0,9iniciar sesión0.90.1iniciar sesión0.10.469
dondeH ( X ∣ X ^ ) H(X \mid \hat{X})H ( XX^ )se expresa como la entropía de la moneda original después de saber que han salido 90 caras.
Después de lanzarla 100 veces, sabemos que tal moneda puede ser impar, y la nueva entropía es de 0,469 bits, es decir, después de saber que la cara sale 90 veces y la cruz 10 veces, la entropía de esta moneda se reduce 0,531 bits, la cantidad de información de este 0,531, llamamosinformación mutua.

2. La diferencia entre información mutua y ganancia de información

  • La información mutua describe la cantidad de información de las partes correspondientes de dos subsistemas en el mismo sistema; la
    ganancia de información describe la cantidad de información en diferentes estados del mismo sistema.
  • Se refiere a la cantidad de información cuando se clasifican algunos objetos con diferentes atributos, y evalúa la criticidad de los atributos,
    se refiere al grado de incertidumbre de un evento después de que se conoce un evento.
  • La ganancia de información es una estimación imparcial de la información mutua, por lo que en el proceso de formación del árbol de decisión, los dos son equivalentes.

3. Naturaleza de la información mutua

  1. La reciprocidad (simetría)
    se deriva fácilmente:
    I ( x ; y ) = I ( y ; x ) I(x ; y)=I(y ; x)yo ( x ;y )=yo ( y ;x )
    Esto significa que la cantidad de información que dos cosas pueden proporcionarse entre sí debe ser igual. Esta propiedad muestra que la información mutua se puede utilizar para caracterizar la cercanía de la conexión entre dos eventos.
    Cuando la cantidad de información mutua es positiva, los dos eventos se correlacionan positivamente y se promueven entre sí; cuando la cantidad de información mutua es negativa, los dos eventos se correlacionan negativamente y tienen un efecto inhibidor entre sí; cuando la cantidad de información mutua es 0, los dos eventos no tienen conexión, son independientes.
    Cabe señalar que la información mutua positiva no significa que dos eventos estén relacionados causalmente, y todos pueden ser el "efecto" de una "causa" potencial. Por ejemplo, las conferencias en línea y los exámenes en línea de la Universidad de Nankai obviamente tienen información mutua positiva, pero no existe una relación causal entre ellos, y ambos son "efectos" de la epidemia.
  2. La cantidad de información mutua no es mayor que la cantidad de autoinformación de cualquier evento
    Es fácil entender que la incertidumbre eliminada por la representación de información mutua no puede exceder la incertidumbre del evento mismo. La prueba es la siguiente:
    yo ( x ; y ) = log ⁡ pags ( x ∣ y ) pags ( x ) ≤ log ⁡ 1 pags ( x ) = yo ( x ) yo(x ; y)=\log \frac{ p(x \mid y)}{p(x)} \leq \log \frac{1}{p(x)}=I(x)yo ( x ;y )=iniciar sesiónpag ( x )pag ( xy )iniciar sesiónpag ( x )1=I ( x )
    A partir de esto podemos ver que la autoinformación en realidad puede entenderse como un caso especial de información mutua:I ( x ; x ) = I ( x ) I(x ; x)=I(x)yo ( x ;x )=yo ( x )

Resumir

En aprendizaje automático, la entropía es el grado de caos que caracteriza la distribución de variables aleatorias. Cuanto más caótica es la distribución, mayor es la entropía. Es uno de los parámetros que caracterizan el estado de la materia en física, y también es una medida del grado de caos en el sistema; el significado de la entropía es medir la cantidad de información La gente suele decir que hay mucha información, o que hay poca información, pero es difícil decir cuánta información hay. En este momento, se refleja el significado de la entropía. Arriba presentamos la definición y las propiedades de la entropía. Es ampliamente utilizado en el aprendizaje automático.Por ejemplo, la red neuronal aprende la información de Fisher, mientras que la Generalización está representada por la información de Shannon. La representación computacional del objetivo de aprendizaje se puede describir o explicar mediante la optimización de la función de entropía, etc. En el aprendizaje automático, siempre podemos ver la sombra de la entropía de la información.

以下是本文的参考链接,如有问题,欢迎各位读者批评指正!

Link de referencia

Cubierta, TM y Thomas, JA (2006). Elementos de la teoría de la información, 2ª ed. Hoboken, Nueva Jersey: Wiley. MR2239987

Schervish, MJ (1995). Teoría de la Estadística. Serie Springer en Estadística. Nueva York: Springer. MR1354146

[Teoría de la información] El concepto básico de entropía - Zhihu (zhihu.com)

[Teoría de la información] Autoinformación e información mutua - Zhihu (zhihu.com)

Una muestra de información mutua (1): Conceptos básicos - Zhihu (zhihu.com)

Libro breve: cómo comprender la divergencia KL (entropía relativa) .

Comprensión Zhihu-Popular de la ganancia de información en el algoritmo del árbol de decisión

Zhihu-¿Cuál es la conexión y la diferencia entre la obtención de información y la información mutua?

Fórmula de información mutua y descripción general - OmegaXYZ

Cómo entender la divergencia KL (entropía relativa) - Libro corto (jianshu.com)

[Teoría de la información] Medida de distancia de distribución - Zhihu (zhihu.com)

¿Cuál es la relación entre la teoría de la información y el aprendizaje automático? - Zhihu (zhihu.com)

Supongo que te gusta

Origin blog.csdn.net/weixin_48266700/article/details/129544269
Recomendado
Clasificación