Notas de lectura de Huashu (2) -Teoría de la información y la probabilidad

Resumen de todas las notas: Libro de flores de "aprendizaje profundo" - Resumen de notas de lectura

Descarga gratuita de PDF de "Deep Learning" : "Deep Learning"

1. Probabilidad

Está directamente relacionado con la frecuencia de ocurrencia de eventos y se llama probabilidad frecuentista; cuando se
trata del nivel de certeza, se llama probabilidad bayesiana.

Segundo, variables aleatorias

Las variables aleatorias pueden ser discretas o continuas.

Tres, distribución de probabilidad

Se utiliza para describir la probabilidad de una variable aleatoria o un grupo de variables aleatorias en cada estado posible. La forma en que describimos la distribución de probabilidad depende de si la variable aleatoria es discreta o continua.

La distribución de probabilidad de una variable discreta se puede describir mediante una función de masa de probabilidad ; cuando el objeto de nuestra investigación es una variable aleatoria continua, usamos una función de densidad de probabilidad para describir su distribución de probabilidad.

Cuarto, probabilidad marginal

Conocemos la distribución de probabilidad conjunta de un conjunto de variables, pero queremos conocer la distribución de probabilidad de un subconjunto de ellas. Dicha probabilidad se define en un subconjunto de la distribución que se llama distribuciones de probabilidad marginal (distribución de probabilidad marginal).

5. Probabilidad condicional

En muchos casos, estamos interesados ​​en un evento determinado, dada la probabilidad de que ocurran otros eventos, esta probabilidad se llama probabilidad condicional .

6. La regla de la cadena de probabilidad condicional

P (una, segundo, c) = P (una ∣ segundo, c) P (segundo, c) = P (una ∣ segundo, c) P (segundo ∣ c) P (c) P (a, segundo, c) = P (una | segundo, c) P (segundo, c) = P (una | segundo, c) P (segundo | c) P (c) P ( a ,b ,c )=P ( a b ,c ) P ( b ,c )=P ( a b ,c ) P ( b c ) P ( c )

Siete, independencia e independencia condicional

Dos variables aleatorias xxx y y y , si su distribución de probabilidad se puede expresar como el producto de dos factores, y un factor solo contienexxEl otro factor de x solo contieneyyy , llamamos a estas dos variables aleatorias independientes entre sí.
x ⊥ yx \ bot yx y
si alrededor dexxx y y La distribución de probabilidad condicional de y es parazzCada valor de z se puede escribir como un producto, luego estas dos variables aleatoriasxxx y y y en una variable aleatoria dadazzz es condicionalmente independiente. x ⊥ y ∣ zx \ bot y | zx y z

8. Expectativa, varianza y covarianza

La covarianza (covarianza) en cierto sentido da la fuerza de la correlación lineal entre dos variables y la escala de estas variables: C ov (f (x), g (y)) = E [(f (x) - E [f ( x)]) (g (y) - E [g (y)])] Cov (f (x), g (y)) = E [(f (x) -E [f (x)]) (g (y) -E [g (y)])]C o v ( f ( x ) ,g ( y ) )=E [ ( f ( x )-E [ f ( x ) ] ) ( g ( y )-E[g(y)])]

Nueve, distribución de probabilidad de uso común

  1. Distribución de Bernoulli
  2. Distribución multinoulli (distribución multinoulli) o distribución categórica
  3. Distribución normal o distribución gaussiana
  4. Distribución exponencial
  5. Laplace 分布 (Distribución de Laplace)
  6. Distribución de Dirac o distribución empírica
  7. Distribución de la mezcla (modelo de mezcla gaussiana GMM)

10. Propiedades útiles de funciones de uso común

función sigmoidea logística: σ (x) = 1 1 + exp ⁡ (- x) \ sigma (x) = \ frac1 {1+ \ exp (-x)}σ ( x )=1+exp ( - x )1

función softplus: ζ (x) = log ⁡ (1 + exp ⁡ (x)) \ zeta (x) = \ log (1+ \ exp (x))ζ ( x )=lo g ( 1+exp ( x ) )

Algunas propiedades comunes:
Inserte la descripción de la imagen aquí

Once, regla bayesiana

P (x ∣ y) = P (x) P (y ∣ x) P (y) P (x | y) = \ frac {P (x) P (y | x)} {P (y)} P ( x y )=P ( y )P ( x ) P ( Y | x )

12. Detalles técnicos de las variables continuas

13. Teoría de la información

La principal investigación consiste en cuantificar cuánta información contiene una señal.

Usamos la divergencia de Kullback-Leibler (KL) para medir la diferencia entre dos distribuciones: DKL (P ∣ ∣ Q) = E x ∼ P [log ⁡ P (x) Q (x)] = E x ∼ P [log ⁡ P (x) - log ⁡ Q (x)] D_ {KL} (P || Q) = E_ {x \ sim P} \ Big [\ log \ frac {P (x)} {Q (x)} \ Big ] = E_ {x \ sim P} \ Big [\ log {P (x)} - \ log {Q (x)} \ Big]reK L( P Q )=mix ~ P[lo gQ ( x )P ( x )]=mix ~ P[lo gP ( x )-lo gQ ( x ) ]

La divergencia KL tiene muchas propiedades útiles, la más importante de las cuales es que no es negativa. La divergencia de KL es 0 si y solo si PPP yQQQ es la misma distribución en el caso de variables discretas, o `` casi en todas partes '' la misma en el caso de variables continuas.

14. Modelo de probabilidad estructurado

Hay dos tipos principales de modelos de probabilidad estructurados: dirigidos y no dirigidos. Dirigida o no dirigida no es una característica de una distribución de probabilidad; es una característica de una descripción especial de una distribución de probabilidad, y cualquier distribución de probabilidad puede describirse de estas dos formas.

El portal del próximo capítulo: notas de lectura de Huashu (3) -cálculo numérico

Supongo que te gusta

Origin blog.csdn.net/qq_41485273/article/details/112706884
Recomendado
Clasificación