Resumen de todas las notas: Libro de flores de "aprendizaje profundo" - Resumen de notas de lectura
Descarga gratuita de PDF de "Deep Learning" : "Deep Learning"
1. Probabilidad
Está directamente relacionado con la frecuencia de ocurrencia de eventos y se llama probabilidad frecuentista; cuando se
trata del nivel de certeza, se llama probabilidad bayesiana.
Segundo, variables aleatorias
Las variables aleatorias pueden ser discretas o continuas.
Tres, distribución de probabilidad
Se utiliza para describir la probabilidad de una variable aleatoria o un grupo de variables aleatorias en cada estado posible. La forma en que describimos la distribución de probabilidad depende de si la variable aleatoria es discreta o continua.
La distribución de probabilidad de una variable discreta se puede describir mediante una función de masa de probabilidad ; cuando el objeto de nuestra investigación es una variable aleatoria continua, usamos una función de densidad de probabilidad para describir su distribución de probabilidad.
Cuarto, probabilidad marginal
Conocemos la distribución de probabilidad conjunta de un conjunto de variables, pero queremos conocer la distribución de probabilidad de un subconjunto de ellas. Dicha probabilidad se define en un subconjunto de la distribución que se llama distribuciones de probabilidad marginal (distribución de probabilidad marginal).
5. Probabilidad condicional
En muchos casos, estamos interesados en un evento determinado, dada la probabilidad de que ocurran otros eventos, esta probabilidad se llama probabilidad condicional .
6. La regla de la cadena de probabilidad condicional
P (una, segundo, c) = P (una ∣ segundo, c) P (segundo, c) = P (una ∣ segundo, c) P (segundo ∣ c) P (c) P (a, segundo, c) = P (una | segundo, c) P (segundo, c) = P (una | segundo, c) P (segundo | c) P (c) P ( a ,b ,c )=P ( a ∣ b ,c ) P ( b ,c )=P ( a ∣ b ,c ) P ( b ∣ c ) P ( c )
Siete, independencia e independencia condicional
Dos variables aleatorias xxx和 y y y , si su distribución de probabilidad se puede expresar como el producto de dos factores, y un factor solo contienexxEl otro factor de x solo contieneyyy , llamamos a estas dos variables aleatorias independientes entre sí.
x ⊥ yx \ bot yx ⊥ y
si alrededor dexxx和 y y La distribución de probabilidad condicional de y es parazzCada valor de z se puede escribir como un producto, luego estas dos variables aleatoriasxxx和 y y y en una variable aleatoria dadazzz es condicionalmente independiente. x ⊥ y ∣ zx \ bot y | zx ⊥ y ∣ z
8. Expectativa, varianza y covarianza
La covarianza (covarianza) en cierto sentido da la fuerza de la correlación lineal entre dos variables y la escala de estas variables: C ov (f (x), g (y)) = E [(f (x) - E [f ( x)]) (g (y) - E [g (y)])] Cov (f (x), g (y)) = E [(f (x) -E [f (x)]) (g (y) -E [g (y)])]C o v ( f ( x ) ,g ( y ) )=E [ ( f ( x )-E [ f ( x ) ] ) ( g ( y )-E[g(y)])]
Nueve, distribución de probabilidad de uso común
- Distribución de Bernoulli
- Distribución multinoulli (distribución multinoulli) o distribución categórica
- Distribución normal o distribución gaussiana
- Distribución exponencial
- Laplace 分布 (Distribución de Laplace)
- Distribución de Dirac o distribución empírica
- Distribución de la mezcla (modelo de mezcla gaussiana GMM)
10. Propiedades útiles de funciones de uso común
función sigmoidea logística: σ (x) = 1 1 + exp (- x) \ sigma (x) = \ frac1 {1+ \ exp (-x)}σ ( x )=1+exp ( - x )1
función softplus: ζ (x) = log (1 + exp (x)) \ zeta (x) = \ log (1+ \ exp (x))ζ ( x )=lo g ( 1+exp ( x ) )
Algunas propiedades comunes:
Once, regla bayesiana
P (x ∣ y) = P (x) P (y ∣ x) P (y) P (x | y) = \ frac {P (x) P (y | x)} {P (y)} P ( x ∣ y )=P ( y )P ( x ) P ( Y | x )
12. Detalles técnicos de las variables continuas
13. Teoría de la información
La principal investigación consiste en cuantificar cuánta información contiene una señal.
Usamos la divergencia de Kullback-Leibler (KL) para medir la diferencia entre dos distribuciones: DKL (P ∣ ∣ Q) = E x ∼ P [log P (x) Q (x)] = E x ∼ P [log P (x) - log Q (x)] D_ {KL} (P || Q) = E_ {x \ sim P} \ Big [\ log \ frac {P (x)} {Q (x)} \ Big ] = E_ {x \ sim P} \ Big [\ log {P (x)} - \ log {Q (x)} \ Big]reK L( P ∣ ∣ Q )=mix ~ P[lo gQ ( x )P ( x )]=mix ~ P[lo gP ( x )-lo gQ ( x ) ]
La divergencia KL tiene muchas propiedades útiles, la más importante de las cuales es que no es negativa. La divergencia de KL es 0 si y solo si PPP yQQQ es la misma distribución en el caso de variables discretas, o `` casi en todas partes '' la misma en el caso de variables continuas.
14. Modelo de probabilidad estructurado
Hay dos tipos principales de modelos de probabilidad estructurados: dirigidos y no dirigidos. Dirigida o no dirigida no es una característica de una distribución de probabilidad; es una característica de una descripción especial de una distribución de probabilidad, y cualquier distribución de probabilidad puede describirse de estas dos formas.
El portal del próximo capítulo: notas de lectura de Huashu (3) -cálculo numérico