Resumo de todas as notas: Livro de flores de "Aprendizado profundo" - Resumo das notas de leitura
Download gratuito do PDF "Deep Learning" : "Deep Learning"
1. Probabilidade
Está diretamente relacionada com a frequência de ocorrência do evento e é chamada de probabilidade frequentista, quando se
trata do nível de certeza é chamada de probabilidade bayesiana.
Em segundo lugar, variáveis aleatórias
Variáveis aleatórias podem ser discretas ou contínuas.
Três, distribuição de probabilidade
É usado para descrever a probabilidade de uma variável aleatória ou um grupo de variáveis aleatórias em cada estado possível. A maneira como descrevemos a distribuição de probabilidade depende se a variável aleatória é discreta ou contínua.
A distribuição de probabilidade de uma variável discreta pode ser descrita por uma função de massa de probabilidade ; quando o objeto de nossa pesquisa é uma variável aleatória contínua, usamos uma função de densidade de probabilidade para descrever sua distribuição de probabilidade.
Quarto, probabilidade marginal
Conhecemos a distribuição de probabilidade conjunta de um conjunto de variáveis, mas queremos saber a distribuição de probabilidade de um subconjunto delas. Tal probabilidade é definida em um subconjunto da distribuição chamada de distribuições de probabilidade marginal (distribuição de probabilidade marginal).
5. Probabilidade condicional
Em muitos casos, estamos interessados em um determinado evento, dada a probabilidade de ocorrência de outros eventos, essa probabilidade é chamada de probabilidade condicional .
6. A regra da cadeia de probabilidade condicional
P (a, b, c) = P (a ∣ b, c) P (b, c) = P (a ∣ b, c) P (b ∣ c) P (c) P (a, b, c) = P (a | b, c) P (b, c) = P (a | b, c) P (b | c) P (c) P ( a ,b ,c )=P ( a ∣ b ,c ) P ( b ,c )=P ( a ∣ b ,c ) P ( b ∣ c ) P ( c )
Sete, independência e independência condicional
Duas variáveis aleatórias xxx和yyy , se sua distribuição de probabilidade pode ser expressa como o produto de dois fatores, e um fator contém apenasxxO outro fator de x contém apenasyyy , chamamos essas duas variáveis aleatórias independentes uma da outra.
x ⊥ yx \ bot yx ⊥ y
se cerca dexxx和yyA distribuição de probabilidade condicional de y é parazzCada valor de z pode ser escrito como um produto, então essas duas variáveis aleatóriasxxx和yyy em uma determinada variável aleatóriazzz é condicionalmente independente. x ⊥ y ∣ zx \ bot y | zx ⊥ y ∣ z
8. Expectativa, variância e covariância
A covariância (covariância) em certo sentido dá a força da correlação linear entre duas variáveis e a escala dessas variáveis: C ov (f (x), g (y)) = E [(f (x) - E [f ( x)]) (g (y) - E [g (y)])] Cov (f (x), g (y)) = E [(f (x) -E [f (x)]) (g (y) -E [g (y)])]C o v ( f ( x ) ,g ( y ) )=E [ ( f ( x )-E [ f ( x ) ] ) ( g ( y )-E [ g ( y ) ] ) ]
Nove, distribuição de probabilidade comumente usada
- Distribuição Bernoulli
- Distribuição Multinoulli (distribuição multinoulli) ou distribuição categórica
- Distribuição normal ou distribuição gaussiana
- Distribuição exponencial
- Laplace 分布 (Distribuição de Laplace)
- Distribuição de Dirac ou distribuição empírica
- Distribuição da mistura (modelo de mistura gaussiana GMM)
10. Propriedades úteis de funções comumente usadas
função sigmóide logística: σ (x) = 1 1 + exp (- x) \ sigma (x) = \ frac1 {1+ \ exp (-x)}σ ( x )=1+exp ( - x )1
função softplus: ζ (x) = log (1 + exp (x)) \ zeta (x) = \ log (1+ \ exp (x))ζ ( x )=lo g ( 1+exp ( x ) )
Algumas propriedades comuns:
Onze, regra bayesiana
P (x ∣ y) = P (x) P (y ∣ x) P (y) P (x | y) = \ frac {P (x) P (y | x)} {P (y)} P ( x ∣ y )=P ( y )P ( x ) P ( Y | x )
12. Detalhes técnicos de variáveis contínuas
13. Teoria da Informação
A principal pesquisa é quantificar quanta informação um sinal contém.
Usamos a divergência de Kullback-Leibler (KL) para medir a diferença entre duas distribuições: DKL (P ∣ ∣ Q) = E x ∼ P [log P (x) Q (x)] = E x ∼ P [log P (x) - log Q (x)] D_ {KL} (P || Q) = E_ {x \ sim P} \ Big [\ log \ frac {P (x)} {Q (x)} \ Big ] = E_ {x \ sim P} \ Grande [\ log {P (x)} - \ log {Q (x)} \ Grande]DK L( P ∣ ∣ Q )=Ex ~ P[lo gQ ( x )P ( x )]=Ex ~ P[lo gP ( x )-lo gQ ( x ) ]
A divergência de KL tem muitas propriedades úteis, a mais importante das quais é que não é negativa. Divergência KL é 0 se e somente se PPP eQQQ é a mesma distribuição no caso de variáveis discretas, ou `` quase em todo lugar '' a mesma no caso de variáveis contínuas.
14. Modelo de probabilidade estruturado
Existem dois tipos principais de modelos de probabilidade estruturados: direcionados e não direcionados. Direcionado ou não direcionado não é uma característica de uma distribuição de probabilidade; é uma característica de uma descrição especial de uma distribuição de probabilidade, e qualquer distribuição de probabilidade pode ser descrita dessas duas maneiras.
O portal do próximo capítulo: Huashu lendo notas (3) - cálculo numérico