Huashu Reading Notes (2) -Probabilidade e Teoria da Informação

Resumo de todas as notas: Livro de flores de "Aprendizado profundo" - Resumo das notas de leitura

Download gratuito do PDF "Deep Learning" : "Deep Learning"

1. Probabilidade

Está diretamente relacionada com a frequência de ocorrência do evento e é chamada de probabilidade frequentista, quando se
trata do nível de certeza é chamada de probabilidade bayesiana.

Em segundo lugar, variáveis ​​aleatórias

Variáveis ​​aleatórias podem ser discretas ou contínuas.

Três, distribuição de probabilidade

É usado para descrever a probabilidade de uma variável aleatória ou um grupo de variáveis ​​aleatórias em cada estado possível. A maneira como descrevemos a distribuição de probabilidade depende se a variável aleatória é discreta ou contínua.

A distribuição de probabilidade de uma variável discreta pode ser descrita por uma função de massa de probabilidade ; quando o objeto de nossa pesquisa é uma variável aleatória contínua, usamos uma função de densidade de probabilidade para descrever sua distribuição de probabilidade.

Quarto, probabilidade marginal

Conhecemos a distribuição de probabilidade conjunta de um conjunto de variáveis, mas queremos saber a distribuição de probabilidade de um subconjunto delas. Tal probabilidade é definida em um subconjunto da distribuição chamada de distribuições de probabilidade marginal (distribuição de probabilidade marginal).

5. Probabilidade condicional

Em muitos casos, estamos interessados ​​em um determinado evento, dada a probabilidade de ocorrência de outros eventos, essa probabilidade é chamada de probabilidade condicional .

6. A regra da cadeia de probabilidade condicional

P (a, b, c) = P (a ∣ b, c) P (b, c) = P (a ∣ b, c) P (b ∣ c) P (c) P (a, b, c) = P (a | b, c) P (b, c) = P (a | b, c) P (b | c) P (c) P ( a ,b ,c )=P ( a b ,c ) P ( b ,c )=P ( a b ,c ) P ( b c ) P ( c )

Sete, independência e independência condicional

Duas variáveis ​​aleatórias xxxyyy , se sua distribuição de probabilidade pode ser expressa como o produto de dois fatores, e um fator contém apenasxxO outro fator de x contém apenasyyy , chamamos essas duas variáveis ​​aleatórias independentes uma da outra.
x ⊥ yx \ bot yx y
se cerca dexxxyyA distribuição de probabilidade condicional de y é parazzCada valor de z pode ser escrito como um produto, então essas duas variáveis ​​aleatóriasxxxyyy em uma determinada variável aleatóriazzz é condicionalmente independente. x ⊥ y ∣ zx \ bot y | zx y z

8. Expectativa, variância e covariância

A covariância (covariância) em certo sentido dá a força da correlação linear entre duas variáveis ​​e a escala dessas variáveis: C ov (f (x), g (y)) = E [(f (x) - E [f ( x)]) (g (y) - E [g (y)])] Cov (f (x), g (y)) = E [(f (x) -E [f (x)]) (g (y) -E [g (y)])]C o v ( f ( x ) ,g ( y ) )=E [ ( f ( x )-E [ f ( x ) ] ) ( g ( y )-E [ g ( y ) ] ) ]

Nove, distribuição de probabilidade comumente usada

  1. Distribuição Bernoulli
  2. Distribuição Multinoulli (distribuição multinoulli) ou distribuição categórica
  3. Distribuição normal ou distribuição gaussiana
  4. Distribuição exponencial
  5. Laplace 分布 (Distribuição de Laplace)
  6. Distribuição de Dirac ou distribuição empírica
  7. Distribuição da mistura (modelo de mistura gaussiana GMM)

10. Propriedades úteis de funções comumente usadas

função sigmóide logística: σ (x) = 1 1 + exp ⁡ (- x) \ sigma (x) = \ frac1 {1+ \ exp (-x)}σ ( x )=1+exp ( - x )1

função softplus: ζ (x) = log ⁡ (1 + exp ⁡ (x)) \ zeta (x) = \ log (1+ \ exp (x))ζ ( x )=lo g ( 1+exp ( x ) )

Algumas propriedades comuns:
Insira a descrição da imagem aqui

Onze, regra bayesiana

P (x ∣ y) = P (x) P (y ∣ x) P (y) P (x | y) = \ frac {P (x) P (y | x)} {P (y)} P ( x y )=P ( y )P ( x ) P ( Y | x )

12. Detalhes técnicos de variáveis ​​contínuas

13. Teoria da Informação

A principal pesquisa é quantificar quanta informação um sinal contém.

Usamos a divergência de Kullback-Leibler (KL) para medir a diferença entre duas distribuições: DKL (P ∣ ∣ Q) = E x ∼ P [log ⁡ P (x) Q (x)] = E x ∼ P [log ⁡ P (x) - log ⁡ Q (x)] D_ {KL} (P || Q) = E_ {x \ sim P} \ Big [\ log \ frac {P (x)} {Q (x)} \ Big ] = E_ {x \ sim P} \ Grande [\ log {P (x)} - \ log {Q (x)} \ Grande]DK L( P Q )=Ex ~ P[lo gQ ( x )P ( x )]=Ex ~ P[lo gP ( x )-lo gQ ( x ) ]

A divergência de KL tem muitas propriedades úteis, a mais importante das quais é que não é negativa. Divergência KL é 0 se e somente se PPP eQQQ é a mesma distribuição no caso de variáveis ​​discretas, ou `` quase em todo lugar '' a mesma no caso de variáveis ​​contínuas.

14. Modelo de probabilidade estruturado

Existem dois tipos principais de modelos de probabilidade estruturados: direcionados e não direcionados. Direcionado ou não direcionado não é uma característica de uma distribuição de probabilidade; é uma característica de uma descrição especial de uma distribuição de probabilidade, e qualquer distribuição de probabilidade pode ser descrita dessas duas maneiras.

O portal do próximo capítulo: Huashu lendo notas (3) - cálculo numérico

Acho que você gosta

Origin blog.csdn.net/qq_41485273/article/details/112706884
Recomendado
Clasificación