A teoria da informação e estatística matemática - fundação de aprendizagem de máquina

Primeiro, a teoria da informação

A teoria da informação lida com a incerteza do mundo objetivo.
A questão básica nas comunicações é de aproximadamente ou exatamente o dobro de outro ponto selecionado na mensagem agora.
Na vida, o portador de informação é a mensagem. Informações diferentes mensagens trazidas a sensação intuitiva não é exatamente o mesmo, como "Ma obter Orsay campeão de fisiculturismo" do que "ficar Orsay Schwarzenegger campeão de fisiculturismo" de informações é muito maior.
Porque o primeiro é um pequeno evento de probabilidade, que estamos acostumados. Quanto maior a quantidade de informação maior a incerteza da mensagem fornecido.

entropia

Um sistema de desorganização interna

fonte

Gerando uma mensagem (sinal), e a fonte da sequência de mensagem de mensagens consecutivas.

informações

Medida da quantidade de informação
na teoria da informação, se a probabilidade da ocorrência do evento A \ (o p- (A) \) , a quantidade de informação a partir deste evento é definido como
\ (h (A) = -
log_2p (A) \) Por exemplo: Quando \ (P (a \) ) para se obter informação sobre 1/1000 10, quando o \ (P (a) \) é a quantidade de informação obtida sobre uma meia

entropia

A entropia é um valor médio estatístico de informações a partir de cada símbolo de fonte podem ser emitidos com o espaço de probabilidade consistindo de fonte.
A entropia da informação de fonte a partir de único evento pode compreender o cálculo de cada símbolo
se uma informação de fonte discreta X compreende n símbolos de cada símbolo, \ (\) a_i valores para o \ (P (a_i) \) , a fonte de X-entropia
\ (H (X) = - \ sum_ {i = 1} ^ np (a_i) log_2p (a_i) \)

entropia condicional

No conceito da teoria da probabilidade condicional, probabilidade condicional será estendido a teoria da informação, você pode obter entropia condicional.
Se a correlação entre duas fonte de canal, sob condições conhecidas na qual uma fonte de X, a outra fonte será reduzida entropia.
entropia condicional \ (H (Y | X) \) representa a variável aleatória é conhecido \ (X \) sob as condições de, outra variável aleatória \ (o Y \) incerteza é dada \ ( X- \) quando, de acordo com a \ (o Y \) probabilidade condicional calculada entropia novamente \ (X \) encontrar expectativa matemática

$ H (Y | X) = \ sum_ {i = 1} ^ np (x_i) H (Y | X = x_i) $

\ (= - \ sum_ {i = 1} ^ np (x_i) \ sum_ {j = 1} ^ pf (y_i | x_i) log_2p (y_i | x_i) \)

\ (= - \ sum_ {i = 1} ^ n \ sum_ {j = 1} ^ np (x_i, y_i) log_2p (y_j | x_i) \)

O que significa que a variável de entropia condicional de acordo com \ (X \) valores da variável Y em uma árvore, a entropia calculado para cada sub-tipo-para indivíduo, em seguida, a entropia de cada classe como \ (X- \) computação distribuída expectativa matemática.

ganho de informação

Na aprendizagem de máquina, ganho de informação descreve uma característica de trazer a quantidade de informação, muitas vezes na classificação seleção de recurso, também conhecido como informação mútua

信息增益=信息熵-条件熵

Assumindo que há uma variável aleatória \ (o X \) , e outra variável aleatória \ (o Y \) , e que a sua informação é ganho

\ (I (X; Y) = H (Y) -H (Y | X) \)

X para Y pode ser entendida como trazendo ganho de informação.
Para um determinado conjunto de dados de treino \ (o Y \) , \ (H (o Y) \) indica quando não recebem qualquer característica do conjunto de treino de classificação incerteza
\ (H (Y | X) \) denotam o uso de característica \ (X \) para o conjunto de treinamento \ (Y \) classificação de incerteza.
ganho de informação representa a característica \ (X \) para trazer o conjunto de treinamento \ (Y \) incerteza classificação o grau de redução, isto é, em que \ (X \) para o conjunto de treino \ (o Y \) diferenciabilidade.

rácio de ganho de informação

valor ganho de informação depende muito do conjunto de dados informações entropia \ (H (o Y) \) , e, portanto, não tem sentido absoluto. rácio de ganho de informação para resolver este problema, os pesquisadores propuseram

\ (G (X, Y) = I (X; Y) / H (Y) \)

entropia relativa

Também conhecida como a entropia KL divergência relativa, para descrever a diferença entre duas distribuições de probabilidades diferentes.

\ (D_ {KL} (P || Q) = \ sum_ {i = 1} ^ np (x_i) log_2 \ frac {p (x_i)} {q (x_i)} \)

É utilizado para medir com base entropia relativa \ (P \) codificada a partir da codificado \ (Q \) número adicional de bits de amostra necessário a mia.

Princípio da Máxima Entropia

Quando apenas parte do conhecimento para dominar a distribuição desconhecida, devem ser selecionados de acordo com esse conhecimento, mas a maior distribuição de probabilidade entropia.
O princípio de entropia máxima é a essência do conhecimento para atender a premissa conhecida, a única forma de distribuição final em nome de um da opção mais justo para distribuição desconhecida deve ser seu mais inseguro ou mais distribuição aleatória uma vez.

A teoria da informação usa o conceito de "entropia da informação", o número ea eficiência da transferência de informações e outras questões para fazer a interpretação da informação e comunicação em uma única fonte e escalabilidade entre incerteza e informação do mundo erguido um ponte

Em segundo lugar, as estatísticas matemáticas

Matemática Estatística (estatística matemática) missão é baseada em uma amostra pode ser observada, por sua vez inferir a natureza global das
ferramentas inferidas 统计量, as estatísticas são 样本的函数, é uma 随机变量
estatística matemática para estudar com base em observações ou dados obtidos fenômeno experimentalmente aleatória, e o estudo do objetivo lei para fazer estimativas e julgamentos razoáveis.
teoria estatística com base na aprendizagem de máquina algoritmos ajuda e explica os resultados de mineração de dados, única explicação razoável, para ser capaz de refletir o valor dos dados.

Generalização: a capacidade de não pertence ao modelo usado para testar um novo conjunto de amostras. A capacidade de generalização mais forte, melhor aluno

A diferença entre a teoria das probabilidades

Em teoria da probabilidade de encontrar um ponto, estatística matemática é um empurrão locais geral

  • Na premissa de que a distribuição de probabilidade é conhecido papel de variáveis ​​aleatórias, para analisar as características e as leis de variáveis ​​aleatórias com base na distribuição conhecida;
  • assuntos estatísticas é uma variável aleatória distribuídos desconhecida, a investigação é a observação de variáveis aleatórias independentes repetidas, para extrapolar a distribuição original da observação obtida.
    Estatística Matemática pode ser visto como um reverso da teoria da probabilidade, mais inclinado a metodologia de estudo a partir de uma perspectiva teórica, e depois explorar como aplicar

Por exemplo, para comprar bilhetes de loteria

  • A solução é baseada na teoria da probabilidade conhecida 摇奖规律da possibilidade de determinar um número de notas vencedoras
  • estatística matemática para resolver é repetidamente ganhar / não ganhar números registados em conformidade com a certeza da precisão de especulação antes 摇奖的规律, embora possa ser inútil.

Inferência Estatística forma: Parâmetro Estimativa

estimativa de parâmetros para estimar os parâmetros desconhecidos da distribuição geral de amostras aleatórias colhidas, incluindo ponto e estimativa intervalo
* Ponto de estimativa (ponto estimativa)
métodos específicos incluem monent (método de monents) e o método da máxima probabilidade de estimativa (estimativa de máxima verosimilhança )
ambos os métodos de representar idéias Inferir parâmetros populacionais, mas para os mesmos parâmetros, o montante estimado obtido por diferentes métodos de estimação são provavelmente diferentes, geralmente é imparcial, eficácia, consistência avaliada
intervalo * estimar (intervalo de estimação)
intervalo estimativa gama correspondente para proporcionar ainda mais a margem de erro e o ponto estimado com base no

maneira inferência estatística: teste de hipótese

Para aceitar ou rejeitar um julgamento global sobre amostras aleatórias colhidas

Assumindo que o papel da detecção é inferida de acordo com a força da sua generalização em aprender desempenho no conjunto de teste, e para determinar o grau exacto de conclusões podem ser ainda mais generalizado para comparar o desempenho do filtro de aprendizagem diferente.

erro de configuração pode ser generalizada em três partes:

  • Desvio (bias)
    o grau de desvio entre algoritmo predito e os resultados reais, um retrato da minha modelo underfitting
  • Variância (variância)
    perturbação está previsto para representar dados sobre as características de um retrato do modelo ao longo de ajuste de desempenho
  • Noise (ruído)
    representa a corrente para alcançar as tarefas de aprendizagem mínimo de erro generalização, um retrato da dificuldade da tarefa em si

Acho que você gosta

Origin www.cnblogs.com/chenqionghe/p/12575525.html
Recomendado
Clasificación