Primeiro, a teoria da informação

A teoria da informação lida com a incerteza do mundo objetivo.
A questão básica nas comunicações é de aproximadamente ou exatamente o dobro de outro ponto selecionado na mensagem agora.
Na vida, o portador de informação é a mensagem. Informações diferentes mensagens trazidas a sensação intuitiva não é exatamente o mesmo, como "Ma obter Orsay campeão de fisiculturismo" do que "ficar Orsay Schwarzenegger campeão de fisiculturismo" de informações é muito maior.
Porque o primeiro é um pequeno evento de probabilidade, que estamos acostumados. Quanto maior a quantidade de informação maior a incerteza da mensagem fornecido.

entropia

Um sistema de desorganização interna

fonte

Gerando uma mensagem (sinal), e a fonte da sequência de mensagem de mensagens consecutivas.

informações

Medida da quantidade de informação
na teoria da informação, se a probabilidade da ocorrência do evento A \ (o p- (A) \) , a quantidade de informação a partir deste evento é definido como
\ (h (A) = -
log_2p (A) \) Por exemplo: Quando \ (P (a \) ) para se obter informação sobre 1/1000 10, quando o \ (P (a) \) é a quantidade de informação obtida sobre uma meia

entropia

A entropia é um valor médio estatístico de informações a partir de cada símbolo de fonte podem ser emitidos com o espaço de probabilidade consistindo de fonte.
A entropia da informação de fonte a partir de único evento pode compreender o cálculo de cada símbolo
se uma informação de fonte discreta X compreende n símbolos de cada símbolo, \ (\) a_i valores para o \ (P (a_i) \) , a fonte de X-entropia
\ (H (X) = - \ sum_ {i = 1} ^ np (a_i) log_2p (a_i) \)

entropia condicional

No conceito da teoria da probabilidade condicional, probabilidade condicional será estendido a teoria da informação, você pode obter entropia condicional.
Se a correlação entre duas fonte de canal, sob condições conhecidas na qual uma fonte de X, a outra fonte será reduzida entropia.
entropia condicional \ (H (Y | X) \) representa a variável aleatória é conhecido \ (X \) sob as condições de, outra variável aleatória \ (o Y \) incerteza é dada \ ( X- \) quando, de acordo com a \ (o Y \) probabilidade condicional calculada entropia novamente \ (X \) encontrar expectativa matemática

$ H (Y | X) = \ sum_ {i = 1} ^ np (x_i) H (Y | X = x_i) $

\ (= - \ sum_ {i = 1} ^ np (x_i) \ sum_ {j = 1} ^ pf (y_i | x_i) log_2p (y_i | x_i) \)

\ (= - \ sum_ {i = 1} ^ n \ sum_ {j = 1} ^ np (x_i, y_i) log_2p (y_j | x_i) \)

O que significa que a variável de entropia condicional de acordo com \ (X \) valores da variável Y em uma árvore, a entropia calculado para cada sub-tipo-para indivíduo, em seguida, a entropia de cada classe como \ (X- \) computação distribuída expectativa matemática.

ganho de informação

Na aprendizagem de máquina, ganho de informação descreve uma característica de trazer a quantidade de informação, muitas vezes na classificação seleção de recurso, também conhecido como informação mútua

信息增益=信息熵-条件熵

Assumindo que há uma variável aleatória \ (o X \) , e outra variável aleatória \ (o Y \) , e que a sua informação é ganho

\ (I (X; Y) = H (Y) -H (Y | X) \)

X para Y pode ser entendida como trazendo ganho de informação.
Para um determinado conjunto de dados de treino \ (o Y \) , \ (H (o Y) \) indica quando não recebem qualquer característica do conjunto de treino de classificação incerteza
\ (H (Y | X) \) denotam o uso de característica \ (X \) para o conjunto de treinamento \ (Y \) classificação de incerteza.
ganho de informação representa a característica \ (X \) para trazer o conjunto de treinamento \ (Y \) incerteza classificação o grau de redução, isto é, em que \ (X \) para o conjunto de treino \ (o Y \) diferenciabilidade.

rácio de ganho de informação

valor ganho de informação depende muito do conjunto de dados informações entropia \ (H (o Y) \) , e, portanto, não tem sentido absoluto. rácio de ganho de informação para resolver este problema, os pesquisadores propuseram

\ (G (X, Y) = I (X; Y) / H (Y) \)

entropia relativa

Também conhecida como a entropia KL divergência relativa, para descrever a diferença entre duas distribuições de probabilidades diferentes.

\ (D_ {KL} (P || Q) = \ sum_ {i = 1} ^ np (x_i) log_2 \ frac {p (x_i)} {q (x_i)} \)

É utilizado para medir com base entropia relativa \ (P \) codificada a partir da codificado \ (Q \) número adicional de bits de amostra necessário a mia.

Princípio da Máxima Entropia

Quando apenas parte do conhecimento para dominar a distribuição desconhecida, devem ser selecionados de acordo com esse conhecimento, mas a maior distribuição de probabilidade entropia.
O princípio de entropia máxima é a essência do conhecimento para atender a premissa conhecida, a única forma de distribuição final em nome de um da opção mais justo para distribuição desconhecida deve ser seu mais inseguro ou mais distribuição aleatória uma vez.

A teoria da informação usa o conceito de "entropia da informação", o número ea eficiência da transferência de informações e outras questões para fazer a interpretação da informação e comunicação em uma única fonte e escalabilidade entre incerteza e informação do mundo erguido um ponte

Em segundo lugar, as estatísticas matemáticas

Matemática Estatística (estatística matemática) missão é baseada em uma amostra pode ser observada, por sua vez inferir a natureza global das
ferramentas inferidas 统计量, as estatísticas são 样本的函数, é uma 随机变量
estatística matemática para estudar com base em observações ou dados obtidos fenômeno experimentalmente aleatória, e o estudo do objetivo lei para fazer estimativas e julgamentos razoáveis.
teoria estatística com base na aprendizagem de máquina algoritmos ajuda e explica os resultados de mineração de dados, única explicação razoável, para ser capaz de refletir o valor dos dados.

Generalização: a capacidade de não pertence ao modelo usado para testar um novo conjunto de amostras. A capacidade de generalização mais forte, melhor aluno

A diferença entre a teoria das probabilidades

Em teoria da probabilidade de encontrar um ponto, estatística matemática é um empurrão locais geral

Na premissa de que a distribuição de probabilidade é conhecido papel de variáveis aleatórias, para analisar as características e as leis de variáveis aleatórias com base na distribuição conhecida;
assuntos estatísticas é uma variável aleatória distribuídos desconhecida, a investigação é a observação de variáveis aleatórias independentes repetidas, para extrapolar a distribuição original da observação obtida.
Estatística Matemática pode ser visto como um reverso da teoria da probabilidade, mais inclinado a metodologia de estudo a partir de uma perspectiva teórica, e depois explorar como aplicar

Por exemplo, para comprar bilhetes de loteria

A solução é baseada na teoria da probabilidade conhecida 摇奖规律da possibilidade de determinar um número de notas vencedoras
estatística matemática para resolver é repetidamente ganhar / não ganhar números registados em conformidade com a certeza da precisão de especulação antes 摇奖的规律, embora possa ser inútil.

Inferência Estatística forma: Parâmetro Estimativa

estimativa de parâmetros para estimar os parâmetros desconhecidos da distribuição geral de amostras aleatórias colhidas, incluindo ponto e estimativa intervalo
* Ponto de estimativa (ponto estimativa)
métodos específicos incluem monent (método de monents) e o método da máxima probabilidade de estimativa (estimativa de máxima verosimilhança )
ambos os métodos de representar idéias Inferir parâmetros populacionais, mas para os mesmos parâmetros, o montante estimado obtido por diferentes métodos de estimação são provavelmente diferentes, geralmente é imparcial, eficácia, consistência avaliada
intervalo * estimar (intervalo de estimação)
intervalo estimativa gama correspondente para proporcionar ainda mais a margem de erro e o ponto estimado com base no

maneira inferência estatística: teste de hipótese

Para aceitar ou rejeitar um julgamento global sobre amostras aleatórias colhidas

Assumindo que o papel da detecção é inferida de acordo com a força da sua generalização em aprender desempenho no conjunto de teste, e para determinar o grau exacto de conclusões podem ser ainda mais generalizado para comparar o desempenho do filtro de aprendizagem diferente.

erro de configuração pode ser generalizada em três partes:

Desvio (bias)
o grau de desvio entre algoritmo predito e os resultados reais, um retrato da minha modelo underfitting
Variância (variância)
perturbação está previsto para representar dados sobre as características de um retrato do modelo ao longo de ajuste de desempenho
Noise (ruído)
representa a corrente para alcançar as tarefas de aprendizagem mínimo de erro generalização, um retrato da dificuldade da tarefa em si

A teoria da informação e estatística matemática - fundação de aprendizagem de máquina

Primeiro, a teoria da informação

entropia

fonte

informações

entropia

entropia condicional

ganho de informação

rácio de ganho de informação

entropia relativa

Princípio da Máxima Entropia

Em segundo lugar, as estatísticas matemáticas

A diferença entre a teoria das probabilidades

Inferência Estatística forma: Parâmetro Estimativa

maneira inferência estatística: teste de hipótese

Acho que você gosta