Notas de Aprendizado de Máquina 06---Estimativa de Máxima Verossimilhança

Uma estratégia comum para estimar a probabilidade condicional de classe é assumir que ela tem uma certa forma de distribuição de probabilidade e, em seguida, estimar os parâmetros da distribuição de probabilidade com base em amostras de treinamento. Especificamente, observe que a probabilidade condicional de classe da categoria c é P( x |c), assumindo que P( x |c) tem uma forma definida e é determinada exclusivamente pelo vetor de parâmetro θc, então nossa tarefa é usar o conjunto de treinamento D para estimar o parâmetro θc. Para maior clareza, denotamos P( x |c) como P( x |θc).

Na verdade, o processo de treinamento do modelo de probabilidade é o processo de estimação de parâmetros. Para estimativa de parâmetros, duas escolas de pensamento no campo da estatística fornecem soluções diferentes: a escola frequentista acredita que, embora os parâmetros sejam desconhecidos, são valores fixos que existem objetivamente. Portanto, os valores dos parâmetros podem ser determinados otimizando a função de verossimilhança e outros critérios; Bayesianos acreditam que os parâmetros são variáveis aleatórias não observadas, que também podem ter uma distribuição. Portanto, pode-se supor que os parâmetros obedecem a uma distribuição a priori, e então a distribuição posterior dos parâmetros pode ser calculada com base em os dados observados. Este artigo apresenta a estimativa de máxima verossimilhança derivada da escola frequentista, que é um método clássico para estimar os parâmetros das distribuições de probabilidade com base na amostragem de dados. (também conhecido como método de máxima verossimilhança)

Deixe Dc representar o conjunto de amostras da c-ésima classe no conjunto de treinamento D, assumindo que essas amostras são independentes e identicamente distribuídas, então a verossimilhança do parâmetro θc para o conjunto de dados Dc é:

A estimativa de máxima verossimilhança de θc é encontrar o valor do parâmetro θ'c que pode maximizar a verossimilhança P(Dc|θc). Intuitivamente, a estimativa de máxima verossimilhança tenta encontrar um valor que maximize a “possibilidade” de ocorrência dos dados entre todos os valores possíveis de θc.

No entanto, a operação de multiplicação da fórmula acima é fácil de causar subfluxo, e a probabilidade logarítmica é geralmente usada:

Neste momento, a estimativa de máxima verossimilhança θ'c do parâmetro θc é:

Por exemplo, no caso de atributos contínuos, assumindo uma função de densidade de probabilidade p(x|c)~N(μ, σ²), as estimativas de máxima verossimilhança dos parâmetros μ e σ² são:

Ou seja, o valor médio da distribuição normal obtido pelo método da máxima verossimilhança é o valor médio da amostra, e a variância é o valor médio de (x-μ')(x-μ')T, que obviamente é um resultado intuitivo. No caso de atributos discretos, as probabilidades condicionais de classe também podem ser estimadas de maneira semelhante.

Vale a pena notar que, embora esse método parametrizado possa tornar a estimativa de probabilidade condicional relativamente simples, a precisão dos resultados da estimativa depende muito se a distribuição de probabilidade assumida está de acordo com a distribuição de dados real subjacente. Em aplicações práticas, a fim de fazer suposições que possam aproximar melhor a distribuição real potencial, muitas vezes é necessário usar conhecimento empírico sobre a própria tarefa de aplicação até certo ponto.

Consulte "Machine Learning" de Zhou Zhihua

Notas de Aprendizado de Máquina 06---Estimativa de Máxima Verossimilhança

Acho que você gosta