[Resumo básico do aprendizado de máquina] O que é EM (algoritmo de valor máximo esperado)

O que é EM (algoritmo de expectativa máxima)

Na vida real, uma maçã é 100% maçã e uma pêra é 100% pêra.

Adicione uma descrição da imagem

Há muitas coisas na vida que são distribuições de probabilidade, como quantas pessoas são casadas, quantas pessoas têm empregos,

Adicione uma descrição da imagem

E se quiséssemos investigar a porcentagem da população que fuma maconha? É difícil obter respostas reais para perguntas delicadas. Neste momento, a probabilidade pode ser usada para tornar a pesquisa anônima. Além da pergunta "Você fuma maconha?", outra pergunta é feita: "Seu número de telefone é um número par ?” Convide os participantes a jogar uma moeda e responder à pergunta 1 para cara e à pergunta 2 para coroa.

Adicione uma descrição da imagem

A pesquisa é realizada por telefone, e a proporção de números de telefone celular que terminam em números pares foi determinada. Contanto que haja amostras de pesquisa suficientes, jogar uma moeda pode tornar o número de pessoas que respondem às perguntas 1 e 2 quase igual. Quando nós não sabemos qual pergunta foi respondida, ainda assim É fácil adivinhar a proporção de usuários de maconha na multidão.Essa é a mágica da probabilidade.

Adicione uma descrição da imagem

Agora, vamos mudar um pouco a questão 2 e substituir "o número de telefone é um número par" por um evento de probabilidade desconhecido, como "você fuma?" Ainda podemos inferir a probabilidade de fumantes de maconha?

Adicione uma descrição da imagem

A resposta ainda é sim, mas desta vez mudamos o método de pesquisa, distribuímos a mesma pergunta a cada cinco pessoas para convidá-los a responder, não registramos qual era a pergunta, apenas registramos suas respostas, garantindo o anonimato, obtivemos alguns I não sei onde pertencer é a resposta.

Adicione uma descrição da imagem

Então é a vez do algoritmo EM

Adicione uma descrição da imagem

Etapas do Algoritmo EM

  1. Randomização, se você não souber a resposta para uma pergunta, não poderá adivinhar a proporção de fumantes e usuários de maconha. Se você não souber essas duas proporções, não poderá adivinhar a qual pergunta a resposta pertence. atribuir um valor
  2. Em seguida, use esses valores ao contrário para especular sobre a possibilidade desses grupos de respostas pertencerem a duas perguntas. Essa etapa é estimar a variável desconhecida, que é a expectativa de atribuição da pergunta, por isso é chamada de etapa E .
insira a descrição da imagem aqui
  1. Em seguida, usamos essa possibilidade para estimar inversamente a probabilidade de um fumante e um fumante de maconha.Como essa probabilidade é a mais provável, ela é chamada de passo-M.
Adicione uma descrição da imagem
  1. Em seguida, repita a segunda etapa, use a nova probabilidade para estimar a possibilidade de que a resposta pertença às duas perguntas e, em seguida, use a possibilidade de inferir a probabilidade ao contrário e repita até que um valor relativamente estável seja estimado, então pare
Adicione uma descrição da imagem

Dessa forma, calculamos a probabilidade aproximada de fumantes e fumantes de maconha na multidão. Este processo é um pouco familiar? As etapas do K-means também são: 1. Atribuição aleatória, 2. Controle repetido, 3. Aproximação contínua. Na verdade, K-means é um caso especial do algoritmo EM. O objetivo do K-means é obter duas coordenadas centrais, distinguindo assim peras e maçãs como duas coisas. O algoritmo EM pode encontrar a lei de distribuição de amostras e nos ajudar a encontrar mais peras e maçãs durante o agrupamento.

Adicione uma descrição da imagem

Acho que você gosta

Origin blog.csdn.net/RuanJian_GC/article/details/131544178
Recomendado
Clasificación