O que é EM (algoritmo de expectativa máxima)
Na vida real, uma maçã é 100% maçã e uma pêra é 100% pêra.
![Adicione uma descrição da imagem](https://img-blog.csdnimg.cn/b03472cdd9f0421684b3c03b99739074.png)
Há muitas coisas na vida que são distribuições de probabilidade, como quantas pessoas são casadas, quantas pessoas têm empregos,
![Adicione uma descrição da imagem](https://img-blog.csdnimg.cn/a295889988ce4ddcb294814703ac49de.png)
E se quiséssemos investigar a porcentagem da população que fuma maconha? É difícil obter respostas reais para perguntas delicadas. Neste momento, a probabilidade pode ser usada para tornar a pesquisa anônima. Além da pergunta "Você fuma maconha?", outra pergunta é feita: "Seu número de telefone é um número par ?” Convide os participantes a jogar uma moeda e responder à pergunta 1 para cara e à pergunta 2 para coroa.
![Adicione uma descrição da imagem](https://img-blog.csdnimg.cn/87e6a712c4994fbcabfc49df268a1569.png)
A pesquisa é realizada por telefone, e a proporção de números de telefone celular que terminam em números pares foi determinada. Contanto que haja amostras de pesquisa suficientes, jogar uma moeda pode tornar o número de pessoas que respondem às perguntas 1 e 2 quase igual. Quando nós não sabemos qual pergunta foi respondida, ainda assim É fácil adivinhar a proporção de usuários de maconha na multidão.Essa é a mágica da probabilidade.
![Adicione uma descrição da imagem](https://img-blog.csdnimg.cn/b4f413fbc0c34c22b9eaa98328366102.png)
Agora, vamos mudar um pouco a questão 2 e substituir "o número de telefone é um número par" por um evento de probabilidade desconhecido, como "você fuma?" Ainda podemos inferir a probabilidade de fumantes de maconha?
![Adicione uma descrição da imagem](https://img-blog.csdnimg.cn/7098cbf631c745c4a187958732e6f844.png)
A resposta ainda é sim, mas desta vez mudamos o método de pesquisa, distribuímos a mesma pergunta a cada cinco pessoas para convidá-los a responder, não registramos qual era a pergunta, apenas registramos suas respostas, garantindo o anonimato, obtivemos alguns I não sei onde pertencer é a resposta.
![Adicione uma descrição da imagem](https://img-blog.csdnimg.cn/eeb6e42130614ee9b057cc762b32e216.png)
Então é a vez do algoritmo EM
![Adicione uma descrição da imagem](https://img-blog.csdnimg.cn/2d7819bad9f74bc2bcfd1e0844525e1b.png)
Etapas do Algoritmo EM
- Randomização, se você não souber a resposta para uma pergunta, não poderá adivinhar a proporção de fumantes e usuários de maconha. Se você não souber essas duas proporções, não poderá adivinhar a qual pergunta a resposta pertence. atribuir um valor
- Em seguida, use esses valores ao contrário para especular sobre a possibilidade desses grupos de respostas pertencerem a duas perguntas. Essa etapa é estimar a variável desconhecida, que é a expectativa de atribuição da pergunta, por isso é chamada de etapa E .
![insira a descrição da imagem aqui](https://img-blog.csdnimg.cn/26225d2ccf564217b4da31565bf62dcc.png)
- Em seguida, usamos essa possibilidade para estimar inversamente a probabilidade de um fumante e um fumante de maconha.Como essa probabilidade é a mais provável, ela é chamada de passo-M.
![Adicione uma descrição da imagem](https://img-blog.csdnimg.cn/ce2ad81dc118489eb40835b2e8bc2c27.png)
- Em seguida, repita a segunda etapa, use a nova probabilidade para estimar a possibilidade de que a resposta pertença às duas perguntas e, em seguida, use a possibilidade de inferir a probabilidade ao contrário e repita até que um valor relativamente estável seja estimado, então pare
![Adicione uma descrição da imagem](https://img-blog.csdnimg.cn/8de42cf201a348a6b693d7c7cf1c3054.png)
Dessa forma, calculamos a probabilidade aproximada de fumantes e fumantes de maconha na multidão. Este processo é um pouco familiar? As etapas do K-means também são: 1. Atribuição aleatória, 2. Controle repetido, 3. Aproximação contínua. Na verdade, K-means é um caso especial do algoritmo EM. O objetivo do K-means é obter duas coordenadas centrais, distinguindo assim peras e maçãs como duas coisas. O algoritmo EM pode encontrar a lei de distribuição de amostras e nos ajudar a encontrar mais peras e maçãs durante o agrupamento.
![Adicione uma descrição da imagem](https://img-blog.csdnimg.cn/dc8aabb9fd5b488383e89c5f32f95ffd.png)