Modelo de difusão

 A difusão é um modelo generativo profundo (modelo generativo não supervisionado), que pertence ao aprendizado de máquina - aprendizado não supervisionado - modelo de probabilidade - modelo generativo.

O modelo de probabilidade é obter a probabilidade posterior P(Y|X) ou a probabilidade conjunta P(X, Y) dos dados

Para aprendizado supervisionado, o modelo discriminativo é principalmente para encontrar a probabilidade posterior, ou seja, para determinar a informação do rótulo Y de acordo com o recurso de entrada X.

O objetivo principal da geração do modelo é obter a probabilidade conjunta.Para X, obtém-se a distribuição de probabilidade conjunta entre X e diferentes rótulos, sendo considerado o maior.

por exemplo

Se precisarmos resolver um problema de classificação, o triângulo vermelho é o objeto que precisamos classificar.

Para o modelo discriminante, o que o modelo discriminante treina é esse limite de decisão, e é determinado a qual categoria o triângulo vermelho pertence de acordo com a distância do triângulo vermelho ao limite de decisão.

Para o modelo generativo, o que é aprendido é a distribuição de probabilidade. Temos duas classes na figura. Buscamos separadamente a distribuição de probabilidade conjunta do triângulo vermelho e dessas duas classes. O triângulo vermelho pertence à categoria com a maior distribuição de probabilidade conjunta .

Modelos generativos significam modelar a distribuição conjunta de recursos de entrada e informações de rótulo, e aprendizado não supervisionado significa que não existe nenhuma informação de rótulo.

No modelo generativo não supervisionado, a função de densidade de probabilidade dos recursos de entrada é modelada e o modelo de probabilidade obtido por treinamento deve estar próximo da função de densidade de probabilidade dos recursos de entrada.

Podemos amostrar de um modelo probabilístico para gerar amostras.

Para o modelo generativo não supervisionado , como estimar a densidade de probabilidade, treinar o modelo de probabilidade e como amostrar e gerar amostras são duas dificuldades que precisam ser resolvidas.

A partir disso, introduzimos o conceito de espaço latente e variável latente

Por exemplo, em matemática, precisamos estimar b a partir de a, e é difícil estimar b a partir de a, mas é fácil estimar b a partir de c, e fácil estimar c a partir de a, então podemos estimar c a partir de a, e então estimar b a partir de c. Dessa forma, o objetivo de usar a para estimar b é alcançado.

O c aqui é semelhante às variáveis ​​ocultas frequentemente mencionadas em nosso aprendizado profundo.

Se nosso modelo generativo não supervisionado precisar modelar uma imagem, será muito difícil modelar os dados brutos diretamente. Assim, podemos converter os dados originais em outro conjunto de dados fácil de modelar, ou seja, converter os dados originais em variáveis ​​ocultas.

O espaço oculto, como o nome indica, é o espaço onde estão localizadas as variáveis ​​ocultas.

 Na foto acima há duas cadeiras e uma mesa, o que torna as cadeiras parecidas?

As cadeiras têm encosto, as mesas não têm encosto, as cadeiras não têm gavetas, as mesas têm etc.

Esses recursos podem ser aprendidos por nosso modelo e representados no espaço latente.

O processo de compactação e transformação de dados em espaço oculto é o processo de remoção de informações redundantes dos dados.

Neste exemplo, as informações de cores de cadeiras e mesas são informações redundantes e serão eliminadas, e apenas as características mais importantes serão armazenadas na representação do espaço latente.

No aprendizado de máquina, os dados são compactados para aprender informações importantes sobre os pontos de dados.

 No espaço latente, objetos semelhantes estão próximos e objetos diferentes estão distantes. As duas cadeiras estão próximas uma da outra e a mesa está longe delas.

Além de discriminar a similaridade dos dados, a amostragem no espaço latente também pode gerar novos dados. Podemos gerar diferentes estruturas faciais interpolando o espaço latente e usando um decodificador de modelo para reconstruir a representação do espaço latente em uma imagem 2D com as mesmas dimensões da entrada original

 

A seguir está a estrutura básica do modelo generativo. 

continua

link de vídeo

[Fácil de entender a explicação do modelo de difusão - a partir da variável oculta VAE do modelo de geração de profundidade de pré-conhecimento] https://www.bilibili.com/video/BV1re4y1m7gb/?share_source=copy_web&vd_source=9ee2521627a11b87c06e3907e194e1ab

 [Resumo do modelo de difusão fácil de entender - explicação detalhada dos algoritmos básicos] https://www.bilibili.com/video/BV1TP4y1Q7qJ/?share_source=copy_web&vd_source=9ee2521627a11b87c06e3907e194e1ab

 [[10 minutos] Entendendo a entropia de Shannon, entropia cruzada e divergência KL] https://www.bilibili.com/video/BV1JY411q72n/?share_source=copy_web&vd_source=9ee2521627a11b87c06e3907e194e1ab


A quantidade de informações do evento é inversamente proporcional à probabilidade de ocorrência do evento, quanto menor a probabilidade de ocorrência do evento, maior a quantidade de informações.

A entropia expressa o conteúdo de informação médio de uma distribuição de probabilidade.

A entropia cruzada descreve o valor estimado do conteúdo de informação médio da verdadeira distribuição de probabilidade a partir da perspectiva de estimar a distribuição de probabilidade.

A divergência KL descreve quantitativamente a diferença entre duas distribuições de probabilidade e é um conceito básico no modelo de distribuição de probabilidade, que é de grande importância para derivar a função de perda do modelo, como a função de perda de entropia cruzada.

Acho que você gosta

Origin blog.csdn.net/weixin_43717681/article/details/129562469
Recomendado
Clasificación