Raciocínio da fórmula do modelo de difusão DDPM ---- Função de perda

Índice

Raciocínio da fórmula do modelo de difusão DDPM ---- Função de perda
- - 2.3 Derivação da função de perda
- Referências e blog

2.3 Derivação da função de perda

Construímos a função de perda com a ideia de estimativa de máxima verossimilhança:
$\mathcal{L}=-\log p_{\theta}\left(x_{0}\right)$ $\theta$
da rede de difusão inversa $θ$ $x_0$ apenas iniciando a amostragem $x$ mais provável de ocorrer.

A seguir, precisamos transformar a fórmula acima, utilizando algum conteúdo ELBO e VAE.

2.3.1 ELBA

Estimativa de máxima verossimilhança conhecida $p_{\theta}\left(x_{0}\right)$ e observação $x_0$ , e x 1 obtido por difusão de observações $x_{1:T}$ , pela fórmula de distribuição de probabilidade marginal:
$p_{\theta }(\boldsymbol{x}_{0})=\int p_{\ teta }(x_{0:T}) d x_{1:T}$
portanto
$\begin{alinhado} \log p_{\theta }(\boldsymbol{ x}_{0}) & =\log \int p_{\theta}(\boldsymbol{x_{0:T}}) d \boldsymbol{x_{1:T}} \\ & =\log \int \ frac{p_{\theta}(\boldsymbol{x_{0:T}}) q_{\phi}(\boldsymbol{\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})}{q_ {\boldsymbol{\phi}}(\boldsymbol{\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})} d \boldsymbol{\boldsymbol{x_{1:T}}} \\ & =\log \mathbb{E}_{q_{\boldsymbol{\phi}}(\boldsymbol{x_{1:T}} \mid \boldsymbol{x_0})}\left[\frac{p_{\theta } (\boldsymbol{\boldsymbol{x_{0:T}}})}{q_{\boldsymbol{\phi}}(\boldsymbol{\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})}\right] \\ & \geq \mathbb{E}_{q_{\boldsymbol{\phi}}(\boldsymbol{\boldsymbol{x_{1:T} }} \mid \boldsymbol{x_0})}\left[\log \frac{p_{\theta }(\boldsymbol{x_{0:T}})}{q_{\boldsymbol{\phi}}(\boldsymbol {\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})}\right] \end{aligned}$
A última etapa é determinada pela desigualdade do som do piano $(J e n se n^{'} s I n e q u a l i t y)$ .
Isto não parece muito intuitivo e existe outra forma de derivação que é mais simples:
$\begin{aligned} \log p(\boldsymbol{x}) & =\log p(\boldsymbol{x}) \int q_{\boldsymbol{\phi}}(\boldsymbol{z} \mid \boldsymbol{x}) dz \\ & =\int q_{\boldsymbol{\phi}}(\boldsymbol{z} \mid \boldsymbol{x})(\log p(\boldsymbol{x})) dz \\ & =\mathbb{E}_{q_{\phi}(\boldsymbol{z} \mid \boldsymbol{x})}[\log p(\boldsymbol{x})] \\ & =\mathbb {E}_{q_{\phi}(\boldsymbol{z} \mid \boldsymbol{x})}\left[\log \frac{p(\boldsymbol{x}, \boldsymbol{z})}{p (\boldsymbol{z} \mid \boldsymbol{x})}\right] \\ & =\mathbb{E}_{q_{\phi}(\boldsymbol{z} \mid \boldsymbol{x})}\ esquerda[\log \frac{p(\boldsymbol{x},\boldsymbol{z}) q_{\phi}(\boldsymbol{z} \mid \boldsymbol{x})}{p(\boldsymbol{z} \mid \boldsymbol{x}) q_{\phi}(\boldsymbol{z} {z} \mid \boldsymbol{x})}\right] \\ & =\mathbb{E}_{q_{\phi}(\boldsymbol{z} \mid \boldsymbol{x})}\left[\ log \frac{p(\boldsymbol{x}, \boldsymbol{z})}{q_{\boldsymbol{\phi}}(\boldsymbol{z} \mid \boldsymbol{x})}\right]+\mathbb {E}_{q_{\phi}(\boldsymbol{z} \mid \boldsymbol{x})}\left[\log \frac{q_{\phi}(\boldsymbol{z} \mid \boldsymbol{x })}{p(\boldsymbol{z} \mid \boldsymbol{x})}\right] \\ & =\mathbb{E}_{q_{\phi}(\boldsymbol{z} \mid \boldsymbol{ x})}\left[\log \frac{p(\boldsymbol{x},\boldsymbol{z})}{q_{\phi}(\boldsymbol{z} \mid \boldsymbol{x})}\right]+D_{\mathrm{KL}}\left(q_{\boldsymbol{\phi }}(\boldsymbol{z} \mid \boldsymbol{x}) \| p(\boldsymbol{z} \mid \boldsymbol{x})\right) \\ & \geq \mathbb{E}_{q_{ \phi}(\boldsymbol{z} \mid \boldsymbol{x})}\left[\log \frac{p(\boldsymbol{x}, \boldsymbol{z})}{q_{\boldsymbol{\phi} }(\boldsymbol{z} \mid \boldsymbol{x})}\right] \\ & = \mathbb{E}_{q_{\boldsymbol{\phi}}(\boldsymbol{\boldsymbol{x_{1: T}}} \mid \boldsymbol{x_0})}\left[\log \frac{p_{\theta }(\boldsymbol{x_{0:T}})}{q_{\boldsymbol{\phi}}( \boldsymbol{\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})}\right] \end{aligned}T}}} \mid \boldsymbol{x_0})}\left[\log \frac{p_{\theta }(\boldsymbol{x_{0:T}})}{q_{\boldsymbol{\phi}}( \boldsymbol{\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})}\right] \end{aligned}T}}} \mid \boldsymbol{x_0})}\left[\log \frac{p_{\theta }(\boldsymbol{x_{0:T}})}{q_{\boldsymbol{\phi}}( \boldsymbol{\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})}\right] \end{aligned}$
aqui $z$ significa $x_{1:T}$ , $x$ significa $x_0$ . A fórmula bayesiana é usada no meio.

As conclusões derivadas dos dois métodos aqui são:
$\log p_{\theta }(\boldsymbol{x}_{0}) \geq \mathbb{E}_{q_{\boldsymbol{\phi}}(\boldsymbol{\boldsymbol{x_{1 :T}}} \mid \boldsymbol{x_0})}\left[\log \frac{p_{\theta }(\boldsymbol{x_{0:T}})}{q_{\boldsymbol{\phi}} (\boldsymbol{\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})}\right]$

其中 $\mathbb{E}_{q_{\boldsymbol{\phi }}(\boldsymbol{\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})}\left[\log \frac{p_{\theta }(\boldsymbol{x_{0:T}} )}{q_{\boldsymbol{\phi}}(\boldsymbol{\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})}\right]$ 就是ELBO $(Ev i d e n ce Lower Bo u n d) , ou seja$ , o limite $inferior$ $variacional$ $.$

Queremos fazer a função de perda $-\log p_{\theta}\left(x_{0}\right)$ 最小，就是另ELBO $\mathbb{E}_{q_{ \boldsymbol{\phi}}(\boldsymbol{\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})}\left[\log \frac{p_{\theta }(\boldsymbol{x_{ 0:T}})}{q_{\boldsymbol{\phi}}(\boldsymbol{\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})}\right]$ Máx.

我们令 $L_{VLB} = -\mathbb{E}_{q_{\boldsymbol{\phi}}(\ negrito símbolo{\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})}\left[\log \frac{p_{\theta }(\boldsymbol{x_{0:T}})}{q_ {\boldsymbol{\phi}}(\boldsymbol{\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})}\right] = \mathbb{E}_{q_{\boldsymbol{\phi }}(\boldsymbol{\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})}\left[\log \frac{q_{\boldsymbol{\phi}}(\boldsymbol{\boldsymbol{ x_{1:T}}} \mid \boldsymbol{x_0})}{p_{\theta }(\boldsymbol{x_{0:T}})}\right]$ e, em seguida, converta para resolver a função de perda. Divida ainda mais:
$mathbf{x}_{0}\direita) \| p_{\theta}\left(\mathbf{x}_{t-1}\mid\mathbf{x}_{t}\right)\right)}_{L_{t-1}}-\underbrace{ \log p_{\theta}\left(\mathbf{x}_{0} \mid \mathbf{x}_{1}\right)}_{L_{0}}] \end{aligned}$

Aqui, o subscrito inicial começa em $q_{\boldsymbol{\phi}}(\boldsymbol{\boldsymbol{x_{1:T}}} \mid \boldsymbol{x_0})$ é alterado para $q\left(\mathbf{x}_{0: T}\right)$ , acho que $x_0$ é conhecido, então as duas expressões são equivalentes.

Há outro ponto confuso no meio, $q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)$ representa a distribuição da propagação direta, $q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)$ representa a verdadeira distribuição do processo de difusão inversa, onde $q$ na teoria da probabilidade $P$ 。 $p_{\theta}\left(\mathbf{x}_{t-1}\mid \mathbf{x}_{t}\right)$ representa a distribuição de difusão inversa que queremos resolver.

Em seguida temos $L_{T}, L_{t-1}, L_{0}$ Estas três situações são classificadas e discutidas:

2.3.2 $L_{T}$

$q\left(\mathbf{x}_{1:T} \mid \mathbf{x}_{0}\right)$ representa o processo de difusão direta, não há parâmetro que possa ser aprendido; $p_{\theta}\left(\mathbf{x}_{T}\right)$ $x_T$ em $)$ $x$ é o ruído que obedece à distribuição gaussiana padrão, $p_{\theta}$ é o processo de difusão inversa, para o processo de difusão inversa, $x_T$ é conhecido, então este termo $L_{T}$ Pode ser usado como uma constante.

2.3.3 $L_{t-1}$

E $eu_{t-1}$ Pode-se ver que a distribuição de difusão inversa real $q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}, \mathbf { x}_{0}\direita)$ e a distribuição de difusão inversa, exigimos $p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)$ Divergência KL.

A função $q\left(\mathbf{x}_{t-1}\mid \mathbf{x}_{t}, \mathbf{x}_{0}\ certo)$ média e variância obtivemos:
$\tilde{\mu}_{t}=\frac{1}{\sqrt{\alpha_{t}}}\left(x_{t}-\frac{1-\alpha_{t}}{\ sqrt{ 1-\bar{\alpha}_{t}}} \varepsilon_{t}\right), \tilde{\beta}_{t}=\frac{1-\bar{\alpha}_{t -1 }}{1-\bar{\alpha}_{t}} \cdot \beta_{t}$
A segunda distribuição $p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)$ é a distribuição alvo que queremos ajustar, também é uma distribuição gaussiana, a média é estimada pela rede e a variância é definida como $\beta_t$ Forma:
$p_{\theta}\left(\mathbf{x}_{t -1} \mid \mathbf{x}_{t}\right)=\mathcal{N}\left(\mathbf{x}_{t-1} ; \símbolo de bola{\mu}_{\theta} \ left(\mathbf{x}_{t}, t\right), \ballsymbol{\sigma}_{\theta}\left(\mathbf{x}_{t}, t\right)\right);$

Portanto, para aproximar essas duas distribuições, podemos ignorar a variância, e só precisamos minimizar a distância entre as médias das duas distribuições. Usamos a segunda norma para expressar:
$\begin{aligned} L_{t} & =\mathbb{E}_{q}\left[\left\| \tilde{\boldsymbol{\ mu}}_{t}\left(\mathbf{x}_{t}, \mathbf{x}_{0}\right)-\boldsymbol{\mu}_{\theta }\left(\mathbf{ x}_{t}, t\right)\right\|^{2}\right] \\ & =\mathbb{E}_{\mathbf{x}_{0}, \epsilon}\left[\ left\|\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x}_{t}\left(\mathbf{x}_{0} , \epsilon\right)- \frac{\beta_{t}}{\sqrt{1-\bar{\alpha}_{t}}} \epsilon\right)-\boldsymbol{\mu}_{\theta }\left(\mathbf{ x}_{t}\left(\mathbf{x}_{0}, \epsilon\right), t\right)\right\|^{2}\right] \quad \ épsilon \sim \mathcal{N }(0,1) \end{aligned}$
Pode-se observar nesta fórmula que precisamos usar $\boldsymbol{\mu}_{\theta}\left(\mathbf{x}_{t}\left ( \mathbf{x}_{0}, \épsilon\right), t\right)$ dentro de1 $\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x} _{t }\left(\mathbf{x}_{0}, \epsilon\right)-\frac{\beta_{t}}{\sqrt{1-\bar{\alpha}_{t}}} \epsilon\ certo)$ ,defina:
$\símbolo em negrito{\mu}_{\theta}\left( \ mathbf{x}_{t}, t\right)=\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x}_{t}-\frac{\beta_{ t }}{\sqrt{1-\bar{\alpha}_{t}}}\epsilon_{\theta}\left(\mathbf{x}_{t}, t\right)\right)$
é usar diretamente a rede neural $\epsilon_{\theta}\left(\mathbf{x}_{t}, t\right)$ para prever o ruído $\epsilon$ . Em seguida, traga o ruído previsto para a expressão definida para calcular a média prevista.

Então a função de perda se torna:
$\begin{aligned} L_{t} & = \mathbb{E}_{\mathbf{x}_{0}, \epsilon}\left[\left\|\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf {x }_{t}-\frac{\beta_{t}}{\sqrt{1-\bar{\alpha}_{t}}} \epsilon\right)-\frac{1}{\sqrt{ \alpha_ {t}}}\left(\mathbf{x}_{t}-\frac{\beta_{t}}{\sqrt{1-\bar{\alpha}_{t}}}\epsilon_{ \theta }\left(\mathbf{x}_{t},t\right)\right)\right\|^{2}\right]\quad\epsilon\sim\mathcal{N}(0,1) \\ & =\mathbb{E}_{\mathbf{x}_{0}, \epsilon}\left[\left\|\epsilon-\epsilon_{\theta}\left(\mathbf{x}_{ t} , t\right)\right\|^{2}\right] \quad \epsilon\sim\mathcal{N}(0,1) \quad \text {Jogue fora todos os coeficientes do termo constante, o autor disse que isso é melhor para treinamento} \\ & =\mathbb{E}_{\mathbf{x}_{0}, \epsilon} \left[\ left\|\epsilon-\epsilon_{\theta}\left(\sqrt{\bar{\alpha}_{t}} \mathbf{x}_{0}+\sqrt{1-\bar {\alpha} _{t}} \epsilon, t\right)\right\|^{2}\right], \quad \epsilon \sim \mathcal{N}(0,1) \end{aligned}$
$x_t$ combinada linearmente com ruído $x$ , o verdadeiro valor do ruído combinado com ele é $\epsilon$ ,a função livre $\epsilon_{\theta}\left(\sqrt{\bar{\alpha}_{t}} \mathbf{x} _ {0}+\sqrt{1-\bar{\alpha}_{t}}\epsilon, t\right)$ para ajustar esse ruído.

2.3.4 $L_{0}$

O final $L_{0}=-\log p_{\theta}\left(x_{0} \mid x_{1}\right)$ é a imagem com ruído da última etapa $x_1$ Gerar imagem de eliminação de ruído $x_0$ A estimativa de máxima verossimilhança de, para gerar uma imagem melhor, precisamos usar a estimativa de máxima verossimilhança para cada pixel, de modo que cada valor de pixel na imagem satisfaça a probabilidade logarítmica discreta.

Para conseguir isso, a última parte do processo de difusão inversa é alterada de $x_1$ para $x_0$ As transformações são definidas para cálculos discretos independentes. Ou seja, no último processo de conversão em um determinado $x_1$ obter imagem $x_0$ Satisfaça o log de verossimilhança, assumindo que os pixels são independentes um do outro:
$p_{\theta}\left (x_ {0} \mid x_{1}\right)=\prod_{i=1}^{D} p_{\theta}\left(x_{0}^{i} \mid x_{1}^{ i} \certo)$
$D$ é para $dimensão de x$ , sobrescrito $i$ representa uma posição coordenada na imagem. O objetivo agora é determinar a probabilidade do valor de um determinado pixel, ou seja, saber o intervalo de tempo correspondente $t = 1$ imagem com ruído mais baixoDistribuição dos valores de pixel correspondentes em $x$
$\mathcal{N}\left(x ; \mu_{\theta}^{i}\left (x_ {1}, 1\direita), \sigma_{1}^{2}\direita)$
onde $t = A distribuição de pixels de 1$ vem de uma distribuição gaussiana multivariada cuja matriz de covariância diagonal nos permite dividir a distribuição em um produto de gaussianas univariadas: N (
$\mathcal{N}\left(x ; \mu_{\theta}\left(x_{1}, 1\right), \sigma_ {1}^{2} \mathbb{I}\right)=\prod_{i=1}^{D} \mathcal{N}\left(x ; \mu_{\theta}^{i}\left( x_{1}, 1\direita), \sigma_{1}^{2}\direita)$
Agora suponha que a imagem foi normalizada no intervalo [-1,1] do valor de 0-255. Dado o valor de pixel de cada pixel em t=0, a distribuição de probabilidade de transição $p_{\theta}\left(x_{0} \mid x_{ 1}\right)$ 的值就是每个像素值的乘积。所以：
$\begin{aligned} p_{\theta}\left(\mathbf{x}_{0} \mid \mathbf{x}_{1}\right) & =\prod_{i=1} ^{D} \int_{\delta_{-}\left(x_{0}^{i}\right)}^{\delta_{+}\left(x_{0}^{i}\right)} \ mathcal{N}\left(x ; \mu_{\theta}^{i}\left(\mathbf{x}_{1}, 1\right), \sigma_{1}^{2}\right) dx \\ \delta_{+}(x) & =\left\{\begin{array}{ll} \infty & \text { if } x=1 \\ x+\frac{1}{255} & \text { if } x<1 \end{array} \quad \delta_{-}(x)=\left\{\begin{array}{ll} -\infty & \text { if } x=-1 \\ x- \frac{1}{255} & \text { if } x>-1 \end{array}\right.\right. \end{alinhado}$
Esta fórmula vem do artigo original, aqui está uma análise de seu significado. Ou seja, queremos adicionar a imagem de ruído da última etapa $x_1$ Ajustar imagem sem ruído $x_0$ , defina cada pixel da imagem para uma distribuição gaussiana, um total de Pixels $D.$ enquanto $x_0$ O intervalo de valores original de cada pixel é $\{0,1, \ldots, 255\}$ após a normalização $[- 1, 1]$ intervalo.

Agora tiramos um único $x_1$ Pixels em $x_1^i$ ,dê a função $\mathcal{N}\left(x ; \mu_{\theta}^{i}\left(x_{1}, 1\direita), \sigma_{1}^{2}\direita)$ , o alvo a ser ajustado é $x_0$ O ponto de pixel de posição correspondente $x_0^i$ , e $x_0^i$ O intervalo de valores do espaço discreto original $\{0,1, \ldots, 255\}$ é mapeado para o espaço contínuo $[- 1, 1]$ , então cada valor discreto original corresponde a um intervalo no espaço contínuo, e a fórmula para mapeamento de intervalo é:
$\begin{aligned} \delta_{+}(x) & =\left\{\begin{array}{ll} \infty & \text { if } x=1 \\ x+\frac{1}{255} & \text { if } x<1 \end{array} \quad \delta_{-}(x)=\left\{\begin{array }{ll} -\infty & \text { if } x=-1 \\ x-\frac{1}{255} & \text { if } x>-1 \end{array}\right.\right. \end{alinhado}$

O texto acima é a análise e derivação de todas as fórmulas envolvidas no processo de difusão e difusão inversa do DDPM, incluindo a parte de construção da função de perda.

Referências e blog

Compreendendo os modelos de difusão: uma perspectiva unificada,
eliminando o ruído dos modelos probabilísticos de difusão
https://yinglinzheng.netlify.app/diffusion-model-tutorial
https://zhuanlan.zhihu.com/p/549623622