Modelos probabilísticos de difusão de redução de ruído para super-resolução de imagem robusta na natureza

Modelos probabilísticos de difusão de redução de ruído para super-resolução de imagem robusta na natureza

Hshmat Sahak, New York University, USA, arXiv, Cited:1, Code:无, Paper

insira a descrição da imagem aqui

1. Introdução

Os modelos de difusão mostraram resultados promissores em super-resolução de imagem única e outras tarefas de tradução de imagem para imagem. Apesar de seu sucesso, eles não superam os modelos GAN de última geração na tarefa mais desafiadora de super-resolução cega, em que as imagens de entrada são distribuídas de forma desigual e o grau de degradação é desconhecido. Este artigo apresenta o SR3+, um modelo de super-resolução cego baseado em difusão, e constrói um novo modelo de super-resolução. Para esse fim, defendemos a combinação de treinamento autossupervisionado com degradações paramétricas compostas para treinamento autossupervisionado com condicionamento de ruído adicional durante o treinamento e o teste. Com essas inovações, arquiteturas convolucionais de grande escala e conjuntos de dados de grande escala, o SR3+ supera em muito o SR3. Ele supera RealESRGAN, DRealSR quando treinado nos mesmos dados. Nossa pontuação FID é 36,82, enquanto a deles é 37,22, que é ainda mais reduzida para um FID de 32,37 com um modelo maior e um conjunto de treinamento maior.

2. Pensamento holístico

Um artigo sobre a melhoria do SR3, principalmente SR3 + degradação de alta ordem + aprimoramento do ajuste de ruído. O primeiro trabalho do SR3 é um co-autor e merece o nome de melhorar a si mesmo.

3. Método

O SR3+ combina uma arquitetura convolucional simples e um novo procedimento de treinamento com duas inovações importantes. Usando degradação paramétrica em pipelines de treinamento de mineração de dados com corrupção mais complexa na geração de entradas de treinamento de baixa resolução (LR). Combinamos essas degradações com aprimoramentos de condicionamento de ruído pela primeira vez para melhorar a robustez dos modelos de difusão em cascata. Descobrimos que, para aplicações de tiro zero, o aprimoramento do condicionamento de ruído também é eficaz no tempo de teste. A arquitetura do SR3+ é uma variante da convolução usada no SR3 e, portanto, mais flexível em termos de resolução de imagem e proporção. Durante o treinamento, ele obtém pares de imagens LR-HR diminuindo a resolução de imagens de alta resolução para gerar entradas correspondentes de baixa resolução. A robustez é alcançada por meio de dois aprimoramentos principais, degradação de parâmetros compostos durante o treinamento (consulte especificamente Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data ) e aprimoramentos do condicionamento de ruído durante o treinamento e no tempo de teste (Cascaded Diffusion Models for High Fidelity Geração de imagem). Na fase de treinamento, a difusão direta é realizada nas imagens condicionais adicionadas para fazê-las conter ruído, tornando o modelo mais robusto; na fase de teste, este ttT é o hiperparâmetro e a qualidade da geração também é diferente.

3.1 Estrutura da rede

SR3+ usa a arquitetura UNet, mas sem a camada de auto-atenção usada em SR3. Embora a autoatenção tenha um impacto positivo na qualidade da imagem, ela dificulta muito a generalização para diferentes resoluções e proporções de imagem, ou seja, é difícil lidar com imagens de tamanhos arbitrários . Também adotamos Efficient U-Net ( Modelos fotorrealistas de difusão de texto para imagem com compreensão profunda da linguagem ) para melhorar a velocidade de treinamento.

4. Experimente

O SR3+ é treinado em vários conjuntos de dados com uma combinação de degradação e aumento ajustado ao ruído, e zero-shot é aplicado aos dados de teste. Usamos a ablação para determinar o impacto de diferentes formas de aumento, tamanho do modelo e tamanho do conjunto de dados. Aqui nos concentramos na tarefa de super-resolução cega com um fator de ampliação de 4. Para a linha de base, usamos SR3 e uma técnica anterior de super-resolução cega, RealESRGAN.

Como SR3, a entrada LR é amostrada por um fator de 4 usando interpolação bicúbica. As amostras de saída de SR3 e SR3+ são obtidas usando amostragem ancestral DDPM com 256 etapas de redução de ruído. Para simplificar e para treinar com intervalos de tempo consecutivos, usamos a estratégia SNR cosseno-log introduzida.

Treinamento: Para uma comparação justa com o ESRGAN real, primeiro treinamos o SR3+ nos conjuntos de dados usados ​​para treinar o ESRGAN real; ou seja, DF2K+OST, Div2K (800 imagens), Flick2K (2650 imagens) e OST300 (300 imagens) A combinação. Para explorar o efeito do dimensionamento, também treinamos em um grande conjunto de dados de 61 milhões de imagens, combinando a coleção de imagens internas com DF2K+OST. Durante o treinamento, seguindo o Real ESRGAN, extraímos um recorte aleatório de 400×400 para cada imagem e então aplicamos o pipeline de degradação. Em seguida, redimensione a imagem degradada para 100×100. A imagem LR é então aumentada para 400 × 400 usando interpolação bicúbica, da qual uma imagem de 256 × 256 é cortada para treinar a tarefa 64 × 64 → 256 × 256. Como o modelo é convolucional, podemos aplicá-lo a resoluções arbitrárias e proporções no momento do teste. SR3+ e todas as ablações são treinadas nos mesmos dados com os mesmos hiperparâmetros. Observe que SR3+ é reduzido para SR3 quando os aprimoramentos degradados e ajustados ao ruído são removidos . Todos os modls são treinados para passos de 1,5M, usando um tamanho de lote de 256 para modelos treinados em DF2K+OST e 512 caso contrário . Também consideramos dois modelos com pesos de 40M e 400M. O modelo menor pode ser comparado diretamente com o Real ESRGAN, porque o Real ESRGAN também possui cerca de 40 milhões de parâmetros. Modelos maiores expõem os efeitos da escala do modelo.

Teste: Conforme mencionado acima, focamos em zero_shot para testar em um conjunto de dados que não está relacionado ao usado para treinamento. Em todos os experimentos e ablações, usamos conjuntos de dados RealSRv3 e DRealSR para avaliação. O RealSR possui 400 imagens emparelhadas de baixa e alta resolução, das quais calculamos 25 cortes aleatórios, mas alinhados, de 64 × 64 e 256 × 256 por par de imagens. Isso resulta em um conjunto de teste fixo de 10.000 pares de imagens. O DRealSR contém mais de 10.000 pares de imagens, então extraímos 64 × 64 e 256 × 256 cortes centrais para 10.000 imagens aleatórias.

insira a descrição da imagem aqui

insira a descrição da imagem aqui

Acho que você gosta

Origin blog.csdn.net/qq_43800752/article/details/130118487
Recomendado
Clasificación