Transformador Híbrido e Rede de Atenção CNN para Super-resolução de Imagem Estéreo

1. Resumo

Estratégias de vários estágios são frequentemente usadas em tarefas de restauração de imagens. Embora os métodos baseados em Transformer tenham mostrado alta eficiência em tarefas de super-resolução de imagem única, eles ainda não mostraram vantagens significativas sobre os métodos baseados em CNN em tarefas de super-resolução estereoscópicas.
Isso pode ser atribuído a dois fatores principais:
primeiro , os transformadores de corrente para super-resolução de imagem única não podem explorar informações estéreo complementares no
processo ; elas não existem no algoritmo de resolução.
Para resolver essas questões, o artigo propõe um Transformador Híbrido e Rede de Atenção CNN (HTCAN), que utiliza uma rede baseada em Transformer para aprimoramento de imagem única e uma rede baseada em CNN para fusão de informações estéreo.

2. Breve introdução

2.1 A diferença entre super-resolução estéreo e super-resolução de imagem única

2.1.1 A diferença entre super-resolução estéreo e super-resolução de imagem única 1

Super-resolução de imagem estereoscópica : visa reconstruir imagens de alta resolução a partir de imagens de baixa resolução da vista esquerda e direita.
Super-resolução de imagem única : visa reconstruir uma imagem de alta resolução a partir de uma determinada imagem de visualização principal de baixa resolução.

2.1.2 A diferença entre super-resolução estéreo e super-resolução de imagem única 2

Super-resolução de imagem estereoscópica : A super-resolução de imagem estereoscópica pode utilizar informações de duas visualizações com grandes áreas sobrepostas.
Super-resolução de imagem única : A super-resolução de imagem única só pode utilizar informações de uma única visualização.

As informações perdidas em uma visão ainda podem estar presentes em outra visão, e a utilização de informações adicionais de outra visão pode beneficiar enormemente o processo de reconstrução. Portanto, o desempenho final dos algoritmos de super-resolução de imagens estereoscópicas depende em grande parte da capacidade de extração de recursos e da capacidade de troca de informações estéreo de cada visualização.

2.1.3 Transformador Híbrido e rede de atenção CNN

Em uma rede híbrida de atenção Transformer e CNN, um Transformer é usado como o primeiro estágio para garantir que a maioria dos recursos importantes da imagem de baixa resolução de visualização única sejam preservados para processamento posterior, e um método baseado em CNN é usado no segundo estágio para troca eficaz de informações estéreo.

2.1.4 Contribuições específicas deste artigo

①Uma rede híbrida de super-resolução de imagem estéreo : é proposto um algoritmo unificado de super-resolução de imagem estéreo, que integra o transformador e a arquitetura CNN, em que o transformador é usado para extrair os recursos de imagens de visualização única, e o módulo CNN é usado para trocar duas informações de visualização e gerar a imagem final de super-resolução.
②Aumento abrangente de dados : Técnicas como estratégias de treinamento multi-patch são exaustivamente estudadas e aplicadas à super-resolução de imagens estereoscópicas.
③ Desempenho de última geração : O método proposto atinge um novo desempenho de última geração e conquistou o primeiro lugar no Desafio de Super-Resolução de Imagem Estéreo.

3. Métodos específicos

Figura 1 Ilustração da rede híbrida de atenção Transformer e CNN

        O Transformador Híbrido e Rede de Atenção CNN (HTCAN) proposto é uma rede de restauração multinível, conforme mostrado na Figura 1. Eu^{lr}No estágio um, dadas imagens e somas estéreo de baixa resolução , elas são primeiro super-resolvidas em somas R^{lr}usando uma rede de super-resolução de imagem única baseada em Transformer . No segundo estágio, a rede baseada em CNN é usada para realizar o aprimoramento estéreo na soma , e a soma da imagem aprimorada é obtida . No terceiro estágio, usamos a mesma rede baseada em CNN do segundo estágio para maior aprimoramento estéreo e integração do modelo.eu^{s1}R^{s1}eu^{s1}R^{s1}Eu^{sr}R^{sr}

3.1 Fase 1: Super-resolução de imagem única baseada em transformador

3.1.1 Arquitetura de Rede

        A entrada da rede de super-resolução de imagem única (SISR) baseada em Transformer é 1 patch de imagem de baixa resolução e 8 patches ao seu redor, conforme mostrado na Figura 1 (a). Os oito patches circundantes são cortados na parte superior, inferior, esquerda e direita do patch central. Portanto, os oito pequenos blocos circundantes podem estender-se para além da borda da imagem. Nesse caso, a imagem é estendida usando preenchimento de reflexão, e o patch de baixa resolução e os oito patches adjacentes são extraídos da imagem de preenchimento. Dados 9 patches de entrada de baixa resolução, eles são primeiro alimentados em uma camada convolucional 3 × 3 para extrair recursos superficiais, F_{L}^{1}onde F_{R}^{1}\em R^{H\vezes W\vezes C}C é o número de canais de recursos e o número de canais é definido como 180. Recursos superficiais fornecem uma percepção inicial da entrada, que é então alimentada em um Grupo de Atenção Híbrida Residual (RHAG) contínuo em cascata K1 para autoatenção e informações agregadas, com K1 definido como 12. Além disso, o tamanho da janela foi aumentado para 24 × 24 para melhor agregação de informações dentro da janela. Finalmente, após a eficiente agregação de informações do RHAG em cascata, imagens de super-resolução são geradas através de camadas convolucionais e camadas de pixel shuffle. A saída da rede é o patch de alta resolução correspondente ao patch central.

3.1.2 Estratégia global

A autointegração é obtida girando e invertendo horizontalmente/verticalmente imagens de entrada de baixa resolução. Além disso, a função de ativação GeLU no modelo HAT-L é substituída pela função de ativação SiLU. Descobriu-se através de experimentos que a técnica de upsampling de Fourier introduzida não melhora significativamente o desempenho do modelo. No entanto, descobriu-se que introduzi-lo como um modelo de conjunto adicional melhorou ainda mais o desempenho.

3.2 A segunda etapa: aprimoramento estéreo baseado em CNN

3.2.1 Arquitetura de Rede

        O objetivo da segunda etapa é realizar a troca de informações estéreo. Para este fim, o modelo de super-resolução estéreo de última geração NAFSSR-L é adotado como backbone. NAFSSR-L também é um modelo de super-resolução 4x e não precisa ser ampliado neste estágio. Os pixels da imagem de entrada do estágio 1 são reorganizados 4 vezes para corresponder aos requisitos de tamanho de entrada e saída do segundo estágio. Os canais de entrada da primeira camada convolucional também são alterados de acordo. Isto pode reduzir a ocupação de memória e expandir o campo receptivo do NAFSSR-L. Chamamos esse modelo de UnshuffleNAFSSR-L. eu^{s1}A soma da imagem super-resolvida do estágio um é R^{s1}inserida no UnshuffleNAFSSR-L, como mostrado na Fig. Dadas as imagens de visualização esquerda e direita não agrupadas, elas são inseridas respectivamente em uma camada convolucional 3 × 3 para extrair recursos rasos, F_{L}^{2}onde F_{R}^{2}\em R^{H\vezes W\vezes C}C é o número de canais de recursos e C é definido como 128. Em seguida, os recursos superficiais são alimentados em sucessivos blocos livres de ativação não linear em cascata K2 (NAF) e um módulo de atenção cruzada estéreo (SCAM) para agregação de informações de visão cruzada. Para garantir alta eficiência, o NAFBlocks substitui a tradicional função de ativação não linear pela multiplicação e K2 é definido como 128. Um módulo SCAM é inserido entre cada dois blocos NAF para permitir a agregação de informações de visualização cruzada. O módulo SCAM realiza atenção cruzada nos recursos esquerdo e direito com base em Scaled DotProduct Attention, calcula o produto escalar de todas as chaves na consulta e aplica a função softmax para obter o peso dos valores. Em tarefas de super-resolução de imagens estereoscópicas, os pixels correspondentes entre as imagens esquerda e direita estão na mesma linha horizontal. Portanto, o módulo SCAM acumula todos os pontos marcadores na mesma linha horizontal nas visualizações esquerda e direita, capturando assim informações de visualização cruzada de maneira eficiente. Após agregação eficiente de informações de visão cruzada através de NAFblocks e SCAMs em cascata, as imagens estéreo aprimoradas resultantes são geradas por camadas convolucionais Eu^{sr}e R^{sr}camadas de embaralhamento de pixels, como mostrado na Figura 1 (b).

3.2.2 Estratégia global

        A autointegração é feita invertendo a imagem de entrada horizontal e verticalmente e invertendo as visualizações esquerda e direita. Para construir o resultado final do conjunto, dois modelos foram selecionados e foi calculada a média de seus resultados. É importante observar que a saída é mantida no formato de ponto flutuante para evitar possíveis erros de arredondamento.

3.3 A terceira etapa: efeito estéreo baseado na CNN

Percebemos que a saída do conjunto da segunda etapa não é satisfatória devido à falta de diversidade dos modelos treinados na segunda etapa. Portanto, apresentamos a terceira etapa. O estágio 3 é exatamente igual ao estágio 2, exceto que a entrada é alterada para a saída autointegrada do estágio 2 em vez da saída correspondente do estágio 1. Embora o desempenho do modelo esteja saturado no estágio 3 e não haja nenhuma melhoria óbvia em comparação com o estágio 2, ele atua como um bom modelo de conjunto e melhora ainda mais o desempenho do modelo treinado no estágio 2. As mudanças gerais de desempenho em cada estágio são mostradas na Tabela 2. Devido a limitações de tempo, apenas um modelo do estágio 3 foi treinado.

Figura 2. Melhoria de desempenho entre estágios (todos os valores PSNR são computados no conjunto de validação).

Acho que você gosta

Origin blog.csdn.net/weixin_42715977/article/details/131771037
Recomendado
Clasificación