1. Resumo
Estratégias de vários estágios são frequentemente usadas em tarefas de restauração de imagens. Embora os métodos baseados em Transformer tenham mostrado alta eficiência em tarefas de super-resolução de imagem única, eles ainda não mostraram vantagens significativas sobre os métodos baseados em CNN em tarefas de super-resolução estereoscópicas.
Isso pode ser atribuído a dois fatores principais:
primeiro , os transformadores de corrente para super-resolução de imagem única não podem explorar informações estéreo complementares no
processo ; elas não existem no algoritmo de resolução.
Para resolver essas questões, o artigo propõe um Transformador Híbrido e Rede de Atenção CNN (HTCAN), que utiliza uma rede baseada em Transformer para aprimoramento de imagem única e uma rede baseada em CNN para fusão de informações estéreo.
2. Breve introdução
2.1 A diferença entre super-resolução estéreo e super-resolução de imagem única
2.1.1 A diferença entre super-resolução estéreo e super-resolução de imagem única 1
Super-resolução de imagem estereoscópica : visa reconstruir imagens de alta resolução a partir de imagens de baixa resolução da vista esquerda e direita.
Super-resolução de imagem única : visa reconstruir uma imagem de alta resolução a partir de uma determinada imagem de visualização principal de baixa resolução.
2.1.2 A diferença entre super-resolução estéreo e super-resolução de imagem única 2
Super-resolução de imagem estereoscópica : A super-resolução de imagem estereoscópica pode utilizar informações de duas visualizações com grandes áreas sobrepostas.
Super-resolução de imagem única : A super-resolução de imagem única só pode utilizar informações de uma única visualização.
As informações perdidas em uma visão ainda podem estar presentes em outra visão, e a utilização de informações adicionais de outra visão pode beneficiar enormemente o processo de reconstrução. Portanto, o desempenho final dos algoritmos de super-resolução de imagens estereoscópicas depende em grande parte da capacidade de extração de recursos e da capacidade de troca de informações estéreo de cada visualização.
2.1.3 Transformador Híbrido e rede de atenção CNN
Em uma rede híbrida de atenção Transformer e CNN, um Transformer é usado como o primeiro estágio para garantir que a maioria dos recursos importantes da imagem de baixa resolução de visualização única sejam preservados para processamento posterior, e um método baseado em CNN é usado no segundo estágio para troca eficaz de informações estéreo.
2.1.4 Contribuições específicas deste artigo
①Uma rede híbrida de super-resolução de imagem estéreo : é proposto um algoritmo unificado de super-resolução de imagem estéreo, que integra o transformador e a arquitetura CNN, em que o transformador é usado para extrair os recursos de imagens de visualização única, e o módulo CNN é usado para trocar duas informações de visualização e gerar a imagem final de super-resolução.
②Aumento abrangente de dados : Técnicas como estratégias de treinamento multi-patch são exaustivamente estudadas e aplicadas à super-resolução de imagens estereoscópicas.
③ Desempenho de última geração : O método proposto atinge um novo desempenho de última geração e conquistou o primeiro lugar no Desafio de Super-Resolução de Imagem Estéreo.
3. Métodos específicos
O Transformador Híbrido e Rede de Atenção CNN (HTCAN) proposto é uma rede de restauração multinível, conforme mostrado na Figura 1. No estágio um, dadas imagens e somas estéreo de baixa resolução , elas são primeiro super-resolvidas em somas usando uma rede de super-resolução de imagem única baseada em Transformer . No segundo estágio, a rede baseada em CNN é usada para realizar o aprimoramento estéreo na soma , e a soma da imagem aprimorada é obtida . No terceiro estágio, usamos a mesma rede baseada em CNN do segundo estágio para maior aprimoramento estéreo e integração do modelo.
3.1 Fase 1: Super-resolução de imagem única baseada em transformador
3.1.1 Arquitetura de Rede
A entrada da rede de super-resolução de imagem única (SISR) baseada em Transformer é 1 patch de imagem de baixa resolução e 8 patches ao seu redor, conforme mostrado na Figura 1 (a). Os oito patches circundantes são cortados na parte superior, inferior, esquerda e direita do patch central. Portanto, os oito pequenos blocos circundantes podem estender-se para além da borda da imagem. Nesse caso, a imagem é estendida usando preenchimento de reflexão, e o patch de baixa resolução e os oito patches adjacentes são extraídos da imagem de preenchimento. Dados 9 patches de entrada de baixa resolução, eles são primeiro alimentados em uma camada convolucional 3 × 3 para extrair recursos superficiais, onde C é o número de canais de recursos e o número de canais é definido como 180. Recursos superficiais fornecem uma percepção inicial da entrada, que é então alimentada em um Grupo de Atenção Híbrida Residual (RHAG) contínuo em cascata K1 para autoatenção e informações agregadas, com K1 definido como 12. Além disso, o tamanho da janela foi aumentado para 24 × 24 para melhor agregação de informações dentro da janela. Finalmente, após a eficiente agregação de informações do RHAG em cascata, imagens de super-resolução são geradas através de camadas convolucionais e camadas de pixel shuffle. A saída da rede é o patch de alta resolução correspondente ao patch central.
3.1.2 Estratégia global
A autointegração é obtida girando e invertendo horizontalmente/verticalmente imagens de entrada de baixa resolução. Além disso, a função de ativação GeLU no modelo HAT-L é substituída pela função de ativação SiLU. Descobriu-se através de experimentos que a técnica de upsampling de Fourier introduzida não melhora significativamente o desempenho do modelo. No entanto, descobriu-se que introduzi-lo como um modelo de conjunto adicional melhorou ainda mais o desempenho.
3.2 A segunda etapa: aprimoramento estéreo baseado em CNN
3.2.1 Arquitetura de Rede
O objetivo da segunda etapa é realizar a troca de informações estéreo. Para este fim, o modelo de super-resolução estéreo de última geração NAFSSR-L é adotado como backbone. NAFSSR-L também é um modelo de super-resolução 4x e não precisa ser ampliado neste estágio. Os pixels da imagem de entrada do estágio 1 são reorganizados 4 vezes para corresponder aos requisitos de tamanho de entrada e saída do segundo estágio. Os canais de entrada da primeira camada convolucional também são alterados de acordo. Isto pode reduzir a ocupação de memória e expandir o campo receptivo do NAFSSR-L. Chamamos esse modelo de UnshuffleNAFSSR-L. A soma da imagem super-resolvida do estágio um é inserida no UnshuffleNAFSSR-L, como mostrado na Fig. Dadas as imagens de visualização esquerda e direita não agrupadas, elas são inseridas respectivamente em uma camada convolucional 3 × 3 para extrair recursos rasos, onde C é o número de canais de recursos e C é definido como 128. Em seguida, os recursos superficiais são alimentados em sucessivos blocos livres de ativação não linear em cascata K2 (NAF) e um módulo de atenção cruzada estéreo (SCAM) para agregação de informações de visão cruzada. Para garantir alta eficiência, o NAFBlocks substitui a tradicional função de ativação não linear pela multiplicação e K2 é definido como 128. Um módulo SCAM é inserido entre cada dois blocos NAF para permitir a agregação de informações de visualização cruzada. O módulo SCAM realiza atenção cruzada nos recursos esquerdo e direito com base em Scaled DotProduct Attention, calcula o produto escalar de todas as chaves na consulta e aplica a função softmax para obter o peso dos valores. Em tarefas de super-resolução de imagens estereoscópicas, os pixels correspondentes entre as imagens esquerda e direita estão na mesma linha horizontal. Portanto, o módulo SCAM acumula todos os pontos marcadores na mesma linha horizontal nas visualizações esquerda e direita, capturando assim informações de visualização cruzada de maneira eficiente. Após agregação eficiente de informações de visão cruzada através de NAFblocks e SCAMs em cascata, as imagens estéreo aprimoradas resultantes são geradas por camadas convolucionais e camadas de embaralhamento de pixels, como mostrado na Figura 1 (b).
3.2.2 Estratégia global
A autointegração é feita invertendo a imagem de entrada horizontal e verticalmente e invertendo as visualizações esquerda e direita. Para construir o resultado final do conjunto, dois modelos foram selecionados e foi calculada a média de seus resultados. É importante observar que a saída é mantida no formato de ponto flutuante para evitar possíveis erros de arredondamento.
3.3 A terceira etapa: efeito estéreo baseado na CNN
Percebemos que a saída do conjunto da segunda etapa não é satisfatória devido à falta de diversidade dos modelos treinados na segunda etapa. Portanto, apresentamos a terceira etapa. O estágio 3 é exatamente igual ao estágio 2, exceto que a entrada é alterada para a saída autointegrada do estágio 2 em vez da saída correspondente do estágio 1. Embora o desempenho do modelo esteja saturado no estágio 3 e não haja nenhuma melhoria óbvia em comparação com o estágio 2, ele atua como um bom modelo de conjunto e melhora ainda mais o desempenho do modelo treinado no estágio 2. As mudanças gerais de desempenho em cada estágio são mostradas na Tabela 2. Devido a limitações de tempo, apenas um modelo do estágio 3 foi treinado.