Captura de visão cruzada para super-resolução de imagem estéreo

Link do código: https://github.com/xyzhu1/CVCnet

1. Fundo

Apesar do desempenho promissor dos métodos SR de imagem estéreo existentes, as ricas representações globais de recursos de imagens cruzadas permanecem amplamente inexploradas. Uma vez que esses métodos SR de imagem binocular assumem que recursos adicionais se originam apenas de correspondências estéreo ao longo de linhas epipolares, muitos recursos úteis de visão cruzada com padrões e texturas semelhantes nas duas visualizações são ignorados durante a geração de HR. Portanto, como usar efetivamente os recursos globais e locais de pares de imagens estéreo para melhorar ainda mais a qualidade da reconstrução SR de imagens estéreo é um problema digno de pesquisa.

Visando os problemas acima, este artigo propõe uma nova abordagem para melhorar o desempenho de super-resolução de imagens binoculares, combinando a rica representação de recursos da visão geral e das linhas epipolares.

2. Inovação

1. Um CVB de bloco de visão cruzada é proposto para capturar recursos em diferentes níveis espaciais de duas visualizações diferentes, onde as correlações de recursos globais e locais podem ser efetivamente aprendidas para aprimorar as representações de recursos para padrões semelhantes em imagens.

2. É proposto um módulo de percepção espacial em cascata SPM, que redistribui cada posição no mapa de feições de acordo com seu peso para tornar a extração de feições mais eficiente.

3. Método

Estrutura de rede:

O CVCnet consiste em três componentes: Initial Feature Extraction (IFE), Cross-View Block (CVB) e Spatial Perception Module (SPM).

O IFE emite recursos multicanal como a entrada do bloco de visão cruzada, onde as correlações de recursos globais e locais podem ser efetivamente aprendidas para aprimorar as representações de recursos para padrões semelhantes em imagens e, em seguida, os mapas de disparidade são alimentados no módulo de percepção espacial em cascata SPM para extrair com eficiência as representações de recursos hierárquicos dos recursos abrangentes do CVB.

Estrutura do bloco de visão cruzada:

Motivação do projeto: A super-resolução de imagem binocular existente depende muito dos recursos correspondentes entre as visualizações epipolar esquerda e direita. No entanto, além desses recursos locais, as informações contextuais globais fornecidas pelas imagens de visão lateral também contribuem para o aprimoramento da qualidade da imagem estéreo SR. Portanto, se apenas a informação local ao longo da linha epipolar for usada, a informação global na imagem estéreo será desperdiçada.

CVB é proposto para gerar um mecanismo para explorar a correlação de características globais e locais para melhorar o processo de reconstrução

Matriz de similaridade ao longo das linhas epipolares para vistas direita e esquerda:

Incorporações de recursos para a visualização correta:

Para explorar recursos contextuais globais em imagens cruzadas, a matriz de similaridade global:

A matriz de similaridade global requer um custo computacional muito alto. Neste artigo, um esquema de amostragem em pirâmide é usado para reduzir significativamente a complexidade do tempo:

Esquema de amostragem em pirâmide:

Se esta matriz de similaridade Mg for explorada diretamente, ela pode incorporar muitas informações irrelevantes das imagens cruzadas, limitando assim o desempenho. Por exemplo, na Figura 2, exceto pela correspondência em ambas as extremidades da linha epipolar, algumas partes da imagem têm texturas semelhantes à região alvo, mas na imagem cruzada, a maioria das partes não contribui para o SR dessa região. Portanto, é necessário eliminar características de locais com baixa similaridade com o local de destino.

No CVB, uma máscara é projetada para filtrar recursos com baixa similaridade em imagens cruzadas

(G·Mg) representa a matriz de filtro que retém o maior peso da matriz de similaridade global

Contém informações ao longo das linhas epipolares e informações globais entre visualizações que se cruzam.

Módulo de percepção espacial SPM :

O SPM aprimora partes úteis dos recursos reatribuindo cada pixel no mapa de recursos de acordo com o peso que ocupa

Esses recursos são divididos em duas partes de acordo com a dimensão do canal. Parte dela é enviada para o próximo módulo de extração de recursos e a outra parte é reservada para fusão de recursos.

Pixel Aware Block (PPB):

Expandindo o campo receptivo de recursos usando uma abordagem incremental. Primeiro, Fstrided é obtido por convolução saltada. No entanto, o campo receptivo de Fstrided ainda é limitado, então uma camada de pooling máxima é aplicada e o Fpooling é obtido. Expresso da seguinte forma:

4. Experimente

Análise de resultados visuais:

Embora o PASSRnet produza texturas mais nítidas, a maioria de suas linhas ainda está longe das imagens HR, e nosso método ladrilha as linhas independentemente umas das outras com a mesma direção, que é mais semelhante às imagens HR.

As duas bordas da motocicleta na imagem HR são claras e nítidas. No entanto, os contornos reconstruídos pela maioria dos métodos têm dificuldade em identificar arestas vivas.

Comparação de desempenho x tempo de execução:

Comparado com o PASSRnet, nosso método ainda apresenta melhor desempenho quando o número de parâmetros é reduzido em um quarto.

Experimento de ablação:

Experimento de ablação de núcleo de pirâmide de imagem:

Experimento de ablação de visão dupla:

Resumir:

Neste artigo, uma rede de captura de visão cruzada CVCnet é proposta para os métodos anteriores que não fazem uso total das informações da imagem da posição não polar de outro ângulo de visão. Ao projetar o CVB para capturar o contexto global e a incorporação de recursos locais entre duas perspectivas, o módulo SPM propõe redistribuir os pixels de acordo com seus pesos para melhorar a eficiência da extração de recursos. Explore representações de recursos avançados em visualizações por meio de dois módulos do designer.

Todos são bem-vindos para adicionar deficiências. Eu não usei esse método antes e não conheço as deficiências por enquanto.

Captura de visão cruzada para super-resolução de imagem estéreo

Acho que você gosta