Captura de vista cruzada para superresolución de imagen estéreo

Enlace de código: https://github.com/xyzhu1/CVCnet

1. Antecedentes

A pesar del desempeño prometedor de los métodos SR de imagen estéreo existentes, las representaciones de características globales ricas de imágenes de vista cruzada permanecen en gran medida sin explorar. Dado que estos métodos de SR de imágenes binoculares asumen que las características adicionales se originan solo a partir de correspondencias estéreo a lo largo de las líneas epipolares, muchas características de vista cruzada útiles con patrones y texturas similares en las dos vistas se ignoran durante la generación de HR. Por lo tanto, cómo usar de manera efectiva las características globales y locales de los pares de imágenes estéreo para mejorar aún más la calidad de la reconstrucción SR de imágenes estéreo es un problema que vale la pena investigar.

Con el objetivo de resolver los problemas anteriores, este artículo propone un enfoque novedoso para mejorar el rendimiento de superresolución de las imágenes binoculares mediante la combinación de la rica representación de características de la vista general y las líneas epipolares.

2. Innovación

1. Se propone un CVB de bloque de vista cruzada para capturar características en diferentes niveles espaciales desde dos vistas diferentes, donde las correlaciones de características globales y locales se pueden aprender de manera efectiva para mejorar las representaciones de características para patrones similares en imágenes.

2. Se propone un módulo de percepción espacial en cascada SPM, que redistribuye cada posición en el mapa de características según su peso para que la extracción de características sea más eficiente.

3. Método

Marco de red:

CVCnet consta de tres componentes: Extracción de características iniciales (IFE), Bloque de vista cruzada (CVB) y Módulo de percepción espacial (SPM).

El IFE genera características multicanal como la entrada del bloque de vista cruzada, donde las correlaciones de características globales y locales se pueden aprender de manera efectiva para mejorar las representaciones de características para patrones similares en imágenes, y luego los mapas de disparidad se alimentan en el módulo de percepción espacial en cascada SPM para extraer de manera eficiente representaciones de características jerárquicas de las características integrales del CVB.

Estructura de bloque de vista cruzada:

Motivación del diseño: la superresolución de la imagen binocular existente depende en gran medida de las características correspondientes entre las vistas epipolar izquierda y derecha. Sin embargo, además de estas características locales, la información contextual global proporcionada por las imágenes de vista lateral también contribuye a la mejora de la calidad de la imagen estéreo SR. Por lo tanto, si solo se utiliza la información local a lo largo de la línea epipolar, se desperdiciará la información global en la imagen estereoscópica.

Se propone CVB para generar un mecanismo para explorar la correlación de características globales y locales para mejorar el proceso de reconstrucción.

Matriz de similitud a lo largo de las líneas epipolares para las vistas derecha e izquierda:

Incrustaciones de características para la vista correcta:

Para explotar las características contextuales globales en imágenes de vista cruzada, la matriz de similitud global:

La matriz de similitud global requiere un costo computacional demasiado alto. En este documento, se utiliza un esquema de muestreo piramidal para reducir significativamente la complejidad del tiempo:

Esquema de muestreo piramidal:

Si esta matriz de similitud Mg se explota directamente, puede incorporar demasiada información irrelevante de las imágenes de vista cruzada, lo que limita el rendimiento. Por ejemplo, en la Figura 2, excepto por la correspondencia en ambos extremos de la línea epipolar, algunas partes de la imagen tienen texturas similares a la región de destino, pero en la imagen de vista cruzada, la mayoría de las partes no contribuyen a la SR de esta región. Por lo tanto, es necesario eliminar las características de las ubicaciones con poca similitud con la ubicación de destino.

En CVB, una máscara está diseñada para filtrar características con poca similitud en imágenes de vista cruzada

(G·Mg) representa la matriz de filtro que retiene el mayor peso de la matriz de similitud global

Contiene información a lo largo de líneas epipolares e información global entre vistas que se cruzan.

Módulo de percepción espacial SPM :

SPM mejora las partes útiles de las funciones al reasignar cada píxel en el mapa de funciones de acuerdo con el peso que ocupa

Estas características se dividen en dos partes según la dimensión del canal. Una parte se envía al siguiente módulo de extracción de características y la otra parte se reserva para la fusión de características.

Bloque consciente de píxeles (PPB):

Amplíe el campo receptivo de características utilizando un enfoque incremental. Primero, Fstrided se obtiene por convolución de salto. Sin embargo, el campo receptivo de Fstrided sigue siendo limitado, por lo que se aplica una capa de agrupación máxima y se obtiene Fpooling. Expresado de la siguiente manera:

4. Experimenta

Análisis de resultados visuales:

Aunque PASSRnet produce texturas más claras, la mayoría de sus líneas todavía están lejos de las imágenes de HR, y nuestro método forma mosaicos de líneas independientes entre sí con la misma dirección, que es más similar a las imágenes de HR.

Los dos bordes de la motocicleta en la imagen HR son claros y nítidos. Sin embargo, los contornos reconstruidos por la mayoría de los métodos tienen dificultad para identificar bordes afilados.

Comparación de rendimiento y tiempo de ejecución:

En comparación con PASSRnet, nuestro método aún tiene un mejor rendimiento cuando la cantidad de parámetros se reduce en una cuarta parte.

Experimento de ablación:

  

Experimento de ablación del núcleo de la pirámide de imágenes:

Experimento de ablación de doble vista:

Resumir:

En este artículo, se propone una red de captura de vista cruzada CVCnet para los métodos anteriores que no hacen un uso completo de la información de la imagen de la posición no polar de otro ángulo de visión. Al diseñar CVB para capturar el contexto global y la incorporación de características locales entre las dos perspectivas, se propone que el módulo SPM redistribuya los píxeles de acuerdo con sus pesos para mejorar la eficiencia de la extracción de características. Explore representaciones ricas de características a través de vistas a través de dos módulos del diseñador.

Todos son bienvenidos a agregar deficiencias. No he usado este método antes y no conozco las deficiencias por el momento.

Supongo que te gusta

Origin blog.csdn.net/m0_55780358/article/details/131124443
Recomendado
Clasificación