Visión artificial estereoscópica minimalista de un vistazo

Una visión general de la visión estereoscópica

        El mundo objetivo es tridimensional en el espacio, por lo que la investigación y la aplicación de la visión deben ser fundamentalmente tridimensionales. Las imágenes adquiridas por la mayoría de los dispositivos de adquisición de imágenes existentes están en un plano 2D, aunque pueden contener información espacial de objetos 3D. Para entender el mundo a partir de imágenes, es necesario recuperar información espacial en 3D a partir de imágenes en 2D. La clave aquí es medir la distancia entre cada punto de la escena y el observador (o cualquier punto de referencia), mientras que la visión estéreo es la Una forma importante de resolver este problema.

        La visión estereoscópica es el proceso de extraer información 3D de múltiples vistas 2D de una escena. Utilizado en aplicaciones tales como sistemas avanzados de asistencia al conductor (ADAS) y navegación robótica, la visión estéreo se utiliza para estimar la distancia real o el rango de objetos de interés para la cámara.

        La información 3D se puede obtener de un par de imágenes (también conocido como par estéreo) al estimar las profundidades relativas de los puntos en la escena. Estas estimaciones se representan en un mapa de disparidad estéreo, que se construye haciendo coincidir los puntos correspondientes en pares estéreo.

2. Información 3D en imágenes

1. Sombra

 2. Textura

 3. Enfoque

 4. Ejercicio

 5. Otro

6. Información de alto nivel 

perspectiva
 silueta oscurecida

         Los objetos de tamaño similar parecen más pequeños a la distancia (esto también está relacionado con la perspectiva)

3. Sistema de visión estereoscópica

 1. Calibración de la cámara

        El propósito es determinar los parámetros de atributos internos y externos de la cámara de acuerdo con el modelo de imagen efectivo, para establecer correctamente la relación correspondiente entre el punto del objeto en el sistema de coordenadas espaciales y su punto de imagen en el plano de la imagen. En la visión estéreo, a menudo se utilizan múltiples cámaras y cada cámara debe calibrarse por separado en este momento. Al derivar información 3D a partir de coordenadas de imágenes de computadora 2D, solo se requiere una calibración si la cámara está estacionaria. Si la cámara se está moviendo, es posible que se requieran múltiples calibraciones.

2. Adquisición de imágenes

        La adquisición de imágenes implica dos aspectos de las coordenadas espaciales y las propiedades de la imagen. La adquisición de imágenes estereoscópicas es la base material de la visión estereoscópica. Las imágenes estéreo más utilizadas son las imágenes binoculares. En los últimos años también existen muchos métodos que utilizan imágenes multiojo, las cámaras (y los correspondientes puntos de observación) que obtienen estas imágenes multiojo pueden estar en línea recta, en un plano o incluso en forma de estéreo. distribución.

3. Extracción de características

        La visión estereoscópica ayuda a obtener información tridimensional (especialmente información de profundidad) al aprovechar la disparidad entre diferentes puntos de vista de una misma escena. Cómo determinar la relación correspondiente de la misma escena en diferentes imágenes es un paso clave. Una de las soluciones a este problema es seleccionar características de imagen apropiadas para la coincidencia entre imágenes estéreo. La característica mencionada aquí es un concepto general, que se refiere principalmente a la expresión y descripción de un píxel o una colección de píxeles de forma abstracta. En la actualidad, no existe una teoría universalmente aplicable para obtener características de imagen. Las características de coincidencia de uso común de pequeño a grande son principalmente características de punto, características de línea y características regionales. En términos generales, las características a gran escala contienen información de imagen más rica, requieren menos números y es fácil obtener coincidencias rápidas; sin embargo, su extracción y descripción son relativamente complicadas y su precisión de posicionamiento también es pobre. Por otro lado, las características de pequeña escala en sí mismas tienen una alta precisión de posicionamiento y una expresión y descripción simples; sin embargo, sus números suelen ser grandes, pero la cantidad de información que contienen es pequeña, por lo que es necesario utilizar restricciones fuertes y coincidencias sólidas. estrategias en el emparejamiento. .

4. Coincidencia estéreo

        La coincidencia estéreo se refiere a establecer la relación correspondiente entre las características de acuerdo con el cálculo de las características seleccionadas, para establecer la relación entre los puntos de la imagen del mismo punto espacial en diferentes imágenes y así obtener la imagen de paralaje correspondiente. La coincidencia estéreo es el paso más importante y difícil en la visión estéreo. Cuando una escena 3D espacial se proyecta como una imagen 2D, las imágenes de la misma escena desde diferentes puntos de vista serán muy diferentes y hay muchos factores cambiantes en la escena, como las condiciones de iluminación, interferencia de ruido, geometría y distorsión de la escena, superficie Las características físicas, así como las características de la cámara, etc., se integran en un único valor de gris de imagen. Es muy difícil determinar los factores anteriores solo por este valor gris, y este problema no se ha resuelto bien hasta ahora.

5. Recuperación de información 3D

        Cuando la imagen de disparidad se obtiene a través de la coincidencia estéreo, la imagen de profundidad se puede calcular aún más y se puede recuperar la información 3-D en la escena (el Capítulo 10 también presentará otros métodos de restauración de escena 3-D en detalle). Los factores que afectan la precisión de la medición de la distancia de profundidad incluyen principalmente el efecto de cuantificación digital, el error de calibración de la cámara, la detección de características y la precisión del posicionamiento coincidente, etc. En términos generales, la precisión de la medición de profundidad es proporcional a la precisión de posicionamiento coincidente y es proporcional a la longitud de la línea de base de la cámara (la línea que conecta las diferentes posiciones de la cámara). Aumentar la longitud de la línea de base puede mejorar la precisión de la medición de profundidad, pero al mismo tiempo aumenta la diferencia entre las imágenes y la posibilidad de que la escena esté oculta aumenta la dificultad de la coincidencia. Por lo tanto, para diseñar un sistema de visión estéreo preciso, se deben considerar todos los factores de manera integral para garantizar que cada enlace tenga una alta precisión.

Cuarto, OpenCV calcula el mapa de profundidad de la imagen estéreo

        Principalmente la función StereoBM_create.

import numpy as np
import cv2 as cv
from matplotlib import pyplot as plt

imgL = cv.imread('Tsukuba_L.png', 0)
imgR = cv.imread('Tsukuba_R.png', 0)

stereo = cv.StereoBM_create(numDisparities=16, blockSize=15)
disparity = stereo.compute(imgL, imgR)

        Muestre los resultados, si no está satisfecho con los resultados, puede ajustar los parámetros numDisparities y blockSize.

fig, ax = plt.subplots(ncols=3, nrows=1)
ax[0].imshow(imgL)
ax[1].imshow(imgR)
ax[2].imshow(disparity)
plt.show()

Supongo que te gusta

Origin blog.csdn.net/bashendixie5/article/details/127075247
Recomendado
Clasificación