Notas sobre "Geometría de vista múltiple en visión por computadora" (1)

1 Introducción: un recorrido por la geometría de vistas múltiples

Este capítulo presenta las ideas principales del libro.

1.1 Introducción: la omnipresente geometría proyectiva

Para entender por qué necesitamos la geometría proyectiva, comenzamos con la conocida geometría euclidiana. La geometría euclidiana sostiene que las líneas paralelas no se cruzan en dos dimensiones, y una forma común de resolver este problema es decir que las líneas paralelas se cruzan "en el infinito". Sin embargo, esto no es del todo convincente y entra en conflicto con otra máxima de que el infinito no existe sino que es simplemente una ficción conveniente. Podemos resolver este problema aumentando el plano euclidiano sumando estos puntos en el infinito donde se cruzan las líneas paralelas, y resolviendo la dificultad en el infinito llamándolos "puntos ideales".

Al agregar estos infinitos puntos, el familiar espacio euclidiano se transforma en un nuevo tipo de objeto geométrico, el espacio proyectivo. Esta es una forma de pensar muy útil porque estamos familiarizados con las propiedades del espacio euclidiano, que involucran conceptos como distancias, ángulos, puntos, líneas e incidencia. No hay nada terriblemente misterioso en el espacio proyectivo: es simplemente una extensión del espacio euclidiano, en el que dos líneas siempre se encuentran en un punto, aunque a veces en un punto en el infinito.

Un simple punto euclidiano 2D (x, y) puede agregar una coordenada adicional para convertirse en (x, y, 1), o puede expresarse como (kx, ky, k). Bueno, podemos observar que aunque (x, y, 1) representa el mismo punto que el par de coordenadas (x, y), no existe ningún punto correspondiente a (x, y, 0). Si intentamos dividir por la última coordenada, obtenemos un punto infinito (x/0, y/0). Así se crea el punto del infinito. Son puntos representados por coordenadas homogéneas, donde la última coordenada es cero. Por tanto, (x, y, 0) representa el punto en el infinito.

La traslación y la rotación se denominan transformación euclidiana, y la transformación proyectiva equivale a multiplicar una matriz homogénea bajo coordenadas homogéneas. Este es un método de representación común en visión artificial, gráficos y robótica. Un tipo de transformación más general es una transformación lineal seguida de una transformación euclidiana que mueve el origen del espacio. Podemos considerarlo como un espacio que se mueve, gira y, en última instancia, se estira linealmente en diferentes direcciones a diferentes escalas, y la transformación resultante se denomina transformación afín.

1.2 Proyecciones de cámara

El principio de proyección de la cámara puede considerarse como la proyección del espacio proyectivo al plano proyectivo, y basta con convertir las coordenadas homogéneas a través de una matriz de 3x4.

Una cámara puede verse como un punto.

En cuanto a las cámaras, si se puede obtener IAC (imagen de cónica absoluta) en una cámara, entonces decimos que la cámara ha sido calibrada.

1.3 Reconstrucción desde más de una vista

Consideremos la reconstrucción de dos imágenes: la reconstrucción a menudo produce muchas soluciones. Debe haber al menos 7 puntos que no se encuentren en posiciones críticas para determinar el resultado de la reconstrucción.
Nuestro objetivo es conocer los puntos correspondientes en las dos imágenes y queremos obtener sus coordenadas de cámara y las coordenadas 3D correspondientes. Esta solución debe ser incierta. La incertidumbre se puede describir mediante transformación de proyección. Este tipo de reconstrucción se llama reconstrucción de proyección.
El método básico de reconstrucción es encontrar la matriz fundamental, lo que significa que las dos imágenes corresponden a los mismos puntos 3D.
El proceso principal de reconstrucción: encontrar la matriz básica, encontrar la matriz de la cámara y luego usar el método trigonométrico para encontrar los puntos 3D correspondientes.

1.4 Geometría de tres vistas

El principio básico de la reconstrucción correspondiente a tres imágenes es similar al de la reconstrucción de dos vistas, pero el cálculo será más complicado.

1.5 Geometría de cuatro vistas y reconstrucción de n vistas

Para la reconstrucción de múltiples vistas, existen diferentes métodos de reconstrucción para diferentes secuencias. Un paso básico es el ajuste del paquete, que requiere ajustes iterativos repetidos.

1.6 Transferencia

Hemos hablado de la reconstrucción 3D a partir de un conjunto de imágenes. Otra aplicación útil de la geometría proyectiva es la transferencia: dada la posición de un punto en una (o más) imágenes, determine dónde aparece en todas las demás imágenes del conjunto. Para ello, primero debemos establecer la relación entre cámaras utilizando (por ejemplo) un conjunto de correspondencias de puntos auxiliares.

1.7 reconstrucción euclidiana

La tarea fundamental de reconstruir la geometría euclidiana es encontrar el plano donde se encuentra la curva cuadrática absoluta y el plano en el infinito. Mientras se encuentren estos dos planos, se conocerán todas las estructuras geométricas euclidianas.

1.8 Autocalibración

Supongo que te gusta

Origin blog.csdn.net/YuhsiHu/article/details/132863573
Recomendado
Clasificación