PlaneRCNN: Detección y reconstrucción de planos 3D a partir de una única imagen

reducción

motivación

Comprender la red que reconoce el avión a partir de la imagen y comprender el documento:
PlaneRCNN: Detección y reconstrucción de aviones en 3D a partir de una sola imagen para trabajos posteriores.

Secuencia de tesis

3) PlaneRCNN: Detección y reconstrucción de planos 3D a partir de una única imagen

Objetivo

La imagen rgb de la cámara monocular -> el avión en la imagen rgb
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

Investigaciones recientes extraen información semánticamente plana de las imágenes. Como un refrigerador o una pared, etc.
De los trabajos de investigación anteriores, sabemos que la red neuronal puede extraer la información de profundidad en la imagen, y la información del plano también se puede extraer desde un ángulo similar. El método anterior para obtener el plano es el parámetro ax+by+cz ax+by+cz que la red neuronal devuelve directamente al plano tridimensionaluna x+por _+Los tres parámetros de c z . Pero un inconveniente de este método es que se debe dar un número máximo de planos. El efecto de este documento es que el número de aviones no está limitado. **Utiliza una variante de MAKS-RCNN para realizar instancias de región directamente en imágenes para obtener planos. **Sobre esta base, se realiza la segmentación de la red y se realizan la predicción normal y la predicción de profundidad del plano. Utilice estas dos piezas de información para fusionar y obtener un plano tridimensional.

¿Por qué se puede inferir información de planos 3D a partir de imágenes rgb?

El cambio en este artículo es principalmente para usar el marco de detección de regiones. La detección de regiones ha podido comprender el área local de la escena y usar la región detectada para obtener directamente la región plana. Consigue las máscaras de varios planos. Este método utiliza una variante de MASK-RCNN, el método de detección de regiones en este caso. No está limitado por el número de detecciones de región. Debido a que esta detección de área es generalmente aproximada o directamente encuadrada, el método de segmentación segmenta directamente el límite del área. Por lo tanto, la entrada de segmentación necesita obtener el plano normal y la profundidad de una sola imagen, que son todas tridimensionales, que es el paso de refinar. Fusión con el plano de detección del área original. Se puede obtener un plano tridimensional. Esta contribución radica en el primer uso de la detección de regiones para detectar cualquier número de planos.

La estructura general de la red
inserte la descripción de la imagen aquí
La estructura principal de la red anterior Red de detección de planos, BBOX, MASK usa el algoritmo de detección de área, y Normal usa un método maduro del área, que puede volver directamente a la normalidad, pero la expresión del vector normal es tomado de Mask-RCNN El ancla se representa de la siguiente manera:
inserte la descripción de la imagen aquí
Esta es la normal del plano de cálculo. Su enfoque es seleccionar un Anchor normal y regresar directamente al vector 3D. Esta es una expresión normal. Hay 7 áreas de dirección. Utiliza conceptos estadísticos. Realice estadísticas y agrupación en los vectores de envío de 1000 planos de imagen y obtenga un grupo de 7 vectores normales. Si lo hace, mejorará la tasa de precisión. No entiendo por qué se puede mejorar la tasa de precisión. Necesito ver el papel: Máscara r-cnn. Este es un documento muy importante sobre la detección de regiones para revisar.

La variante mencionada es la mejora de la red, llamada Red refinada de Segmento, es decir, la máscara extraída por cada red no es directamente conv y luego concanada, sino que la máscara del otro plano es convolucionada como una característica, y luego esta característica y otra ( excluyendo a uno mismo) todas las características significan concanato. Tiene las características de otras máscaras planas. Esto puede agregar funciones no locales, lo que funciona mejor. Entonces puedes ver la estructura a continuación.
inserte la descripción de la imagen aquí
La máscara de cada plano está convolucionada.

El último módulo es realmente muy simple, que es el módulo de pérdida de envoltura, este módulo está supervisado por otras perspectivas. Es ajustar el ángulo de visión adyacente a su propio ángulo de visión y luego restar directamente

Diseño de la función de pérdida

Además de sustraer directamente de la verdad del terreno. Como se muestra en la imagen:
inserte la descripción de la imagen aquí

También se resta de los ángulos de visión adyacentes, como sigue:
inserte la descripción de la imagen aquí
donde D n D^nDn representa la profundidad del ángulo de visión adyacente, donde( uw , vw ) (u^w, v^w)( tuw ,vw )son el resultado de la deformación, lo que significa( uw , vw ) (u^w, v^w)( tuw ,vw )Suma( un , vn ) (u^n, v^n)( tun ,vn )corresponde, por lo que se obtiene la profundidad del ángulo de visión actual correspondiente, que esD w D^wDw , para diferenciarlos.
inserte la descripción de la imagen aquí

Impresiones
Este documento trata más sobre la integración de múltiples módulos, principalmente para mejorar la integración de cada módulo. Se han mejorado algunas deficiencias de trabajos anteriores:
1) Ya no se limita el número de aviones representados.
2) Puede detectar pequeños aviones (en su parte refinada, la información de múltiples máscaras se fusiona en el tiempo)
3) Utiliza imágenes en perspectiva adyacentes
Defectos:
1) Integra varias redes para formar un sistema, y ​​al mismo tiempo, es más eficaz para la mejora de la red Simple. Para fusionar vistas vecinas, solo se usa como pérdida supervisada.

Cada plano de la red se puede detectar a través de la región, sin agregar la detección de puntos de esquina, o la detección de segmentos de línea, como una restricción. Tal vez este tipo de fusión no sea lo suficientemente amigable para la curva.

La fusión de características no utiliza la forma de crf.
Es relativamente simple usar imágenes desde otras perspectivas, y solo se fusiona como una función de pérdida simple. Las funciones de fusión de cada función son demasiado simples.

Supongo que te gusta

Origin blog.csdn.net/weixin_43851636/article/details/112546145
Recomendado
Clasificación