Resumen del clásico <algoritmo de estimación de actitud 6D>

Enlace de referencia: Acaparamiento de brazo robótico---(1) Resumen-PeterPeng7997 - Blog Park (cnblogs.com)

Resumen de 17 algoritmos de estimación de actitud 6D (incluidos artículos, códigos e interpretaciones)

Estimación de pose 6D (código abierto incluye prueba de video)

1. Fusión densa

Enlace original: https://arxiv.org/abs/1901.04780
Enlace de código: https://github.com/j96w/DenseFusion
La idea principal: estimar la pose 6D de un objeto conocido a partir de la imagen RGB-D . Procese las dos fuentes de datos por separado. Utilice una red de fusión densa para extraer incrustaciones de características densas a nivel de píxeles y estimar poses a partir de ellas.
Contribuciones de este artículo:
①Proponer un método para fusionar la información de color y profundidad de la entrada RGBD . Use la información 2D en el espacio de incrustación para aumentar la información de cada punto 3D y use este nuevo espacio de profundidad de color para estimar la pose 6D.
② Se integra un proceso iterativo de ajuste fino en la arquitectura de la red neuronal, que elimina la dependencia de los pasos ICP anteriores y posteriores al procesamiento.

2.PVNet (red de votación por píxeles, PVNet)

Enlace en papel: https://arxiv.org/pdf/1812.11788.pdf
Enlace en código: https://github.com/zju3dv/pvnet
Idea principal: usar PVNet para devolver vectores de unidades de píxeles que apunten a puntos clave y usar estos vectores RANSAC votos en ubicaciones de puntos clave , lo que lo hace resistente a la oclusión o el truncamiento. Además, esta representación proporciona incertidumbres en las ubicaciones de los puntos clave, que pueden ser explotadas aún más por el solucionador de PNP.
Contribuciones de este artículo:
① Incluso en el caso de oclusión y truncamiento, la red PVNet puede aprender una representación de campo vectorial que apunta a puntos clave 2D; innovación del autor: puede aprender puntos clave 2D muy robustos.
②Basado en la predicción densa obtenida por PVNet, el autor usa un algoritmo PnP basado en la distribución de puntos clave para obtener la pose (R, t) de la distribución de puntos clave 2D.

3. Espacio de coordenadas de objeto normalizado para la estimación de tamaño y pose de objeto 6D de nivel de categoría (CVPR2019)

Enlace del artículo: https://arxiv.org/abs/1901.02970
Enlace del código: https://github.com/hughw19/NOCS_CVPR2019
Idea principal: el objetivo de este artículo es estimar 6D de instancias de objetos nunca antes vistos en RGB -D pose y tamaño de las imágenes. Los autores asumen que no hay modelos CAD precisos disponibles durante el entrenamiento o la prueba. Para tratar instancias de objetos diferentes y nunca antes vistas en una categoría determinada , los autores introducen un espacio de coordenadas de objetos estandarizado (NOCS, por sus siglas en inglés), es decir, todas las instancias de objetos en la misma categoría están representadas por un modelo estándar compartido. . Luego, se entrena una red neuronal para inferir la correspondencia de los píxeles observados con un modelo estándar compartido, así como otra información, como etiquetas de clase y máscaras. Estime conjuntamente la pose 6D y el tamaño de múltiples objetos en escenas abarrotadas combinando imágenes predichas con mapas de profundidad. Para entrenar la red, los autores proponen una técnica novedosa consciente del contexto para generar grandes cantidades de datos de realidad mixta anotados. Para mejorar aún más el modelo y evaluar su rendimiento en datos reales, los autores también proporcionan un conjunto de datos de escena real completamente anotado. Extensos experimentos demuestran que el método puede estimar de manera sólida la pose y el tamaño de objetos nunca antes vistos en escenas reales.
Las principales contribuciones:
①La red neuronal está entrenada para inferir la correspondencia entre los píxeles observados y los modelos estándar compartidos, así como otra información, como etiquetas de categoría y máscaras. Estime conjuntamente la pose 6D y el tamaño de múltiples objetos en escenas abarrotadas combinando imágenes predichas con mapas de profundidad. Para entrenar la red, los autores proponen una técnica novedosa consciente del contexto para generar grandes cantidades de datos de realidad mixta anotados. Para mejorar aún más el modelo y evaluar su rendimiento en datos reales, los autores también proporcionan un conjunto de datos de escena real completamente anotado. Extensos experimentos demuestran que el método puede estimar de manera sólida la pose y el tamaño de objetos nunca antes vistos en escenas reales.
②Proponga una CNN que pueda predecir la etiqueta de categoría del objeto, la máscara y el mapa NOCS al mismo tiempo, y haga coincidir el mapa NOCS con el mapa de profundidad para estimar la pose y el tamaño del objeto nunca antes visto.
③ Use el método de realidad mixta de conocimiento del contexto espacial para generar automáticamente una gran cantidad de datos para entrenamiento y pruebas.

4.Pix2Pose

Enlace del artículo: https://arxiv.org/abs/1908.07433
Idea principal: debido a problemas de oclusión y simetría, es difícil estimar la pose usando solo imágenes RGB. Es difícil construir un modelo 3D de un objeto sin un equipo de escaneo profesional. Por lo tanto, Pix2Pose predice las coordenadas 3D de cada píxel del objeto sin un modelo de textura . Se diseña una estructura de autocodificador para estimar las coordenadas 3D y el error esperado por píxel. Estas predicciones a nivel de píxel se utilizan luego en múltiples etapas para formar correspondencias 2D-3D, y la pose se calcula directamente con el algoritmo iterativo PnP de RANSAC. Nuestro método es resistente a las oclusiones al aprovechar los resultados recientes en el entrenamiento de adversario generativo para recuperar las partes ocluidas con precisión. Además, se propone una nueva función de pérdida de pérdida del transformador para manejar objetos simétricos al dirigir las predicciones a la pose simétrica más cercana.Los cálculos en tres conjuntos de datos de referencia diferentes que contienen objetos simétricos y ocluidos muestran que nuestro método supera Un método actualizado que usa solo RGB imágenes
Contribuciones de este artículo:
① Se propone un nuevo marco de estimación de poses 6D, Pix2Pose, que utiliza un modelo 3D sin textura durante el entrenamiento para realizar una regresión sólida de las coordenadas 3D a nivel de píxel de los objetos a partir de imágenes RGB.
② Una nueva función de pérdida: la pérdida del transformador, que se utiliza para tratar objetos simétricos con un número limitado de vistas borrosas.
③ Los resultados experimentales en tres conjuntos de datos diferentes, LineMOD, LineMOD Occlusion y TLess, muestran que Pix2Pose supera a los métodos más avanzados incluso cuando los objetos están ocluidos o son simétricos.

5.Deep-6DPose

Enlace del artículo: https://arxiv.org/abs/1802.10367v1
Idea principal: este artículo presenta un marco de aprendizaje profundo de extremo a extremo, deep-6DPose, que puede detectar, segmentar y recuperar conjuntamente la pose 6D de una instancia de objeto de una sola imagen RGB. Extendemos la red de segmentación de instancias de última generación Mask R-CNN a una nueva rama de estimación de poses que retrocede directamente las poses de objetos 6D sin ningún procesamiento posterior.
Contribuciones en papel:
Nuestra contribución técnica clave es desacoplar los parámetros de pose en traslación y rotación para retroceder la rotación a través de una representación de álgebra de Lie. La pérdida de regresión de pose resultante es diferencial y sin restricciones, lo que hace que el entrenamiento sea manejable. Los experimentos en dos conjuntos de datos de referencia de pose estándar muestran que nuestro método propuesto supera los métodos de estimación de pose de múltiples etapas basados ​​en RGB de última generación. Es importante destacar que, debido a la arquitectura de extremo a extremo, Deep-6DPose es mucho más rápido que los métodos de varias etapas de la competencia y proporciona una velocidad de inferencia de 10 fps, que es muy adecuada para aplicaciones robóticas.

6. Coincidencia de plantillas multitarea para detección de objetos, segmentación y estimación de poses utilizando imágenes de profundidad (ICRA2019)

Enlace en papel: https://ieeexplore.ieee.org/document/8794448
Idea principal: En un número limitado de muestras, la coincidencia de plantillas puede estimar con precisión la pose de un nuevo objetivo. Sin embargo, la estimación de pose de objetos ocluidos sigue siendo un desafío. Además, muchos dominios de aplicaciones de robótica encuentran objetos sin textura para los cuales las imágenes de profundidad son más adecuadas que las imágenes en color. Este documento propone un nuevo marco de comparación de plantillas multitarea (MTTM), que encuentra la plantilla más cercana del objeto objetivo a partir de la imagen de profundidad mientras predice la máscara de segmentación, y utiliza el mismo mapa de características de la región objetivo para realizar la plantilla y el detectado La transformación de la pose de un objeto en la escena. La red de comparación de características propuesta calcula máscaras de segmentación y plantea predicciones comparando los mapas de características de la plantilla con las características recortadas de la escena. Los resultados de segmentación de esta red mejoran la solidez de la estimación de pose al excluir puntos que no pertenecen al objeto. Los resultados experimentales muestran que el método MTTM supera a los métodos de línea de base en términos de segmentación y estimación de pose a pesar de usar solo imágenes de profundidad.
Contribuciones de este artículo:
①Proponer un nuevo marco basado en la profundidad: MTTM, que usa el mapa de características compartidas para predecir la pose de la máscara de segmentación y el objeto mediante la comparación del vecino más cercano con la plantilla.
②Proponga un nuevo marco basado en la profundidad: MTTM, que utiliza el mapa de características compartidas para predecir la pose de la máscara de segmentación y el objeto mediante la comparación de vecinos con la plantilla.

7. Predicción de pose de objeto 6D de un solo disparo en tiempo real (CVPR2018)

Enlace en papel: https://arxiv.org/abs/1711.08848
Enlace en código: https://github.com/Microsoft/singleshotpose
Idea principal: Proponemos un método de etapa única para detectar simultáneamente un objeto en una imagen RGB y predecir Con su pose 6D, no hay necesidad de múltiples etapas o verificar múltiples suposiciones. Somos lo suficientemente precisos como para que no se requiera un procesamiento posterior adicional. La parte clave de nuestro enfoque es una nueva arquitectura CNN que predice directamente las posiciones de la imagen 2D de los vértices proyectados del cuadro delimitador 3D del objeto y luego estima la pose 6D del objeto con un algoritmo PnP.
Contribución principal:
nueva arquitectura de red , es decir, una red de predicción de pose 6D de etapa única rápida y precisa que no requiere ningún procesamiento posterior. Extiende la arquitectura CNN de una sola etapa para la detección 2D para realizar tareas de detección 6D de una manera natural y sin problemas. La implementación se basa en YOLO, pero el método es aplicable a otros detectores de una etapa como SSD y sus variantes.

8 SSD-6D

Enlace en papel: https://arxiv.org/abs/1711.10006v1
Enlace en código: https://github.com/wadimkehl/ssd-6d
Idea principal: Se propone una nueva detección de instancias de modelos 3D y 6D basada en datos RGB Pose Estimation Métodos. Con este fin, ampliamos el popular paradigma SSD para cubrir el espacio de pose 6D completo y entrenar solo con datos de modelos sintéticos.
Principales contribuciones:
①Una fase de entrenamiento que utiliza solo información sintética del modelo 3D
②Descomposición del espacio de pose del modelo para facilitar el entrenamiento y el procesamiento de la simetría
③Una extensión de SSD para generar detecciones 2D e inferir poses 6D correctas

9.Pose-RCNN

Enlace del artículo: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7795763
Idea principal: este artículo propone un esquema calculado usando datos 3D para combinar en una red neuronal convolucional profunda de una sola etapa Nuevos métodos para detección de objetos y estimación de la orientación. Para la estimación de la orientación, ampliamos la estructura R-CNN en varias capas bien diseñadas. Se introducen dos nuevos enfoques para las propuestas de objetos, explotando datos estereoscópicos y datos LIDAR. Nuestros experimentos en el conjunto de datos de KITTI muestran que se puede lograr un alto recuerdo manteniendo bajo el número de propuestas mediante la fusión de propuestas de ambos dominios.

10.PoseNet

Enlace del documento: https://arxiv.org/abs/1505.07427
Enlace del código: http://mi.eng.cam.ac.uk/projects/relocalisation/
Idea principal: este documento propone un sistema de posicionamiento de relocalización robusto y en tiempo real , que utiliza una CNN para implementar un sistema de posicionamiento de extremo a extremo cuya entrada es una imagen RGB y la salida es una pose de cámara. Además, se propone una red convolucional profunda PoseNet de 23 capas, utilizando el aprendizaje de transferencia para usar la base de datos de problemas de clasificación para resolver problemas complejos de regresión de imágenes. En comparación con las funciones visuales locales tradicionales, las funciones entrenadas son más resistentes a diferentes luces, desenfoque de movimiento y diferentes parámetros internos de la cámara. Al mismo tiempo, el documento muestra que PoseNet puede lograr un buen rendimiento con muy pocas muestras de entrenamiento basadas en la base de datos de clasificación existente.
Principales contribuciones:
① Se propone un método de anotación automática, que usa SfM para generar automáticamente anotaciones (posturas de cámara) para muestras de entrenamiento. Solo puede usar videos para generar muestras de entrenamiento y anotaciones para entrenar PoseNet, sin anotar manualmente cada imagen. Posee información en gran medida ahorra costos de mano de obra.
② Proponga el aprendizaje de migración, utilizando un clasificador entrenado (clasificador) ​​y una pequeña cantidad de muestras de entrenamiento para entrenar un regresor (regresor) para la reubicación, lo que puede resolver efectivamente el problema de muestras de entrenamiento insuficientes.

PAQUETE 11.6

Enlace del documento: https://arxiv.org/abs/1910.10750v1
Enlace del código: https://sites.google.com/view/6packtracking
Idea principal: este documento propone una pose de objetivo 6D a nivel de categoría basada en datos RGB-D Un método de aprendizaje profundo para el seguimiento - Algoritmo 6-PACK. El método en el documento rastrea nuevas instancias de objetos de clases de objetos conocidas, como tazones, computadoras portátiles y tazas en tiempo real. 6-PACK aprende a representar objetos de forma compacta a través de una pequeña cantidad de puntos clave 3D, sobre cuya base se estima el movimiento entre fotogramas de las instancias de objetos mediante la coincidencia de puntos clave. Estos puntos clave se aprenden de principio a fin sin supervisión humana para un seguimiento más eficiente. Los experimentos muestran que este enfoque supera sustancialmente a los enfoques existentes en el punto de referencia de estimación de pose de categoría 6D de NOCS y admite robots físicos que realizan tareas simples de manipulación de bucle de cierre basadas en visión.
Principales contribuciones:
①Este método no requiere un modelo 3D conocido. En cambio, evita la necesidad de definir y estimar poses 6D absolutas a través de nuevos mecanismos de anclaje similares a los métodos de propuesta utilizados en la detección de objetos 2D.
② Estos anclajes proporcionan la base para generar puntos clave 3D. A diferencia de los métodos anteriores que requieren la anotación manual de puntos clave, se propone un método de aprendizaje no supervisado que descubre el conjunto óptimo de puntos clave 3D para el seguimiento.
③ Estos puntos clave sirven como una representación compacta del objeto, a partir de la cual se puede estimar eficientemente la diferencia de pose entre dos fotogramas adyacentes. Esta representación basada en puntos clave permite un sólido seguimiento de poses 6D en tiempo real.

12. Estimación de poses de objetos 6D de vista múltiple y planificación de movimiento de cámara usando imágenes RGBD

Enlace en papel:
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8265470
Idea principal: En una escena activa, cuando el observador no puede recuperar la pose del objetivo desde el punto de vista actual, el observador puede determine la posición de un punto de vista y capture una nueva escena desde otro punto de vista para mejorar la conciencia del entorno, reduciendo así la incertidumbre de la estimación de pose 6D. Proponemos un marco activo completo de vista múltiple para reconocer poses 6DoF de múltiples instancias de objetos en escenas llenas de gente. Incorporamos varios componentes en la configuración de visión activa para mejorar la precisión: la acumulación y validación de hipótesis combina hipótesis basadas en un solo disparo de estimaciones de puntos de vista anteriores y extrae el conjunto de hipótesis más probable; generación basada en entropía de predicciones de puntos de vista subóptimos Una posición de cámara para capturar nuevos datos para mejorar el rendimiento; la planificación del movimiento de la cámara planifica la trayectoria del movimiento de la cámara en función de la entropía de la vista y el costo del movimiento. Se implementan y evalúan diferentes enfoques para cada componente para mostrar mejoras en el rendimiento.
Principales contribuciones:
① Integrar diferentes componentes para construir un sistema activo completo para la detección y estimación de pose de múltiples objetivos.
② Algoritmo de predicción de la siguiente mejor vista (NBV) no supervisado, que predice la siguiente mejor pose de la cámara a través de la representación de la escena en función de las suposiciones de objetos actuales, para la detección de objetos y la estimación de la pose.
③ Use un motor de física para generar conjuntos de datos sintéticos con configuraciones realistas de múltiples objetos.

13. Ir más allá con las funciones de pares de puntos

Enlace en papel: http://arxiv.org/abs/1711.04061
Idea principal: La función punto a punto es un método de detección de objetos 3D de nube de puntos ampliamente utilizado, pero es propenso a fallar en presencia de ruido del sensor y desorden de fondo. Hemos introducido un nuevo esquema de muestreo y votación que reduce en gran medida los efectos del desorden y el ruido del sensor. Los experimentos muestran que a medida que mejoramos, PPF se vuelve competitivo con los métodos más avanzados, ya que los supera en varios objetos de referencia desafiantes y es menos costoso computacionalmente.
Contribución principal: Se propone una estrategia de muestreo mejor y más eficiente, junto con pequeñas modificaciones en los pasos de preprocesamiento y posprocesamiento, lo que hace que el método de este documento sea competitivo con los métodos más avanzados: calcula el costo, superándolos en conjuntos de datos desafiantes recientes.

14.BOP: punto de referencia para la estimación de pose de objetos 6D

Enlace en papel: https://arxiv.org/abs/1808.08319
Enlace en código: https://bop.felk.cvut.cz/home/
Idea principal: Una estimación de pose 6D de cuerpo rígido basada en una sola imagen de entrada RGB-D es punto de referencia propuesto. Los datos de entrenamiento consisten en un modelo de objeto 3D mapeado con textura o imágenes de objetos con poses 6D conocidas. El benchmark consta de:
i) 8 conjuntos de datos en un formato unificado que cubre diferentes situaciones del mundo real, incluidos dos nuevos conjuntos de datos centrados en diferentes condiciones de iluminación; ii) un método de evaluación con una
función de error de pose que maneja la ambigüedad de pose,
iii) una evaluación integral de 15 métodos recientes diferentes para comprender el estado actual del campo;
iv) un sistema de evaluación en línea donde se pueden enviar nuevos resultados en cualquier momento. Los resultados de la evaluación muestran que los métodos basados ​​en características de pares de puntos actualmente funcionan mejor, superando a los métodos de comparación de plantillas, los métodos basados ​​en el aprendizaje y los métodos basados ​​en características locales 3D.

15. Plantillas multimodales para la detección en tiempo real de objetos sin textura en escenas muy desordenadas (ICCV), 2011.

Enlace del artículo: http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=6126326
Idea principal: se propone un método para la detección multimodo de objetos tridimensionales. Si bien es general, el documento lo demuestra en una combinación de imágenes y mapas de profundidad densos que brindan información complementaria del objeto. Este enfoque funciona en tiempo real, en entornos muy desordenados, no requiere la etapa de trinidad que requiere mucho tiempo y puede manejar objetos sin restricciones. El documento se basa en una representación eficiente de plantillas que capturan diferentes patrones, y en muchos experimentos con hardware comercial se demuestra que el método supera significativamente a los métodos de última generación de patrón único.
Las principales contribuciones:
①Proponer un método eficiente para utilizar simultáneamente información de múltiples modalidades de adquisición para definir una plantilla para detectar de manera confiable objetos conocidos en entornos complejos.
② Los datos para cada modalidad se discretizan en contenedores, utilizando un "gráfico de respuesta lineal" para minimizar las fallas de caché y permitir una paralelización masiva.
③Se centra en la combinación de imágenes en color y mapas de profundidad densos.
④ El método es muy general y se puede integrar fácilmente con otras modalidades siempre que las medidas proporcionadas estén alineadas con imágenes que se puedan cuantificar.

16. Mapas de respuesta de gradiente para la detección en tiempo real de objetos sin textura.

Enlace del artículo: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6042881
Idea principal: este artículo propone un método para la detección de instancias de objetos 3D en tiempo real , que no requiere una capacitación que requiere mucho tiempo fase Y puede manejar objetos sin textura . En el corazón del método se encuentra una nueva representación de imagen de coincidencia de plantilla que es robusta para pequeñas transformaciones de imagen. Esta solidez se basa en extender las direcciones de degradado de la imagen, lo que permite probar solo un pequeño subconjunto de todas las posibles ubicaciones de píxeles al analizar una imagen y representar objetos 3D con un conjunto limitado de plantillas. Además, el documento propone que el método se puede ampliar para lograr un mejor rendimiento si se dispone de sensores de profundidad densos, teniendo en cuenta las superficies normales 3D. El documento muestra cómo se puede explotar la arquitectura de las computadoras modernas para construir una representación eficiente pero muy discriminatoria de una imagen de entrada que se puede usar para considerar miles de plantillas en tiempo real. En experimentos con una gran cantidad de datos reales, demostramos que nuestro método es mucho más rápido y más resistente al desorden de fondo que los métodos actuales de última generación.

17. Entrenamiento basado en modelos, detección y estimación de poses de objetos 3D sin textura en escenas muy abarrotadas.

Enlace del artículo: https://link.springer.com/content/pdf/10.1007/978-3-642-37331-2.pdf
Idea principal: el artículo propone una cámara somatosensorial Kinect (sensores RGBD) para lograr un objetivo 3D Un marco para modelado automático, detección y seguimiento. Basado en el método LINEMOD (la parte de detección de objetivos utiliza principalmente el método LINEMOD basado en plantillas, a través de la mejora, la tasa de precisión de detección aumenta en un 13%), utilizando información RGBD para completar la coincidencia de plantillas de múltiples vistas, proporcionar una estimación aproximada de la pose, y tiene la capacidad de aprender modelos 3D en línea en tiempo real, puede manejar una gran cantidad de escenas desordenadas y de oclusión moderada, y puede detectar múltiples objetivos al mismo tiempo.
Principales contribuciones:
1. Reducir automáticamente la redundancia de características con gradientes de color y normales de superficie, y aprender automáticamente plantillas para modelos 3D Además, al tiempo que garantiza la velocidad y la estabilidad de detección, proporciona un esquema de muestreo de espacio de características.
2. Se proporciona un método de procesamiento posterior nuevo y eficiente, que muestra que la estimación de pose y la información de color pueden verificar la hipótesis de prueba específica y aumentar la tasa de precisión de detección en un 13%.
3. Proporcionar un nuevo conjunto de datos. Las características principales del nuevo conjunto de datos son: proporcionar modelos 3D y poses reales para cada imagen y secuencia; cada secuencia cubre uniformemente el espacio de la pose; cada imagen contiene desorden 2D y 3D.


Reconocimiento de actitud 6D basado en nube de puntos

1.Go-ICP: una solución globalmente óptima para el registro de conjuntos de puntos ICP 3D

El algoritmo iterativo del punto más cercano (ICP) es uno de los métodos de registro de conjuntos de puntos más utilizados. Sin embargo, los algoritmos ICP basados ​​en optimización iterativa local son susceptibles a mínimos locales. Su rendimiento depende en gran medida de la calidad de la inicialización y solo se garantiza la optimización local. Este artículo propone Go-ICP, el primer algoritmo globalmente óptimo para el registro euclidiano (rígido) de dos conjuntos de puntos 3D bajo la métrica de error L2 definida por ICP. El método Go-ICP se basa en un esquema de ramificación y conexión (BnB) que busca en todo el espacio de movimiento 3D SE(3). Utilizando la estructura especial de la geometría SE(3), se derivan los límites superior e inferior de la nueva función de error de registro. La introducción de ICP local en el esquema BnB acelera el nuevo método al tiempo que garantiza la optimización global. El documento también analiza las extensiones que abordan la robustez de los valores atípicos. Los resultados experimentales muestran que el método puede producir resultados de registro fiables independientemente de los valores iniciales. Go-ICP se puede aplicar en los casos en que se requiere una solución óptima o no siempre se puede obtener una buena inicialización.

2.SUPER 4PCS Fast Global Pointcloud Registro a través de Smart Indexing

La adquisición de datos en escenarios a gran escala generalmente requiere acumular información a través de múltiples escaneos. Un enfoque común es alinear localmente los pares de escaneo utilizando el algoritmo de punto más cercano iterativo (ICP) (o variantes del mismo), pero requiere una escena estática y un pequeño movimiento entre los pares de escaneo. Esto evita la acumulación de datos entre múltiples sesiones de escaneo y/o diferentes modos de adquisición (por ejemplo, estéreo, escaneo profundo). Alternativamente, se puede usar un algoritmo de registro global que permite que el escaneo esté en una posición inicial arbitraria. Sin embargo, el algoritmo de registro global de última generación 4PCS tiene una complejidad de tiempo cuadrática en el número de puntos de datos, lo que limita en gran medida su aplicabilidad en la adquisición de grandes entornos. Este documento propone el registro de nube de puntos global Super 4PCS, que puede ejecutarse en tiempo lineal (número de puntos de datos) y es sensible a la complejidad del problema de alineación de superposición (desconocido) basado en pares de escaneo. El algoritmo es simple, la tasa de utilización de la memoria es alta y la velocidad es rápida. Este documento demuestra que Super 4PCS logra una aceleración significativa en comparación con otros métodos y permite la adquisición eficiente y no estructurada de escenas a escalas que antes eran imposibles.

3.3DRegNet: una red neuronal profunda para el registro de puntos 3D

Este artículo propone un algoritmo de aprendizaje profundo 3DRegNet para el registro de escaneos 3D. Con la llegada de sensores básicos 3D baratos en los últimos años, sería muy beneficioso desarrollar un algoritmo de registro 3D basado en el aprendizaje. En este documento, dado un conjunto de correspondencias de puntos 3D, se construye una red profunda 3DRegNet utilizando una capa residual profunda y una capa convolucional, que principalmente cumple dos tareas: (1) Clasificar las correspondencias de puntos en correspondencias de puntos correctas/incorrectas (2
)
Puede parámetros de movimiento de regresión que alinean los escaneos a un marco de referencia común
En comparación con los métodos clásicos, 3DRegNet tiene varias ventajas. En primer lugar, dado que 3DRegNet funciona con correspondencias de puntos en lugar de escaneos sin procesar, es significativamente más rápido que muchos métodos tradicionales. En segundo lugar, el documento demuestra que el algoritmo se puede extender a escenarios de vista múltiple, es decir, el registro de más de dos escaneos se procesa simultáneamente. A diferencia de las redes de regresión de pose de cuatro variables que usan cuaterniones para representar rotaciones, este documento usa álgebras de Lie para representar rotaciones usando solo tres variables. Extensos experimentos en dos conjuntos de datos desafiantes (ICL-NUIM y SUN3D) muestran que 3DRegNet supera a otros métodos y logra resultados de vanguardia.

4.3DMatch: aprendizaje de descriptores geométricos locales a partir de reconstrucciones RGB-D

La coincidencia de características geométricas locales en imágenes de profundidad real es una tarea desafiante debido al ruido, la baja resolución y la incompletitud de los datos de escaneo 3D. Estas dificultades limitan el desempeño de los métodos actuales, que generalmente se basan en histogramas sobre propiedades geométricas. Este artículo propone 3DMatch, un modelo basado en datos que aprende descriptores volumétricos locales para establecer correspondencias entre partes de datos 3D. Para acumular datos de entrenamiento para el modelo, se propone un método de aprendizaje de funciones autosupervisado, que explota millones de etiquetas correspondientes que se encuentran en las reconstrucciones RGB-D existentes. Los experimentos muestran que el descriptor no solo es capaz de hacer coincidir las características geométricas locales en nuevas escenas para la reconstrucción, sino que también se puede generalizar a diferentes tareas y escalas espaciales (como la alineación del modelo de objeto a nivel de instancia y la correspondencia de superficie de malla de Amazon Picking Challenge). Los resultados muestran que 3DMatch supera constantemente a otros métodos de última generación por un margen significativo.

Supongo que te gusta

Origin blog.csdn.net/cocapop/article/details/128205023
Recomendado
Clasificación