【Lectura en papel】Pose from Shape: Estimación de pose profunda para objetos 3D arbitrarios

inserte la descripción de la imagen aquí

Resumen

La mayoría de los métodos de estimación de poses profundas deben entrenarse en instancias o categorías de objetos específicos. En este trabajo, proponemos un enfoque completamente general para la estimación de poses profundas que no requiere que la red esté entrenada en categorías relevantes, ni que los objetos dentro de una categoría tengan poses canónicas. Creemos que este es un paso crítico en el diseño de sistemas robóticos que pueden hacer predicciones sobre objetos fuera del conjunto de entrenamiento, en lugar de pertenecer a categorías predefinidas. Nuestro enfoque principal utiliza la representación de forma 3D del objeto de destino para estimar dinámicamente la pose. Más precisamente, entrenamos una red neuronal convolucional que toma una imagen de prueba y un modelo 3D como entrada y genera la pose 3D relativa del objeto en la imagen de entrada en relación con el modelo 3D, y demostramos que nuestro método funciona bien en conjuntos de datos estándar. ( Pascal3D+, ObjectNet3D y Pix3D) mejoran el rendimiento de la estimación de poses basada en categorías supervisadas y proporcionamos mejores resultados que el estado del arte en estos puntos de referencia. Más importante aún, demostramos que nuestra red entrenada en objetos cotidianos hechos por el hombre en ShapeNet puede generalizarse a un nuevo tipo de objeto 3D. Nuestros códigos y modelos están disponibles en http://imagine.enpc.fr/~xiaoy/PoseFromShape/

1. Introducción

Imagine un robot que necesita interactuar con un nuevo tipo de objeto que no pertenece a ninguna categoría predefinida, como un objeto recién fabricado en un taller. El uso de métodos existentes de estimación de pose de vista única para este nuevo objeto requeriría detener el robot y entrenar una red específica para ese objeto antes de tomar cualquier otra acción. Aquí proponemos un método que toma directamente como entrada un modelo 3D de un nuevo objeto y estima la posición del objeto en la imagen en relación con este modelo, sin ningún proceso de entrenamiento adicional. Argumentamos que tales capacidades son necesarias para aplicaciones como la robótica "en la naturaleza", donde los nuevos objetos de clases desconocidas pueden aparecer de forma rutinaria en cualquier momento y no se pueden ignorar. Del mismo modo, esta tecnología también es necesaria en VR.
inserte la descripción de la imagen aquí

图1:我们方法的图解。(A)训练数据:日常人造物体的3D模型、输入图像和姿态符号;(B)在测试时,给出一幅RGB图像和相应的3D形状,估计任意物体的姿态,即使是未知类别的物体

Para superar la situación en la que los métodos de estimación de pose profunda se basan en clases, es decir, predicen diferentes orientaciones según la clase de objeto, un trabajo reciente [10, 54] propone una estimación de pose de clase desconocida para objetos rígidos, lo que da como resultado una predicción única. Sin embargo, [10] solo evalúa las categorías de objetos incluidas en los datos de entrenamiento, mientras que [54] requiere que las categorías de prueba sean similares a los datos de entrenamiento. En cambio, queremos enfatizar que nuestro método también funciona en objetos nuevos, que pueden diferir significativamente del conjunto de entrenamiento. Por ejemplo, entrenamos solo con objetos hechos por el hombre, pero aun así pudimos estimar las poses de animales como los caballos, sin que ninguno de los animales se incluyera en los datos de entrenamiento (consulte la Figura 1 o la Figura 3). Nuestro método es similar a los métodos agnósticos de clase en que produce solo una predicción de pose y no requiere entrenamiento adicional para generar predicciones para nuevas clases. Sin embargo, también es específico de la instancia, ya que requiere que se detecte un modelo 3D del objeto como entrada.
De hecho, nuestra idea clave es que al medir el ángulo de visión de una sola instancia de objeto, es mejor dar la forma 3D del objeto que dar la definición de toda la clase de objeto. Nuestro trabajo puede verse como una síntesis de los resultados de investigaciones recientes [37, 38, 40] para resolver problemas de estimación de pose basados ​​en modelos 3D profundos. Nuestros resultados muestran que el uso de la información del modelo 3D también puede mejorar el rendimiento en categorías conocidas, incluso si las categorías solo se aproximan en el conjunto de datos de Pascal3D+ [48].
Cuando se conoce el modelo 3D exacto del objeto, como en el conjunto de datos LINEMOD [15], generalmente se obtiene realizando primero una estimación aproximada del ángulo de visión y luego aplicando un método de refinamiento de pose, generalmente haciendo coincidir la imagen renderizada del modelo 3D. a la imagen de destino Resultados de nivel líder. Nuestro método se utiliza para realizar una alineación aproximada. Después de aplicar nuestro método, el refinamiento de la pose se puede realizar utilizando métodos clásicos basados ​​en ICP o el método reciente DeepIM [25]. Tenga en cuenta que aunque DeepIM solo realiza la optimización, es similar a nuestro trabajo en que también es independiente de la clase y utiliza cierto conocimiento del modelo 3D (usando una vista representada en la pose estimada) para predecir sus actualizaciones de pose.
Nuestras principales contribuciones son las siguientes:
1. Hasta donde sabemos, proponemos el primer método de aprendizaje profundo para la estimación del punto de vista no basado en categorías, que puede estimar la pose de un objeto solo en su modelo 3D, independientemente de su Is es similar a los objetos vistos durante el entrenamiento.
2. Podemos aprender y usar "formas no entrenadas", cuyo marco de referencia no tiene que alinearse con la orientación normativa, simplificando la supervisión de pose.
3. Demostramos en una gran cantidad de conjuntos de datos [15, 42, 48, 49] que para categorías de objetos conocidas, agregar información 3D a la red de estimación de pose puede mejorar el rendimiento y en objetos nunca antes vistos tiene un efecto.

2. Trabajo relacionado

En esta sección, primero analizamos la estimación de pose de cuerpos rígidos a partir de una sola imagen RGB cuando se conoce el modelo 3D del objeto y luego cuando se desconoce el modelo 3D.
Estimación de la pose usando la forma del objeto Los enfoques tradicionales para estimar la posición de una forma 3D dada en una imagen se pueden clasificar en términos generales en métodos de coincidencia de características y métodos de coincidencia de plantillas. Los métodos de coincidencia de características funcionan extrayendo características locales de una imagen, combinándolas con un modelo 3D dado de un objeto y luego usando una variante del algoritmo PNP para recuperar la pose 6D basada en la correspondencia 2D-3D estimada. En este tipo de red de detección se han utilizado descriptores de características locales más robustos [27, 34, 45, 46] y algoritmos PNP más eficientes [6, 21, 24, 53]. No solo la detección de características, sino también la predicción a nivel de píxeles [1]. Si bien estos métodos funcionan bien en objetos con textura, a menudo tienen problemas con objetos con poca textura. Para lidiar con este tipo de objetos, los métodos de coincidencia de plantillas intentan hacer coincidir los objetos observados con las plantillas almacenadas [14, 15, 23, 26]. Sin embargo, funcionan mal bajo oclusión parcial o truncamiento.
Recientemente, se han entrenado modelos profundos para estimar poses a partir de imágenes de modelos 3D conocidos. La mayoría de los métodos encuentran correspondencias de 2D a 3D estimando el cuadro delimitador 3D del objeto [10, 32, 39, 43] o la ubicación 2D en la imagen de prueba proyectada de los puntos clave semánticos del objeto [9, 34], y luego aplicando el PNP El algoritmo es similar a la coincidencia de características. Después de obtener una pose de objeto aproximada, puede usar métodos basados ​​en coincidencia de plantillas para obtener resultados más precisos
Estimación de pose sin forma de objetoEn los últimos años, con el lanzamiento de conjuntos de datos a gran escala [8, 15, 42, 48, 49], los métodos de aprendizaje basados ​​en datos (basados ​​en datos reales o sintéticos) se han utilizado mucho y no se basan en 3D precisos. información. Estos métodos se pueden categorizar ampliamente en aquellos basados ​​en cualquier objeto en la categoría de entrenamiento y aquellos basados ​​en un solo objeto o escena. Para la estimación de poses basada en clases, se requieren vistas estándar desde todos los ángulos para todas las clases. El proceso de predicción puede reducirse a un problema de regresión [30, 33, 35], un problema de clasificación [4, 41, 46] o una combinación de ambos [12, 22, 28, 31]. Además, por ejemplo, Zhou realiza una regresión directa de los puntos clave 3D independientes de la categoría para estimar la similitud entre la imagen y las coordenadas del mundo [54]. Siguiendo la misma estrategia, también es posible estimar la relación de pose de una sola cámara en relación con un solo modelo 3D sin información precisa del modelo 3D. Muchos trabajos recientes adoptan esta estrategia para resolver el problema de medir la pose de 6 DOF del objetivo [17, 22, 31, 44, 50] y la localización de la vista de la cámara.
inserte la descripción de la imagen aquí
Figura 2: Descripción general de nuestro enfoque. (A) Dada una imagen RGB de un objeto y su forma 3D, usamos dos codificadores para extraer características de cada entrada y luego estimar la orientación del objeto capturado. Use métodos de clasificación y regresión en la forma para obtener sus ángulos de acimut, cabeceo y balanceo. (B) Para la codificación de formas, usamos PointNet para codificar una nube de puntos muestreada de un objeto (arriba), o generamos representaciones de diferentes ángulos del objeto y usamos un cnn para extraer características (abajo).

En este trabajo, fusionamos los dos trabajos anteriores. Tratamos la estimación de poses como un problema de predicción, equivalente a los métodos de aprendizaje profundo que no explotan directamente la información del punto de vista. Sin embargo, nuestra red se basa en un modelo 3D de un objeto de instancia única, que se representa mediante un conjunto de vistas o un conjunto de nubes de puntos, es decir, nuestra red se basa en un modelo 3D preciso, similar a los métodos de combinación de características y plantillas. Hasta donde sabemos, somos los primeros en utilizar información de imágenes y formas como entrada de red para la estimación de poses.

3. Estructura de la red y proceso de formación

Nuestro enfoque consiste en extraer información de características profundas de imágenes y formas y fusionarlas para predecir la pose relativa. La estructura general se muestra en la Figura 2. En esta sección, presentamos más detalles de nuestra estructura de red, función de pérdida y método de entrenamiento, y nuestro esquema de aumento de datos específico del método.
Extracción de características La primera parte de la red consta de dos módulos separados: (i) extracción de características de imagen (ii) extracción de características de forma 3D. Para la extracción de características de la imagen, usamos una red CNN estándar: ResNet-18 [13]. Para las funciones 3D, experimentamos con dos redes de representación de imágenes 3D de última generación que se muestran en la Figura 2(b).

  • En primer lugar, usamos la red de nube de puntos incrustada PointNet [37], que se ha utilizado con éxito como codificadores de nubes de puntos [5, 11, 36, 47, 52] en muchas tareas.
  • En segundo lugar, tratamos de usar la vista renderizada para representar la forma 3D, similar a [40], colocamos una cámara virtual alrededor de la forma 3D, apuntando al centroide del modelo; la CNN toma la imagen renderizada relevante como entrada, extrae la imagen con el mismo peso, y luego se basa en el vector de características global obtenido. Consideramos variantes de esta arquitectura usando canales de entrada adicionales para la orientación normal de profundidad y/o superficie, pero esto no mejoró significativamente nuestros resultados. Idealmente, consideraríamos el punto de vista de toda la esfera alrededor del objeto en cualquier dirección. Sin embargo, en realidad, muchos objetivos tienen una gran desviación en la dirección vertical y las imágenes solo se pueden obtener desde un lado o desde arriba. Por lo tanto, en nuestros experimentos solo consideramos puntos de vista en el hemisferio superior y muestreamos uniformemente en azimut y elevación.

Estimación de la orientación La estimación de la orientación del objetivo se logra extrayendo características de imágenes e información 3D a través de un perceptrón multicapa, que consta de tres capas ocultas con 800, 400 y 200 neuronas respectivamente. A cada capa totalmente conectada le sigue una capa de normalización y una función de activación de Relu.
La salida son tres ángulos de Euler en relación con el sistema de coordenadas de forma 3D, a saber, acimut (azi), elevación (ele) y balanceo (inp). Cada ángulo θ ∈ E = {azi, ele, inp} se calcula a partir del ángulo y el desplazamiento utilizando una combinación de algoritmos de clasificación y regresión. Específicamente, dividimos ε en Lθ en promedio, y cada ángulo es θ. Para cada θ -bin l∈{0,Lθ−1}, la salida de la red es una probabilidad p θ.l∈[0,1], que normaliza los resultados de clasificación con la función softmax, y otro valor de salida es el desplazamiento δ θ.l∈[-1,1] relativo a la posición central de θ obtenida por la función tangente hiperbólica. De esta forma la red tiene 2 × (Lazi + Lele + Linp) salidas.

Función de pérdida Cuando combinamos clasificación y regresión, la red tendrá dos salidas (probabilidad y compensación), lo que dará como resultado una función de pérdida general L, que es la función de pérdida de entropía cruzada Lcla del problema de clasificación y la función de pérdida de Huber de la regresión problema Lreg se suma para obtener.
Además, suponga los datos de entrenamiento (xi, si, yi), donde xi es el gráfico de entrada, si es la forma 3D e yi es el ángulo de Euler correspondiente. Convertimos el ángulo de Euler yi en 1 datos de etiqueta l i.θ y el desplazamiento correspondiente δ. La función de pérdida de red se expresa de la siguiente manera:
inserte la descripción de la imagen aquí

Aumento de datos Realizamos un aumento de datos normalizado en las imágenes de entrada: volteo horizontal, recorte aleatorio, difuminado de color.
Además, presentamos un nuevo método de aumento de datos y, para nuestro método, se diseñó un nuevo método de aumento de datos para evitar que la red sobreajuste la orientación del modelo 3D, lo cual es común en los datos de entrenamiento, ya que la mayoría de los modelos están todos en la misma dirección. En cambio, queremos que nuestra red sea independiente de la clase y siempre prediga la pose de un objeto en relación con un modelo 3D de referencia. Por lo tanto, agregamos rotaciones aleatorias a la forma de entrada y modificamos las etiquetas de orientación en consecuencia. En nuestros experimentos, restringimos la rotación a los cambios de azimut, nuevamente debido al fuerte sesgo de verticalidad de los objetos en los fondos del mundo real, pero teóricamente podría aplicarse a todos los ángulos. Debido a la simetría de los objetos (generalmente a 90° o 180°), reemplazamos el muestreo aleatorio con un muestreo uniforme en [−45°, 45°], lo que también ayuda a garantizar un sesgo de 0° para las anotaciones. Ver información complementaria para detalles y estudios paramétricos.
Detalles de implementación En todos nuestros experimentos, el tamaño del lote se establece en 16 y nuestra red se entrena con el optimizador ADAM [20] con una tasa de aprendizaje de 10−4 para las primeras cien iteraciones y 10−5 para otras 100 iteraciones. En comparación con los métodos no basados ​​en formas, el entrenamiento en formas codificadas con 12 vistas renderizadas es aproximadamente 8 veces más lento en una GPU TITAN X.

experimento

Dado un modelo 3D de un objeto y una imagen RGB, nuestro método mide la orientación 3D del objeto representado en la imagen. En esta sección, primero brindamos una descripción general del tipo de conjunto de entrenamiento que usamos y luego explicamos la idea básica de nuestro método. Luego, nuestro método se evalúa en dos escenarios de prueba: a saber, clases de destino conocidas y desconocidas.
Conjuntos de datos Entrenamos y probamos en 4 conjuntos de datos principales. Entre ellos, Pascal3D+ [48], ObjectNet3D [49] y Pix3D [42] incluyen múltiples tipos de objetos en varios entornos, que cumplen las condiciones para la estimación de poses de objetos en la naturaleza. Por el contrario, LINEMOD [15] se centra en unos pocos objetos con menor variación ambiental, principalmente para la manipulación robótica. Pascal3D+ y Object-Net3D solo brindan modelos aproximados y alineación aproximada, mientras que Pix3D y LINEMOD brindan modelos precisos y alineación de píxeles. También entrenamos en datos sintéticos usando ShapeNetCore [2] con un fondo de SUN397 [51] y probamos en Pix3D y LINEMOD.
La realidad fundamental se utiliza como cuadro delimitador en todos los experimentos, a menos que se indique lo contrario. Usamos los indicadores más comunes para calcular la situación de cada conjunto de datos: AccΠ/6 es el porcentaje de error de rotación inferior a 30°; MedErr es el error de ángulo mediano (°); ADD-S-0.1 es la posición del valor predicho y El porcentaje de la distancia promedio de la posición verdadera del modelo 3D no supera el 10% del objetivo a medir; Add-S-0.1d es una variante de ADD-0.1d para objetos simétricos, donde se calcula el valor promedio basado en la distancia del punto más cercano. Se proporcionan más detalles sobre conjuntos de datos y métricas en el material complementario.
Línea base Nuestro método adopta la misma estructura, conjunto de entrenamiento y estrategia de entrenamiento que el modelo natural, pero no utiliza el modelo 3D del objeto. Se informa como "Línea base" en nuestra tabla, correspondiente a la red de la Figura 2,No hay codificadores de formas mostrados en azul claro. También informamos una segunda línea de base destinada a evaluar la importancia de la precisión del modelo 3D para nuestro método de trabajo. Usamos nuestro método con precisión, pero como demostró el tiempo, reemplazamos las formas 3D de los objetos en las imágenes de prueba con formas 3D aleatorias de la misma clase. Esto se informa en la tabla como 'Nuestro (RS)'.

4.1 Estimación de pose basada en la supervisión de clasificación

Primero probamos en las categorías objetivo contenidas en el conjunto de datos. Se puede encontrar que usar el modelo 3D del objetivo puede mejorar significativamente el efecto de estimación de pose.
Probamos nuestro método en Object3D, que tiene la mayor variedad de modelos, modelos 3D e imágenes. Presentamos los resultados en la Tabla 1. En primer lugar, una de las conclusiones más importantes es que al utilizar la información del modelo 3D, independientemente del uso de la nube de puntos o el renderizado, se puede lograr una mejora significativa en el rendimiento, lo que verifica la efectividad de nuestro método. En segundo lugar, el uso de representaciones multivista (MV) para representar modelos 3D supera a las representaciones basadas en nubes de puntos (PC) [37]. Por lo tanto, solo probamos el método MV en el resto de esta sección. En tercer lugar, usar formas aleatorias (RS) en lugar de formas reales en las clases para probar la red, proporcionando solo información de clase sin información 3D precisa, logró mejores resultados que usar el modelo base, pero peor que usar el modelo 3D exacto, que muestra que nuestro método puede utilizar efectivamente información 3D para mejorar el rendimiento de detección. Al final, descubrimos que incluso el efecto de detección de nuestro modelo básico casi superó a StarMap [54], especialmente en las cinco categorías (hierro, cuchillo, bolígrafo, rifle, zapatillas) la detección en StarMap no es tan buena como nuestra red, que puede ser Esto se debe a que los métodos basados ​​en la detección de puntos clave no son adecuados para objetos pequeños y estrechos.
tabla 1Tabla 1: Estimación de pose en ObjectNet3D [49]. Los conjuntos de entrenamiento y prueba son los mismos datos que [54]; para experimentos en nuevas categorías, el conjunto de entrenamiento contiene 80 categorías y el conjunto de prueba contiene las otras 20 categorías. * Entrenamiento conjunto con entrenamiento de detección y estimación de pose, utilizando cuadros delimitadores estimados para la prueba

inserte la descripción de la imagen aquíTabla 2: Estimación de pose en el conjunto de datos de Pascal3D+ [48].* se basa en puntos clave, + no se entrena en datos de ImageNet, pero se entrena en imágenes renderizadas de la red ShapeNet.
inserte la descripción de la imagen aquí

Luego evaluamos nuestro método en el conjunto de datos Pascal3D+. Los resultados se muestran en la Tabla 2. Curiosamente, si bien nuestros resultados de referencia están muy por debajo de los resultados de última generación, agregar nuestra red de análisis de forma nuevamente brinda mejoras muy claras, con resultados a la par con los métodos más conocidos para la clasificación de clases y el rendimiento supera a los métodos para la clasificación de clases desconocidas. . Pero debe tenerse en cuenta que el modelo 3D provisto en Pascal3D+ es solo una aproximación extremadamente aproximada del modelo 3D real. Además, como era de esperar, el uso de una forma de modelo aleatorio dentro de una clase supera al método base sin un modelo, pero es peor que proporcionar un modelo exacto.
Finalmente, nuestros resultados de detección en el conjunto de datos Pix3D se muestran en la Tabla 3. Similar a otros métodos. Nuestros modelos se entrenan puramente con datos sintéticos y se prueban con datos reales sin ningún tipo de ajuste. Del mismo modo, podemos observar que agregar información de forma 3D conduce a un gran aumento del rendimiento, del 23,9 % al 36 %, ACCπ/6. Tenga en cuenta que nuestro método supera significativamente incluso a los modelos base basados ​​en categorías. Creemos que esto se debe al hecho de que Pix3D proporciona modelos 3D de mucha mayor calidad que ObjectNet3D y Pascal3D+. Apoyando esta suposición está el hecho de que nuestros resultados fueron mucho peores cuando se presentaron con un modelo aleatorio de la misma clase.
Por lo tanto, las conclusiones obtenidas en tres conjuntos de datos estándar son consistentes y válidas: (I) el uso de modelos 3D proporciona una clara mejora (en comparación con el "método base"), (ii) nuestro método es capaz de utilizar información 3D de manera efectiva (en comparación con la estimación con una forma aleatoria "RS" en la categoría).

4.2 Estimación de poses en clases desconocidas

Ahora nos enfocamos en la generalización a clases desconocidas, que es el enfoque principal de nuestro enfoque. Primero discutimos los resultados en conjuntos de datos ObjectNet3D y Pix3D. Luego presentamos resultados cualitativos y cuantitativos en imágenes ImageNet Hors en el muy diferente conjunto de datos LINEMOD.
Nuestros resultados se muestran en la Tabla 1 (abajo) cuando se prueban en la nueva clase de ObjectNet3D. Usamos lo mismo que [54], dividiendo los datos en 80 categorías de entrenamiento y 20 categorías de prueba. Como era de esperar, todos los métodos pierden precisión cuando se prueban modelos que no están en el conjunto de entrenamiento. De hecho, el modelo base sigue funcionando muy bien debido a la presencia de categorías similares en el conjunto de entrenamiento. Sin embargo, las ventajas de nuestro método son más pronunciadas que en el caso supervisado, y nuestro método MV mejora ligeramente el rendimiento sobre el método PC. Del mismo modo, eliminamos las categorías presentes en Pix3D del conjunto de entrenamiento sintético ShapeNet [2] y mostramos los resultados de la prueba en Pix3D en la Tabla 3 (abajo). Nuevamente, la precisión cae para todos los métodos, pero el efecto es más pronunciado con modelos 3D precisos.
En los experimentos de ObjectNet y Pix3D, las categorías de objetos de prueba son completamente nuevas, pero aún similares a las contenidas en el conjunto de entrenamiento. Ahora nos enfocamos en evaluar nuestra red entrenada en objetos completamente diferentes utilizando imágenes sintéticas generadas a partir de las formas de los artefactos del conjunto de datos ShapeNetCore [2].
Primero obtenemos resultados cualitativos al estimar la pose de un caballo en imágenes de ImageNet utilizando un modelo 3D de caballo fijo [7] de un repositorio de modelos en línea. De hecho, los caballos tienen una metamorfosis más limitada que otros animales. Si bien esto no funciona para todas las imágenes, aquellas para las que la red dio la mayor confianza se detectaron muy bien. En la Figura 3, mostramos las imágenes de mayor confianza para diferentes poses y brindamos más resultados en el material complementario. Tenga en cuenta la brecha de apariencia muy fuerte entre el modelo 3D renderizado y la imagen de prueba.
Finalmente, para verificar aún más la capacidad de generalización de nuestra red, la evaluamos en objetos sin características de textura de LINEMOD [15], y los resultados se muestran en la Tabla 4. Este conjunto de datos se enfoca en alineaciones muy precisas, mientras que la mayoría de los métodos recomiendan estimar primero las alineaciones gruesas y luego refinarlas con métodos específicos. Nuestro método proporciona una alineación aproximada y la complementa con el reciente método de refinamiento DeepIM [25]. Nuestro método logra resultados por debajo del estado del arte, pero aun así muy impresionantes. De hecho, nuestra red nunca usa objetos como los modelos 3D en el conjunto de datos LINEMOD durante el entrenamiento, mientras que todos los demás modelos base están especialmente entrenados para cada instancia de objeto en imágenes de entrenamiento reales, excepto SSD-6D [17], que usa modelos 3D precisos. pero no hay imágenes reales y tiene un grado muy bajo de alineación tosca. Por lo tanto, nuestro enfoque es muy diferente de todos los modelos básicos porque no requiere que los sujetos de prueba estén disponibles en el momento del entrenamiento, lo que creemos que es un escenario de aplicación de robótica más realista. Estamos seguros de que nuestro método proporciona una precisión utilizable según este criterio, que es un resultado muy sólido.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

5. Conclusión

Proponemos un método novedoso para la estimación de pose profunda que toma modelos de objetos 3D como entrada a la red. Demostramos las ventajas de nuestro método en términos de precisión y logramos una mayor precisión en varios conjuntos de datos de estimación de pose estándar. Más importante aún, hemos demostrado que nuestro método es un método de aprendizaje profundo completamente general para la estimación de poses que se puede lograr de forma independiente en los conjuntos de entrenamiento y prueba. En el conjunto de datos LINEMOD, el rendimiento objetivo también se logra sin ningún entrenamiento específico, a pesar de las diferencias de dominio entre los datos de entrenamiento sintéticos y las imágenes reales utilizadas para las pruebas.

Supongo que te gusta

Origin blog.csdn.net/onepunch_k/article/details/122287191
Recomendado
Clasificación