[Nube de puntos 3D] segmentación de nube de puntos supervisada débilmente (interpretación en papel CVPR2020)


Título: Segmentación de nubes de puntos semánticos con supervisión débil: Hacia 10 veces menos etiquetas
Papel: https://arxiv.org/pdf/2004.04091.pdf
Código: https://github.com/alex-xun-xu/WeakSupPointCloudSeg


1. Resumen

En este trabajo, proponemos un método de segmentación de nubes de puntos supervisado débilmente que requiere solo una pequeña fracción de puntos para ser etiquetados. Esto se logra mediante el aprendizaje de una aproximación de gradiente y la explotación de restricciones adicionales de suavizado espacial y de color . Los experimentos se llevan a cabo en tres conjuntos de datos públicos con diversos grados de supervisión débil.

1. Introducción

Los métodos supervisados ​​son [19,20,33,12,29] (dos tareas: clasificación de la forma y segmentación de la nube de puntos )

[12] Yangyan Li, Rui Bu, Mingchao Sun, Wei Wu, Xinhan Di y Baoquan Chen. Pointcnn: Convolución en puntos transformados en x. En NIPS, 2018. [19] Charles R. Qi, Hao Su, Kaichun Mo
, y Leonidas J. Guibas. PointNet: aprendizaje profundo en conjuntos de puntos para clasificación y segmentación 3D. En CVPR, 2017.
[20] Charles Ruizhongtai Qi, Li Yi, Hao Su, y Leonidas J. Guibas. Pointnet++: aprendizaje profundo de funciones jerárquicas en puntos conjuntos en un espacio métrico. En NIPS, páginas 5099–5108, 2017.
[29] Lei Wang, Yuchun Huang, Yaolin Hou, Shenman Zhang y Jie Shan. Grafique la convolución de atención para la segmentación semántica de la nube de puntos. En CVPR, 2019.
[33] Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E Sarma, Michael M Bronstein y Justin M Solomon. Dynamicgraph cnn para aprender sobre nubes de puntos. Transacciones de ACM en gráficos (TOG), 2019.

Para permitir una segmentación supervisada débilmente con una fuerte capacidad de modelado de contexto y manejar datos generales de nubes de puntos 3D, elegimos construir sobre redes neuronales profundas de última generación para aprender incorporaciones de características de nubes de puntos. Dados los datos de nube de puntos parcialmente etiquetados, empleamos una rama de supervisión incompleta que solo penaliza los puntos etiquetados. Esto se debe a que el gradiente aprendido sin supervisión total puede considerarse como una aproximación de muestreo de la supervisión total. En la Sección 3.2 analizamos que el gradiente aproximado converge al gradiente verdadero en la distribución, la brecha se distribuye normalmente y la varianza es inversamente proporcional al número de puntos de muestreo. Por lo tanto, dados suficientes puntos etiquetados, el gradiente aproximado está cerca del gradiente verdadero . La conclusión es que, en términos generales, anotar más muestras con menos marcadores por muestra siempre es mejor que etiquetar de forma intensiva menos muestras con más (o en su totalidad) marcadores.

Dado que los métodos anteriores solo imponen restricciones en los puntos etiquetados, imponemos restricciones adicionales en los puntos no etiquetados en tres direcciones ortogonales:

1. Primero, presentamos una rama de supervisión imprecisa adicional que define una pérdida de entropía cruzada a nivel de muestra de nube de puntos de una manera similar al aprendizaje de instancias múltiples [35, 7]. Su finalidad es suprimir la activación de cualquier punto con respecto a la clase negativa .
2. En segundo lugar, introducimos una rama autosupervisada siamesa al aumentar las muestras de entrenamiento con rotaciones y volteretas aleatorias en el plano, y luego fomentamos que las predicciones puntuales originales y aumentadas sean consistentes.
3. Finalmente, observamos que las partes/objetos semánticos suelen ser continuos en el espacio local y el espacio de color.

Con este fin, proponemos una restricción de suavidad espacial y de color para alentar a los puntos espacialmente adyacentes con colores similares a tener la misma predicción. Tales restricciones se pueden aplicar en la etapa de inferencia resolviendo restricciones suaves similares a la propagación de etiquetas en la Fig. [38]. Nuestra red propuesta se muestra en la Fig. 2.
* inserte la descripción de la imagen aquí
Nuestra arquitectura de red se utiliza para la segmentación de nubes de puntos con supervisión débil. La línea roja representa el flujo de retropropagación.

2. Cuatro puntos de contribución

  1. Este es el primer trabajo que estudia la segmentación de nubes de puntos supervisada débilmente en el contexto del aprendizaje profundo.
  2. Brindamos una explicación del éxito de la supervisión débil y brindamos información sobre las estrategias de anotación con un presupuesto de etiqueta fijo
  3. Empleamos tres pérdidas adicionales basadas en la supervisión imprecisa , la autosupervisión y la suavidad espacial y de color para restringir aún más los datos no etiquetados.
  4. Los experimentos se llevan a cabo en tres conjuntos de datos públicos como puntos de referencia para fomentar la investigación futura.

2. Trabajo relacionado

Específicamente, nos enfocamos en dos tipos de supervisión débil: supervisión incompleta e inexacta

1. Aprendizaje incompleto (semisupervisado)

Esto también se denomina aprendizaje semisupervisado en la literatura [38, 3, 17, 2, 10, 27, 8]. Pocas anotaciones: algunos cuadros delimitadores o píxeles están etiquetados para tareas de segmentación de imágenes [17, 2], o algunos nodos están etiquetados para inferencia de gráficos [27]. El éxito a menudo se atribuye a la explotación de suposiciones específicas del problema, incluidas las variedades de gráficos [38, 3, 27], la continuidad espacial y de color [17, 2], etc. Otra forma de trabajar se basa en el aprendizaje conjunto mediante la introducción de restricciones adicionales, como la consistencia entre los datos originales y los datos alterados, como la adición de ruido [22], la rotación [10] o el entrenamiento contradictorio [15].

En este trabajo, aprovechamos las redes neuronales profundas de última generación, donde las restricciones espaciales adicionales se redistribuyen para regularizar aún más el modelo. Por lo tanto, explotamos la correlación espacial proporcionada por el modelo profundo y el prior geométrico .

2. Anotaciones inexactas

Su objetivo es inferir predicciones por píxel a partir de anotaciones por nivel de imagen [9, 24] para tareas de segmentación de imágenes. Se proponen mapas de activación de clases (CAM) [35] para resaltar la atención de las CNN a la supervisión basada en la discriminación. Es un buen modelo previo . La supervisión imprecisa suele ser complementaria , por lo que también se utiliza para mejorar la segmentación de imágenes semisupervisadas [2]. En este trabajo presentamos la supervisión imprecisa como complemento de la supervisión incompleta.

3. Análisis de nube de puntos

PointNet [19] es una clasificación y segmentación de nubes de puntos que aprende características de nubes de puntos 3D mediante la conexión en cascada de perceptrones multicapa (mlps); estos trabajos [20, 33, 12, 30, 11] unproponen para explotar la geometría local. Entre todas las tareas del análisis de nubes de puntos, se encuentra la segmentación semántica.Debido a su aplicación potencial en robótica, el trabajo existente se basa en aprender un clasificador a nivel de punto [19]. Sin embargo, este paradigma requiere un etiquetado exhaustivo a nivel de punto y no se escala bien. También observamos que [26] propone agregar regularización de suavizado espacial en el objetivo de entrenamiento. [5] propusieron refinar la predicción mediante CRF. Sin embargo, ambos trabajos requieren una supervisión adecuada.

[11] Loïc Landrieu y Martin Simonovsky. Segmentación semántica de nubes de puntos a gran escala con gráficos de superpuntos. En CVPR, 2018.
[12] Yangyan Li, Rui Bu, Mingchao Sun, Wei Wu, Xinhan Di y Baoquan Chen. Pointcnn: Convolución en puntos transformados en x. En NIPS, 2018.
[20] Charles Ruizhongtai Qi, Li Yi, Hao Su y Leonidas J Guibas. Pointnet++: Aprendizaje profundo de funciones jerárquicas en conjuntos de puntos en un espacio métrico. En NIPS, páginas 5099–5108, 2017.
[30] Shenlong Wang, Simon Suo, Wei-Chiu Ma, Andrei Pokrovsky y Raquel Urtasun. Redes neuronales convolucionales continuas paramétricas profundas. En CVPR, 2018.
[33] Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E Sarma, Michael M Bronstein y Justin M Solomon. Gráfico dinámico cnn para aprender sobre nubes de puntos. Transacciones de ACM en gráficos (TOG), 2019.

3. Metodología

1. Red de codificación de nube de puntos (codificador)

La nube de puntos bth de entrada se puede expresar como: > El código es el siguiente (ejemplo):. N es el número de nubes de puntos y F es la dimensión de la característica (xyzrgb). La etiqueta de segmentación semántica se puede expresar como inserte la descripción de la imagen aquí, y la codificación one-hot es: inserte la descripción de la imagen aquí. Después de la red neuronal, las características de la nube de puntos se convierten en inserte la descripción de la imagen aquí. Las redes de codificación alternativas son: [19, 20, 12] (las dos últimas son pointnet++)

[12] Yangyan Li, Rui Bu, Mingchao Sun, Wei Wu, Xinhan Di y Baoquan Chen. Pointcnn: Convolución en puntos transformados en X. En NIPS, 2018.

Habrá comparaciones de rendimiento en los experimentos de seguimiento.

2. Rama de supervisión incompleta

Suponemos que en la muestra de nube de puntos {X_b}, solo unos pocos puntos están marcados como verdaderos, y la máscara binaria se expresa como: M∈{0,1}_B×N, es decir, el punto marcado es 1, y 0 es lo contrario. La pérdida de entropía cruzada máxima suave en los puntos etiquetados se define como:
inserte la descripción de la imagen aquí,
donde inserte la descripción de la imagen aquíes la variable de normalización. Los experimentos encuentran que nuestro método produce resultados competitivos en solo el 10% de los puntos etiquetados, es decir, ||M||_1/(B N)=0.1.

Comenzamos suponiendo que dos redes con pesos similares, una entrenada con supervisión total y la otra con supervisión débil, deberían producir resultados similares. Suponiendo que ambas redes comiencen con la misma inicialización, en cada paso los gradientes son más similares, lo que significa que las posibilidades de que ambas redes converjan en resultados similares son mayores.

El gradiente de supervisión total y supervisión débil se expresa de la siguiente manera:

inserte la descripción de la imagen aquí
En cada paso de entrenamiento, la dirección del gradiente aprendido es el promedio de los gradientes calculados con respecto a cada punto individual. Suponiendo una distribución independiente e idéntica inserte la descripción de la imagen aquícon la expectativa inserte la descripción de la imagen aquíy la varianza inserte la descripción de la imagen aquí, la media de muestreo (objetivos de muestreo n) es: inserte la descripción de la imagen aquí. Se puede verificar que:

inserte la descripción de la imagen aquí,eninserte la descripción de la imagen aquí

De acuerdo con el teorema del límite central, tenemos la siguiente convergencia en la distribución:
inserte la descripción de la imagen aquí
Esto básicamente establece que la diferencia de gradiente se distribuye normalmente con varianza σ^2 / ||M||_1. Por lo tanto, un número suficiente de puntos marcadores, es decir, un ||M||1 suficientemente grande, puede aproximar bien ∇Θlf y ∇Θlw. Aunque el valor de σ es difícil de estimar por adelantado, nuestro método produce resultados comparables a menos de 10 puntos etiquetados completamente supervisados.

3. Rama de supervisión imprecisa

Suponiendo que cada parte tiene al menos un punto etiquetado, cada muestra de entrenamiento X_b va acompañada de una etiqueta imprecisa inserte la descripción de la imagen aquí, lo que equivale a realizar la agrupación máxima en todos los puntos. Por lo tanto, la rama de supervisión imprecisa se construye de manera similar al aprendizaje de múltiples instancias [18, 7]. La característica que incrusta Z_b es el primer máximo global agrupado, es decir, dado que inserte la descripción de la imagen aquí¯zb define el logaritmo en cada categoría, la entropía cruzada se puede usar como pérdida: la
inserte la descripción de la imagen aquí
razón es que para aquellas categorías parciales que no están en la muestra, el logaritmo alto para predecir cualquier punto. La rama de supervisión incompleta solo supervisa N puntos etiquetados en una rama muy pequeña, mientras que la rama de supervisión inexacta supervisa todos los puntos a nivel de muestra, por lo que son complementarios.

4. Autosupervisión siamesa

A pesar de las dos pérdidas anteriores, la mayoría de los puntos no etiquetados todavía no están entrenados con ninguna restricción. Restricciones adicionales en estos puntos pueden mejorar aún más los resultados. Suponemos que las predicciones para cualquier punto son invariantes a la rotación y al giro del espejo . Esta suposición es especialmente cierta para las formas de CAD en 3D y las escenas interiores rotadas en la dirección X. Por ejemplo, en una habitación, las etiquetas semánticas no deberían cambiar con diferentes ángulos de visualización. Considerando esto, diseñamos una estructura de red siamesa con dos codificadores de parámetros compartidos f1(X) y f2(X). El aumento de datos es: reflejo a lo largo del eje X y/o el eje Y y una rotación de un plano XoY , a saber: θ ∼ U(0, 2π) distribución uniforme; a, b, c ∼ B(1, 0.5) Bernoulli Distribución inserte la descripción de la imagen aquí
La primera matriz controla el grado de rotación, la segunda matriz controla la duplicación y el intercambio X,Y. Convertir la restricción invariante de rotación para minimizar la divergencia entre las predicciones de probabilidad de **g(f1(X)) y
inserte la descripción de la imagen aquí

5. Restricciones de suavidad espacial y de color

Las etiquetas semánticas son fluidas tanto en espacios espaciales como de color . En nuestro entorno supervisado débilmente, cuando incrustar una gran cantidad de puntos sin etiquetar no está bien restringido por la pérdida de segmentación, las restricciones explícitas son más beneficiosas.

Se puede definir una variedad en una nube de puntos para explicar la geometría y el color locales a través de un gráfico. Para construir el gráfico múltiple, primero calculamos las distancias por pares de los canales c (xyz o rgb) inserte la descripción de la imagen aquí, es decir, inserte la descripción de la imagen aquí
luego, al buscar los k vecinos más cercanos k(x) de cada punto, se puede construir un gráfico k-nn, y la correspondiente La matriz de peso W_c∈R_N×N se escribe como
inserte la descripción de la imagen aquítomamos la suma de las dos matrices de peso, xyz y rgb, xyz y rgb como el gráfico Manifold para producir un manifold más confiable: inserte la descripción de la imagen aquíinserte la descripción de la imagen aquíesto es razonable porque el canal xyz desdibuja el límites, mientras que los canales rgb conectan respectivamente los puntos distantes. Si la variedad construida sobre la distancia espacial y el color contradice la GT etiquetada, agregamos restricciones adicionales de vinculación obligatoria y desvinculación [31] en W para hacer cumplir las anotaciones conocidas, a saber:inserte la descripción de la imagen aquí

Fase de entrenamiento:

Introducimos un regularizador múltiple [3] para fomentar la incorporación de características de cada punto para ajustarse a la variedad obtenida previamente. Si w_ij representa un valor alto y permanece sin restricciones, entonces la predicción f(xi) debería permanecer alrededor de f(xj). El regularizador es:
inserte la descripción de la imagen aquídonde Z es la predicción para todos los puntos.

Fase de previsión:

Es bien sabido que en la segmentación de imágenes, las predicciones de las CNN no consideran bien los límites, y [4, 9] y CRF se utilizan a menudo para refinar las predicciones originales. En la segmentación de nubes de puntos con supervisión débil, este problema se exacerba debido a las etiquetas limitadas. Para paliar este problema, presentamos un procedimiento de propagación de etiquetas semisupervisado [38] para mejorar las predicciones. Específicamente, la predicción refinada Z˜ debe ajustarse a la variedad espacial y de color definida por Laplacian L , sin desviarse demasiado de la predicción de la red Z. La meta es:
inserte la descripción de la imagen aquí

6. Entrenamiento

El objetivo de entrenamiento final es combinar todos los objetivos anteriores, es decir, total = l_seg + λ1l_mil + λ2l_sia + λ3l_smo. Establecemos empíricamente λ1, λ2, λ3=1. Elija el gráfico k-nn como k=10, η=1e3 y γ como 1 en la ecuación.

4. Experimenta

Tres conjuntos de datos: ShapeNet es un conjunto de datos de modelo CAD que contiene 16 881 formas de 16 categorías, cada una anotada con 50 partes. Para cada muestra de entrenamiento, seleccionamos aleatoriamente un subconjunto de puntos de cada sección para etiquetarlos.
Se propone PartNet [16] para un aprendizaje de nube de puntos más detallado. Consta de 24 categorías de formas únicas con un total de 26.671 formas.
S3DIS [1] para la comprensión de escenas en interiores. Consta de 6 áreas, cada una de las cuales cubre varias habitaciones.

Resultados de segmentación para habitaciones seleccionadas en el conjunto de datos S3DIS. De izquierda a derecha, visualizamos vistas RGB, datos reales, segmentación totalmente supervisada, métodos de línea de base poco supervisados ​​y los resultados finales de nuestro método.
inserte la descripción de la imagen aquí
En particular, nuestro método propuesto es capaz de mejorar en gran medida los resultados de referencia al suavizar las regiones ruidosas. Sin embargo, observamos algunos errores de nuestro método en los límites entre diferentes objetos. Los resultados de la segmentación en ShapeNet se muestran en la figura (estos ejemplos nuevamente demuestran el desempeño altamente competitivo de los métodos supervisados ​​débilmente. Tanto para las clases de aviones como de automóviles, los resultados supervisados ​​débilmente están muy cerca de la supervisión total).
inserte la descripción de la imagen aquí

Resumir

En este documento, mostramos que las redes de codificadores de nubes de puntos existentes pueden producir un rendimiento muy competitivo para la tarea de segmentación de nubes de puntos con solo una pequeña cantidad de puntos etiquetados. Brindamos análisis desde una perspectiva estadística e información sobre las estrategias de anotación con un presupuesto de etiqueta fijo. Además, proponemos tres pérdidas de entrenamiento adicionales, a saber, supervisión imprecisa , autosupervisión siamesa y suavizado espacial y de color , para regularizar aún más el modelo. Los experimentos se llevan a cabo en tres conjuntos de datos públicos para verificar la efectividad de nuestro método propuesto En particular, los resultados son comparables a la supervisión completa con 10 veces menos puntos etiquetados.

Supongo que te gusta

Origin blog.csdn.net/qq_45752541/article/details/126638383
Recomendado
Clasificación