Fusión de características multimodal basada en imágenes RGB-D

Fusión de características multimodal basada en imágenes RGB-D


Fusión de ideas

La información espacial del mapa de profundidad suele tener dos formas de expresión: información de distancia e información de codificación HHA. La información de distancia es información relacionada con la distancia entre el objeto objetivo y la superficie del dispositivo de recolección. Puede reflejar la relación de posición espacial del objeto dentro de la escena y, a menudo, participa en el cálculo en forma de una imagen de un solo canal . La información codificada HHA es una expresión espacialmente extendida de información de distancia, que es el paralaje horizontal, la altura horizontal y el ángulo del centro de gravedad del punto . A menudo participa en el cálculo en forma de una imagen de tres canales . La forma de representación de la información de distancia es relativamente simple y se puede utilizar fácilmente. Por el contrario, la forma de representación de la información codificada HHA es compleja, requiere una gran cantidad de cálculos y consume muchos recursos informáticos. Sin embargo, la forma de representación de la información de codificación HHA La información de codificación permite a la red extraer información de características de profundidad más rica.

El núcleo de la fusión es cómo combinar de manera eficiente la información de características de la imagen RGB.


Integración temprana

La primera estructura de fusión de características multimodales realizó principalmente una operación de empalme simple en dos imágenes para formar una nueva imagen de cuatro canales o una imagen de seis canales y la transportó al modelo de red. El modelo de red en este momento es una estructura de codificación-decodificación de red neuronal convolucional de una sola rama . La fusión de características de imagen RGB y características de imagen de profundidad adopta el método de adición de elementos. Este método es demasiado simple y no pasará por otras redes en el futuro. Etapa de la red Procesamiento del módulo , por lo que este método de procesamiento de información de características** conducirá a una información menos efectiva extraída por la red y a una baja precisión de segmentación semántica del modelo.** Este tipo de método de fusión se llama fusión temprana.


fusión tardía

La fusión posterior adopta una estructura de doble rama . La red contiene dos ramas de red neuronal convolucional independientes. Una de estas dos ramas se denomina rama RGB y la otra es rama de profundidad, que se utilizan para extraer las características RGB correspondientes y la información de características de profundidad, respectivamente. Finalmente, la información de las dos características se fusiona al final del codificador. Dado que la estructura de fusión tardía realiza primero el procesamiento de convolución en la imagen de profundidad, el ruido de la imagen se suprime . Por lo tanto, en comparación con la estructura de fusión temprana mencionada anteriormente, la fusión tardía puede mejorar efectivamente la precisión de la segmentación semántica final . Sin embargo, este método no puede aprovechar al máximo A pesar de las características complementarias de la imagen de entrada en cada etapa del codificador, aún se perderá una gran cantidad de información útil .
***

fusión multinivel

La fusión multinivel también utiliza una estructura de doble afluente . El núcleo es la fusión de características de múltiples etapas durante la codificación o decodificación. Se puede dividir en tres categorías principales, a saber, fusión de codificación multinivel , fusión de decodificación multinivel y tercera rama . fusión multinivel .


Fusión de codificación multinivel

La estructura de fusión de codificación multinivel se muestra en la figura. Este método de fusión fusiona información de características RGB e información de características de profundidad en cada etapa durante la codificación, teniendo en cuenta la complementariedad de las dos características modales en cada etapa del codificador. En comparación con los métodos de fusión temprana y tardía mencionados anteriormente, este método de procesamiento de información puede realizar una utilización complementaria en varias etapas de las funciones RGB-D y evitar la pérdida de una gran cantidad de información útil . Sin embargo, el método de fusión es demasiado simple y no puede ser profundamente minado Información complementaria sobre características de profundidad y RGB.


Fusión de decodificación multinivel

La estructura de fusión de decodificación multinivel considera principalmente las características complementarias de cada etapa del decodificador. Como se muestra en la figura, la información de características RGB extraída y la información de características de profundidad se pueden transmitir al decodificador en una conexión de salto en cada etapa y combinarse con Las características del decodificador en sí están fusionadas . Este método de procesamiento de información es similar al método de fusión de codificación multinivel. Aunque las dos características modales pueden usarse de forma complementaria en múltiples etapas , la contribución al rendimiento de la segmentación del modelo es, en última instancia, limitada .


La tercera rama de la fusión multinivel.

La tercera rama de la estructura de fusión multinivel consiste en agregar una nueva rama de fusión además de la rama RGB y la rama de profundidad originales . La estructura de la rama de fusión no es única , puede ser una rama de red neuronal convolucional con la misma configuración que el RGB original. rama y rama de profundidad. También puede ser una nueva estructura de procesamiento del módulo de características de fusión, que se utiliza para fusionar la información de características RGB extraída de la rama RGB y la información de características de profundidad extraída de la rama de profundidad. La estructura es como se muestra en la figura . En comparación con los otros dos métodos de fusión multinivel, la tercera rama de la fusión multinivel puede realizar un procesamiento más profundo de características RGB y características de profundidad y es más complementaria , pero los parámetros de cálculo correspondientes aumentarán y los recursos informáticos consumidos también aumentarán. más grande .


En aplicaciones prácticas, estos tipos de métodos de fusión se utilizan con mayor frecuencia en combinación entre sí y los resultados de los métodos combinados suelen ser mejores.

Supongo que te gusta

Origin blog.csdn.net/wagnbo/article/details/127751878
Recomendado
Clasificación