NS-VQA: respuesta visual a preguntas que combina el razonamiento simbólico y la red neuronal

Enlace original: https://arxiv.org/pdf/1810.02338.pdf

Motivación

Este artículo es igual a los dos últimos artículos, a saber, el razonamiento visual. Para las respuestas a las preguntas de la figura, el razonamiento humano es claro e interpretable. El razonamiento visual espera que el proceso de razonamiento de VQA pueda expresarse claramente.

 

Estructura

El modelo de este artículo contiene tres partes. Primero, el analizador de escenas (es decir, el de-renderizador) divide la imagen de entrada en diferentes objetos (a través de la máscara R-CNN), y luego genera una descripción de escena estructurada (es decir, la tabla en la figura, el tamaño, Forma, material, color, ubicación); luego, el analizador de problemas convierte el problema en un programa ejecutable a través de LSTM; finalmente, el ejecutor del programa ejecuta el programa en la escena estructurada y obtiene el resultado. Las últimas dos partes son similares a la estructura del artículo anterior Inferir y ejecutar programas.

 

Los experimentos


NS-VQA supera el rendimiento de los modelos existentes, incluidos el MAC y el IEP mencionados la semana pasada. Cuando el número de programas de verdad básica alcanza 270, la tasa de precisión puede alcanzar un asombroso 99.8%, incluso superando el rendimiento humano.


El autor realizó experimentos sobre el proceso de entrenamiento modelo. El estudio encontró que NS-VQA solo necesita alrededor de 500 programas para lograr la precisión más avanzada en el aprendizaje por refuerzo, lo que demuestra una eficiencia muy alta. En el mismo número de programas de verdad básica y datos de capacitación, NS-VQA superó los modelos existentes y logró los mejores resultados.


El autor muestra los resultados cualitativos en el conjunto de datos CLEVR, el azul representa el procedimiento / resultado correcto y el rojo representa el error. NS-VQA supera el punto de referencia IEP en la solidez de la generación de programas.


Finalmente, el autor también generó algunos problemas de razonamiento visual basados ​​en las imágenes del juego de Minecraft, lo convirtió en un conjunto de datos y se entrenó en este conjunto de datos para probar el efecto del entrenamiento. Los resultados muestran que NS-VQA aún puede lograr mejores resultados en el conjunto de datos de Minecraft.

 
 
 

Supongo que te gusta

Origin www.cnblogs.com/zkwang/p/12717202.html
Recomendado
Clasificación