论文: de abajo arriba y de arriba hacia abajo Atención para la imagen de subtítulos y Visual Pregunta Answering- 阅读 总结

De abajo hacia arriba y de arriba hacia abajo Atención para la imagen de subtítulos y Visual Pregunta Answering- 阅读 总结

Las notas no se pueden simplemente copiar el contenido del texto, y deben tener su propio pensamiento y la comprensión.

En primer lugar, la información básica

\ 1标题:. De abajo hacia arriba y de arriba hacia abajo Atención para la imagen de subtítulos y de Respuestas Visual

\ 2作者:. Peter Anderson, Xiaodong Él, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, Zhang Lei

\ 3作者单位:. Universidad Nacional de Australia, JD AI Research, Microsoft Research, Universidad de Adelaida, Macquarie University, Universidad Nacional de Australia, Microsoft Research

. \ 4 publicados revistas / conferencias: CVPR 2018 completo oral (ganador de 2017 en The Visual de Respuestas Challenge)

. \ 5 Publicado: 2018

En segundo lugar, mirada en el objetivo de este documento

para estudiar el nuevo mecanismo: de abajo arriba y de arriba hacia abajo atención, y para encontrar la inspiración para mi proyecto de tesis de grado.

En tercer lugar, la escena y las cuestiones

escena: título de la imagen visual de pregunta y respuesta (VQA)

problema: A menudo es necesario realizar algún tipo de procesamiento visual de grano fino, o incluso múltiples pasos de razonamiento para generar salidas de alta calidad.

En cuarto lugar, los objetivos de la investigación

una comprensión más profunda de imagen a través del análisis de grano fino, permitir que la atención se calcula a nivel de objetos y otras regiones de imagen sobresaliente.

En quinto lugar, la idea principal / innovación

principal fuente de inspiración:

\ 1.In el sistema visual humano, la atención se puede centrar volitivamente de arriba hacia abajo señales determinadas por la tarea actual (por ejemplo, en busca de algo), y automáticamente por las señales de abajo hacia arriba asociados con inesperada, novela o saliente estímulos.

mecanismos de atención \ 2.Most están típicamente formados para atender selectivamente a la salida de una o más capas de una CNN. Sin embargo, este enfoque presta la suficiente atención a cómo se determinan las zonas de imagen que son objeto de atención.

La principal innovación:

\ 1.a mecanismo combinado de abajo arriba y de arriba hacia abajo la atención visual:

la atención de abajo hacia arriba (implementado por Faster R-CNN) propone un conjunto de regiones de imagen sobresalientes, con cada región representada por un vector de características convolucional agrupado.

el contexto de la tarea específica de arriba hacia abajo utiliza el mecanismo para predecir una distribución de la atención sobre las regiones de imagen. El vector de características asistido a continuación, se calcula como una media ponderada de imagen ofrece sobre todas las regiones.

En sexto lugar, el algoritmo general

\ 1.Bottom Actualización Modelo de Atención

atención ①.bottom arriba implementado por más rápido R-CNN:

a.Faster R-CNN detecta objetos en dos etapas:

Primera etapa, Región Propuesta de red (RPN) predice propuestas de objetos. Una pequeña red se desliza overfeatures en un nivel intermedio de una CNN. En cada localización espacial de la red predice una puntuación objetualidad independiente de clase y un refinamiento cuadro de límite para las cajas de anclaje de múltiples escalas y relaciones de aspecto. El uso de la supresión no máximo codicioso con una intersección-over-unión umbral (IOU), las propuestas de la caja superior se seleccionan como entrada a la segunda etapa.

Segunda etapa, región de interés pooling (ROI) se utiliza para extraer una pequeña mapa de características (por ejemplo, 14 × 14) para cada propuesta caja. Estos mapas de características son entonces por lotes juntos como entrada para las capas finales de la CNN. La salida final del modelo consiste en una distribución softmax sobre etiquetas de clase y clase-específicos reginements cuadro delimitador para cada propuesta caja.

b.Faster R-CNN efectivamente funciona como un mecanismo de atención "duro", ya que sólo un número relativamente pequeño de imagen que delimitan características de la caja se seleccionan de un gran número de configuraciones posibles.

Para generar la imagen dispone de V, un conjunto posiblemente variable de tamaño de \ (k \) características de la imagen \ (V = {\ {v_1, \ dots, v_k \}}, v_i \ in \ mathbb {R} ^ D \ ) , cada clase de objeto (la salida final del modelo) no es máximo suprimida por un umbral de IOU. Entonces todas las regiones donde cualquier probabilidad de detección de clase excede un umbral de confianza se seleccionan como \ (i, v_i \) y se definen como la característica convolucional-agrupado media de esta región, tal que la dimensión \ (D \) de los vectores de características de imagen es 2048.

proceso del modelo de atención de abajo hacia arriba c.learning: Faster R-CNN es inicializado por ResNet-101 pretrained para la clasificación en IMAGEnet. A continuación, se entrenó en los datos visuales del genoma. Se añade una salida de entrenamiento adicional para predecir las clases de atributos. Una clase de atributo overeach distribución softmax más una clase 'sin atributos' se define en la capa de salida adicional. La característica convolucional agrupada media \ (v_i \) y una aprendido la incrustación de la clase de objeto planta verdad se concatenan y se introduce en la capa de salida para predecir los atributos de región \ (i \) .

Además de los R-CNN componentes cuatro originales más rápidos función de pérdida, definidas sobre la clasificación y que limitan salidas caja de regresión tanto para el RPN y las propuestas finales de clase de objeto respectivamente, añaden un componente de pérdida multi-clase adicional para entrenar el predictor atributo .

\ 2.Captioning Modelo:

①.top abajo LSTM atención visual:

a. El vector de entrada a la LSTM atención en cada paso de tiempo consiste en la salida anterior de la LSTM idioma, concatenado con la función de agrupado media imagen \ (\ bar {v} = \ frac {1} {k} \ sum_iv_i \) y una codificación de la palabra generado previamente, dada por: \ (x ^ 1_t = [h ^ 2_ {t-1}, \ bar {V}, W_e \ Pi_t] \) , \ (W_e \ in \ mathbb {R ^ {e \ times \ vert \ sum \ vert}} \) es una palabra incrustación de matriz para un vocabulario \ (\ sum \) , y \ (\ Pi_t \) es la codificación de una sola caliente de la palabra de entrada en timestep \ (t \) . La palabra incrustación se aprende de inicialización aleatoria y sin pre-entrenamiento.

En cada paso de tiempo \ (t \) , dada la salida \ (h_t ^ 1 \) de la LSTM atención, que generan un peso atención normalizado \ (\ alpha_ {i, t} \) para cada uno de la \ (k \) ofrece una imagen \ (v_i \) de la siguiente manera:

\ [A_ {i, t} = w ^ T_atanh (W_ {VA} v_i + W_ {ja} h_t ^ 1) \\ \ alpha_t = softmax (a_t) \]

\ (W_ {VA} \ in \ mathbb {R} ^ {H \ times V}, W_ {ja} \ in \ mathbb {R} ^ {H \ M veces} \) y \ (w_a \ in \ mathbb {R} ^ H \) se aprenden parámetros. La función de imagen asistido utilizado como entrada para el idioma LSTM se calcula como una combinación convexa de todas las características de entrada:

\ [\ Hat {v} _t = \ sum ^ K_ {i = 1} \ alpha_ {i, t} v_i \]

②.Language LSTM:

Entrada: la característica de imagen asistido concatenado con la salida del LSTM atención: \ (x_t ^ 2 = [\ hat {v} _t, h_t ^ 1] \) .

\ (y_ {1: T} \) se refiere a una secuencia de palabras ( \ (y_1, \ dots, \ y_T) ), en cada paso de tiempo \ (t \) la distribución condicional sobre posibles palabras de salida viene dada por: \ (p (y_t | Y_ {1: t-1}) = softmax (W_ph_t ^ 2 + b_p) \) , \ (W_p \ in \ mathbb {R} ^ {| sigma | \ M veces} \) y \ (b_p \ in \ mathbb {R} ^ {| \ sum |} \) se aprenden pesos y sesgos.

La distribución a través de secuencias de salida completas se calcula como el producto de la distribución condicional: \ (P (y_ {1: T}) = \ prod \ límites ^ T_ {t = 1} p (y_t | Y_ {1: t-1 }) \)

③.Objective:

Pérdida: \ (y ^ * _ {1: T} \) una secuencia de verdad planta de destino, \ (\ theta \) parámetros de un modelo de subtítulos, minimizar la pérdida de entropía cruz: \ (L_ {XE} (\ theta) = - \ sum \ límites ^ T_ {1} t = log (p _ {\ theta} (y ^ * _ t | y ^ * _ {1: t-1})) \) .

La comparación con otros trabajos, que se inicia desde el modelo entrenado entropía cruzada y tratar de minimizar la puntuación negativa esperada: \ (L_R (\ theta) = - \ vec {E} _ {y_ {1: T} \ sim p _ {\ theta}} [r (y_ {1: T})] \) , \ (r \) es la función de puntuación (por ejemplo, la sidra).

Autocrítico Secuencia de Entrenamiento (SCST), el gradiente de la pérdida puede ser aproximado: \ (\ bigtriangledown _ {\ theta} L_R (\ theta) \ aprox - (r (Y ^ s_ {1: T}) - R ( \ hat {y} _ {1: T})) \ bigtriangledown _ {\ theta} logp _ {\ theta} (y ^ s_ {1: T}) \) , \ (y ^ s_ {1: T} \) es un subtítulo muestreada, \ (r (\ hat {y} _ {1: T}) \) define la puntuación basal obtenido mediante la decodificación de avidez el modelo actual. SCST explora el espacio de los subtítulos mediante un muestreo de la política durante el entrenamiento. Este gradiente tiende a aumentar la probabilidad de subtítulos en la muestra que puntúan más alto que la puntuación del modelo actual.

optimización de sidra (terminado en una sola spoch): Se sigue SCST y acelerar el proceso de formación mediante la restricción de la distribución de muestreo. El uso de decodificación de búsqueda en haz: muestra sólo de los capítulos de la viga decodificado.

\ 3.VQA Modelo:

①.Given un conjunto de imagen espacial dispone de V, modelo VQA utiliza un mecanismo de atención de arriba hacia abajo 'suave' para ponderar cada función, utilizando la representación pregunta como contexto y seguido de una predicción de la regresión de las puntuaciones sobre un conjunto de respuestas candidatos .

②.The transformaciones no lineales aprendidas dentro de la red se implementan con activaciones tangente hiperbólica cerradas y se nota una fuerte ventaja empírica sobre capas tradicionales relu o TANH. Cada 'cerrada tanh' funcionan capas implementos \ (f_a: x \ in \ mathbb {R} ^ m \ rightarrow y \ in \ mathbb {R} ^ n \) con los parámetros \ (a = \ {W, W', b , b '\} \) definido como sigue:

\ [\ Tilde {y} = tanh (Wx + b) \\ g = \ sigma (W'x + b ') \\ y = \ tilde {y} \ circ g \]

\ (\ sigma \) es la función de activación sigmoide, \ (W, W '\ in \ mathbb {R} ^ {n \ m veces} \) son pesos aprendidas, \ (B, B' \ in \ mathbb {R } ^ n \) sesgos se aprenden, \ (\ circ \) es el producto Hadamard (elemento-wise). \ (g \) actúa multiplicativa como una puerta sobre la activación intermedia \ (\ tilde {y} \) .

③.This acercan primeros codifica cada pregunta como el estado oculto \ (q \) de una unidad recurrente cerrada (GRU), con cada palabra de entrada representado usando una incrustación cultismo. Dada la salida \ (q \) de la GRU, genera un peso unnormalized atención \ (a_i \) para cada uno de la \ (k \) La imagen ofrece \ (v_i \) como: \ (a_i = w_a ^ Tf_a ([ v_i, q]) \) , \ (w_a ^ T \) es un vector de parámetros aprendido. el peso normalizado atención y la función de imagen asistido \ (\ hat {v} \) se calculan mediante las ecuaciones en \ 2. ①.

④.The distribución sobre posibles reponses de salida \ (y \) está dada por:

\ [H = f_q (q) \ circ f_v (\ hat {v}) \\ p (y) = \ sigma (W_of_o (h)) \]

\ (h \) es una representación conjunta de la cuestión y la imagen, \ (W_O \ in \ mathbb {R} ^ \ {| \ M veces | \ sum}) pesos se aprenden.

Siete, el uso de conjuntos de datos y evaluación

Los conjuntos de datos:

①.Visual Genoma Conjunto de datos (108K contiene imágenes densamente con anotada escenarios gráficos que contienen objetos, atributos y relaciones, así como 1,7 millones de preguntas respuestas visuales): se utilizan para pretrain el modelo de atención de abajo hacia arriba, y para el aumento de datos cuando el modelo de formación VQA .

②.Pretraining el modelo de atención de abajo hacia arriba: utilizando sólo el objeto y datos de atributos, reservando 5K imágenes para la validación y 5K imágenes para futuras pruebas, los 98K imágenes restantes como datos de entrenamiento. Como aproximadamente 51K imágenes visuales del genoma también se encuentran en el conjunto de datos de subtítulos MSCOCO, se debe evitar la contaminación de la validación y de prueba MSCOCO. Las imágenes de ambos conjuntos de datos están contenidos en la misma división en ambos conjuntos de datos.

limpieza ③.Extensive y el filtrado de los datos de entrenamiento (como el objeto y el atributo anotaciones consisten de cadenas libremente anotadas, en lugar de clases): el conjunto de entrenamiento final contiene 1600 clases de objetos y 400 clases de atributos, la eliminación de las clases abstractas que exhiben pobre detección el rendimiento en los experimentos iniciales. Sin la fusión o eliminación de clases superpuestas (por ejemplo, 'persona', 'hombre', 'hombre'), clases con ambas versiones en singular y plural (por ejemplo, 'árbol', 'árboles') y las clases que son difíciles de precisión localize (por ejemplo, 'el cielo ', 'hierba', 'edificios').

④.MS COCO 2014 Conjunto de datos: escisiones 'Karpathy' se utiliza para la validación del modelo hiperparámetros y las pruebas fuera de línea --- 113,287 imágenes de entrenamiento con cinco títulos cada uno, respectivamente 5K imágenes para validación y pruebas. Solamente actuar un mínimo de texto pre-procesamiento: la conversión de todas las condenas a minúscula, tokenizar en el espacio blanco, y el filtrado de palabras que no se encuentran al menos cinco veces, conseguir un modelo de vocabulario de 10.010 palabras.

⑤.Standard MATRICS de evaluación automáticos: SPICE, sidra, METEOR, colorete-L y BLEU.

⑥.VQA v2.0 Conjunto de datos: se utiliza para evaluar el modelo VQA, minize la eficacia del aprendizaje de conjuntos de datos priores equilibrando las respuestas a cada pregunta, contiene 1.1M preguntas con respuestas 11,1 millones relacionados con las imágenes MSCOCO.

preprocesamiento texto de la pregunta estándar y tokenización: preguntas se recortan hasta un máximo de 14 palabras para la eficiencia computacional, el conjunto de respuestas candidatos si se restringe a las respuestas correctas en el conjunto de entrenamiento que aparecen más de 8 veces y salida de un tamaño del vocabulario de 3129, el uso de la métrica VQA estándar para evaluar la calidad de respuesta, que tiene en cuenta el desacuerdo ocasional entre los anotadores para las respuestas terreno la verdad.

Ocho detalles experimentales

Detalles de la formación:

\ Modelo 1.Full (arriba-abajo) se evalúa contra el trabajo previo, así como una línea de base separada por ablación. En cada caso, la línea de base (ResNet), utiliza un ResNet CNN pretrained en IMAGEnet para codificar cada imagen en lugar del mecanismo de atención de abajo hacia arriba.

imagen \ 2.In la que los subtítulos experimentos, la imagen de entrada de tamaño completo está codificado con la capa convolucional final del ResNet-101, y el uso de la interpolación bilineal para cambiar el tamaño de la salida a una representación espacial de tamaño fijo de 10 × 10.

experimentos \ 3.In VQA, la imagen de entrada se codifica con ResNet-200. En experimentos separados, el efecto de variar el tamaño de la salida espacial se evalúa a partir de su tamaño original de 14 × 14, a 7 × 7 y 1 × 1.

Nueve, la verificación de los problemas y resultados

Pregunta 1:

tabla 1

①. Performace del modelo completo y el ResNet línea de base en comparación con el enfoque actual estado de la técnica de auto-crítica de formación de secuencia (SCST) en la porción de ensayo de las divisiones Karpathy.

Los modelos están capacitados tanto con estándar de la pérdida de entropía cruzada y optimización puntuación CISER. Todos los resultados son de un único modelo sin ajuste fino de la / modelo R-CNN ResNet de entrada. Los resultados SCST se seleccionan entre el mejor de los cuatro inicializaciones randon, y otros resultados son los resultados de una sola inicialización.

La incorporación de la atención de abajo hacia arriba, llenos de arriba-abajo modelo muestra mejoras significativas en todos los parámetros, independientemente de si se utiliza la pérdida de entropía cruzada o la optimización de sidra.

Tabla 2

②.The mejor desempeño en términos de identificación de objetos, atributos de los objetos y también las relaciones entre los objetos.

Tabla 3

③.At el momento de presentar el modelo superan a todas las demás presentaciones servidor de prueba en todas las métricas de evaluación informó sobre el servidor oficial de evaluación MSCOCO.

Pregunta 2:

Tabla 4

①.the solo el rendimiento del modelo de la totalidad de arriba-abajo VQA modelo en relación con varias líneas de base ResNet en el conjunto de validación v2.0 VQA.

Tabla 5

②.At el momento de la presentación, el modelo superan a todas las demás presentaciones servidor de prueba.

Pregunta 3:

①.As indicado por el ejemplo, el enfoque es igualmente capaz de concentrarse en los detalles finos o grandes áreas de imagen. Esta capacidad se debe a que los candidatos de atención en el modelo consisten en muchas regiones superpuestas con diferentes escalas y relaciones de aspecto - cada alineado a un objeto, varios objetos relacionados, o un parche de imagen de otra manera sobresaliente.

En otras palabras, el enfoque es capaz de considerar toda la información relativa a un objeto a la vez, lo que también es una forma natural para la atención a implementarse, en lugar de todos los conceptos visuales asociados con esos objetos parecen estar espacialmente co situado - y son procesadas juntas.

En el sistema visual humano, el problema de la integración de las características separadas de los objetos en las combinaciones correctas se conoce como el problema de unión característica, y los experimentos sugieren que la atención juega un papel central en la solución.

Supongo que te gusta

Origin www.cnblogs.com/phoenixash/p/12623219.html
Recomendado
Clasificación