Reformulación de la detección de HOI como predicción de conjuntos adaptativos

Este artículo es de un equipo conjunto de la Universidad de Ciencia y Tecnología de Huazhong, la Universidad de Beihang y SenseTime. El autor redefinió HOI como un problema de predicción de conjunto adaptativo y diseñó un modelo de detección de HOI de doble flujo basado en el marco Transformer, que es mucho más más eficaz que el actual algoritmo SOTA.

En este artículo, el autor reformula la detección de HOI como un problema de predicción de conjuntos adaptativos. Utilizando esta nueva fórmula, el artículo propone un marco de una etapa (AS-Net) basado en conjuntos adaptativos, que tiene instancias paralelas y ramas interactivas. Para lograr esto, los autores asignan un conjunto de consultas interactivas entrenables a un conjunto de predicciones interactivo con un Transformer. Cada consulta agrega de forma adaptativa características interactivamente relevantes del contexto global a través de una atención conjunta de múltiples cabezales. Además, el proceso de entrenamiento se supervisa de forma adaptativa haciendo coincidir cada verdad fundamental con predicciones interactivas. Además, los autores diseñan un módulo eficaz de atención consciente de instancias para introducir funciones de guía desde la rama de instancia a la rama de interacción. En tres desafiantes conjuntos de datos de detección de HOI, este método supera a los métodos de última generación anteriores sin ninguna pose humana ni características de lenguaje adicionales. En particular, este método logra una mejora relativa de más del 31% en el conjunto de datos HICO-DET a gran escala.    

A continuación se realizará una introducción más detallada al artículo.

papel:

Reformulación de la detección de HOI como predicción de conjuntos adaptativos https://arxiv.org/pdf/2103.05983.pdf代码:

GitHub - yoyomimi/AS-Net: Código para el detector AS-Net de HOI basado en conjuntos adaptativos de una etapa. https://github.com/yoyomimi/AS-Net

Resumen

Determinar el área de la imagen en la que enfocarse es crucial para la detección de la interacción hombre-objeto (HOI). Los detectores HOI tradicionales se centran en detectar pares de personas y objetos o ubicaciones de interacción predefinidas, lo que limita el aprendizaje de funciones efectivas. En este artículo, reformulamos la detección de HOI como un problema de predicción de conjuntos adaptativos. Utilizando esta nueva formulación, proponemos un marco de una etapa basado en conjuntos adaptativos (AS-Net) con instancias e interacciones paralelas. Para lograr esto, aprovechamos un Transformer para asignar un conjunto entrenable de consultas interactivas a un conjunto de predicciones interactivas. Cada consulta agrega de forma adaptativa características interactivamente relevantes del contexto global a través de una atención colaborativa de múltiples cabezas. Además, el proceso de entrenamiento se supervisa de forma adaptativa haciendo coincidir cada verdad fundamental con predicciones interactivas. Además, diseñamos un módulo eficaz de atención consciente de instancias para introducir funciones de guía desde la rama de instancia a la rama de interacción. En tres desafiantes conjuntos de datos de detección de HOI, nuestro método supera a los métodos de última generación anteriores sin ninguna pose humana ni características de lenguaje adicionales. En particular, logramos una mejora relativa de más del 31 % en el conjunto de datos HICO-DET a gran escala.

1. Introducción

La detección de interacción humano-objeto (HOI) tiene como objetivo identificar triples HOI a partir de una imagen determinada, lo cual es un paso importante hacia la comprensión semántica avanzada. Los métodos HOI tradicionales se pueden dividir en métodos de dos etapas y métodos de una etapa. La mayoría de los métodos de dos etapas detectan instancias (personas y objetos) y relacionan las personas y los objetos detectados uno por uno para formar recomendaciones por pares en la primera etapa. A continuación, en la segunda etapa, estos métodos infieren interacciones basadas en características de propuestas de pares persona-objeto recortadas. Los métodos de dos etapas han logrado grandes avances en la detección de HOI, pero su eficiencia y eficacia están limitadas por su estructura en serie. Con el desarrollo de los detectores de objetos de una etapa, la detección HOI de una etapa se ha vuelto cada vez más popular. Los detectores HOI de una etapa existentes formulan la detección de HOI como un problema de detección paralelo, que detecta triples de HOI directamente a partir de imágenes. El enfoque de una sola etapa ofrece mejoras significativas en eficiencia y eficacia.

Para la detección de HOI, determinar en qué áreas centrarse es fundamental y desafiante. Para obtener características básicas para la predicción de interacciones, los métodos tradicionales de dos etapas generalmente involucran características adicionales como gestos y lenguaje humanos. Sin embargo, incluso con características adicionales, los métodos de dos etapas todavía se centran en instancias detectadas que pueden ser inexactas, son menos adaptables y están limitadas por las instancias detectadas. Los métodos de una etapa alivian parcialmente estos problemas al inferir interacciones directamente de la imagen completa. Dichos métodos definen intuitivamente medios dependientes de la posición para predecir interacciones y se pueden dividir principalmente en métodos basados ​​​​en anclas y métodos basados ​​​​en puntos. Los métodos basados ​​en anclajes predicen interacciones basadas en los cuadros conjuntos de cada par de instancias humanas y de objetos. Mientras que los métodos basados ​​en puntos infieren el punto medio de interacción de cada par persona-objeto correspondiente. Sin embargo, creemos que predecir interacciones a través de ubicaciones de interacción predefinidas no es óptimo. La figura 1 muestra un ejemplo. Las interacciones "directas" (amarillas) y "impulsadas" (púrpura) son muy diferentes y, por lo tanto, requieren características visuales diferentes para la predicción de interacciones. Sin embargo, sus cajas de unión se superponen considerablemente (Fig. 1 (a)) y sus puntos medios de interacción están muy cerca (Fig. 1 (b)). Por lo tanto, estos métodos de una etapa se centran en características visuales similares de dos interacciones diferentes.

Figura 1. Tanto el método de una etapa basado en anclajes (a) como el basado en puntos (b) infieren que dos interacciones diferentes, “impulsadas” y “directas”, están ubicadas en ubicaciones similares y se centran en características similares.

Para abordar aún más las limitaciones de la localización de interacciones en métodos de una etapa, reformulamos la detección de interacciones como un problema de predicción basado en conjuntos. Definimos un conjunto de consultas interactivas con múltiples incorporaciones que se pueden aprender y un conjunto de predicciones interactivo. Cada incorporación en el conjunto de consultas se asigna a una predicción interactiva establecida por un decodificador interactivo basado en Transformer. Al introducir conjuntos de consultas interactivas en un módulo de atención colaborativa de múltiples cabezales, podemos agregar de forma adaptativa características del contexto global. Nuestro método propuesto combina cada situación de verdad sobre el terreno con predicciones de interacción similares para la supervisión adaptativa. Por lo tanto, nuestro método propuesto se centra de forma adaptativa en las características más adecuadas para cada predicción sin las restricciones de ubicación de los métodos tradicionales de una sola etapa. Como se muestra en la Figura 1 (c), nuestro método agrega las características del brazo de la persona izquierda y las características de la postura de la persona derecha para hacer dos predicciones de interacción diferentes. Luego, estas predicciones se compararon con interacciones reales "directas" e "impulsadas", respectivamente.

 Figura 1(c)

Nuestro método de predicción de conjuntos (c) asigna un conjunto de consultas interactivas a un conjunto de predicciones interactivo a través de un decodificador interactivo. Luego, las predicciones de interacción coinciden de forma adaptativa con la verdad fundamental. Para hacer esto, primero entrenamos un conjunto de incorporaciones que se pueden aprender como un conjunto de consultas interactivas. A continuación, cada consulta de interacción agrega de forma adaptativa características relacionadas con la interacción mediante la atención conjunta. Finalmente, relacionamos cada verdad fundamental con las predicciones para el monitoreo adaptativo. Este mecanismo permite que nuestro método prediga con precisión las interacciones tanto "impulsadas" como "directas". Visualmente el mejor color.

Con este fin, proponemos un nuevo marco adaptativo de una etapa basado en conjuntos, a saber, AS-Net. Nuestra AS-Net consta de dos ramas paralelas: la rama de instancia y la rama de interacción. Ambas ramas aprovechan la estructura codificador-decodificador de Transformer, que explota características globales para realizar predicciones de conjuntos. La rama de instancia predice la ubicación y categoría de cada instancia, mientras que la rama de interacción predice los vectores de interacción y sus categorías correspondientes. El vector de interacción apunta desde el centro de la instancia humana al centro de la instancia del objeto. Obtenemos tripletas de interacción predichas haciendo coincidir cada vector de interacción de la rama de interacción con una instancia detectada de la rama de instancia. Además, aprovechamos el módulo de atención consciente de instancias de manera colaborativa para realizar la agregación de sucursales. Específicamente, este módulo agrega información de ramas de instancia e introduce características agregadas en ramas de interacción. También aprovechamos las incrustaciones semánticas para realizar una comparación de objetos humanos más precisa.

Probamos nuestra AS-Net propuesta en tres conjuntos de datos, por ejemplo, HICO-Det, V-COCO y HOI-A. Nuestra AS-Net propuesta supera a todos los demás algoritmos en todos los conjuntos de datos. Específicamente, en comparación con el método de una etapa HICO-DET de última generación anterior, nuestra AS-Net propuesta logra una mejora relativa del 31%.

Nuestras aportaciones se pueden resumir en los siguientes tres aspectos:

  • Formulamos la detección de HOI como un problema de predicción de conjuntos, que rompe las limitaciones centradas en instancias y las restricciones de ubicación de los métodos existentes. Por lo tanto, nuestro método puede centrarse de forma adaptativa en las características más adecuadas para mejorar la precisión de la predicción.

  • Proponemos un nuevo marco de detección de HOI de una etapa basado en Transformer, a saber, AS-Net. También diseñamos un módulo de atención consciente de instancias para introducir información de la rama de instancia en la rama de interacción.

  • Sin introducir características adicionales, nuestro método supera a todos los métodos de última generación anteriores, logrando una mejora relativa del 31% en comparación con el segundo mejor método de una etapa en el conjunto de datos HICO-DET.

2. Trabajo relacionado

Enfoque en dos etapas. La mayoría de los detectores HOI tradicionales son de dos etapas. En la primera etapa, se aplican detectores de objetos para detectar instancias. En la segunda etapa, las características de instancia recortadas se clasifican para obtener categorías de interacción. Además de las características de instancia recortadas, los métodos anteriores utilizan características espaciales combinadas, características de caja conjunta o características contextuales para mejorar la precisión de la detección de HOI. Para centrarse en características más relacionadas con la interacción, algunos métodos explotan características adicionales como la postura humana, las partes del cuerpo humano y las características del lenguaje. Sin embargo, la arquitectura en serie de este enfoque de dos etapas compromete la eficiencia de la detección de HOI. Además, la precisión de la predicción suele estar limitada por los resultados de la detección de instancias.

Enfoque de una sola etapa. Recientemente, los métodos de detección de HOI de una etapa con mayor eficiencia han atraído cada vez más atención. La mayoría de los métodos de una etapa utilizan una arquitectura ascendente para extraer características y detectar triples de HOI directamente a partir de imágenes en paralelo. Específicamente, los métodos de una etapa se pueden dividir en métodos basados ​​en anclajes y métodos basados ​​en puntos según sus métodos de predicción interactivos. Los métodos basados ​​en anclajes predicen interacciones basadas en cada caja de unión. Los métodos basados ​​en puntos realizan inferencias en cada punto clave de interacción (por ejemplo, el punto medio de cada par de objetos humanos correspondiente). A pesar de romper el límite de detección de instancias, este método de preasignar cada interacción de verdad fundamental a la predicción aún no es adaptable y está limitado por la ubicación de la interacción.

3 métodos

El objetivo de la detección de HOI es predecir el triplete <humano, verbo, objeto>, que contiene el cuadro delimitador de un par de personas y objetos, y la categoría verbal correspondiente. En este artículo, reformulamos la detección de HOI como un problema de predicción de conjuntos y proponemos una red adaptativa de una etapa basada en conjuntos (AS-Net).

Nuestra AS-Net se basa en la estructura codificador-decodificador de Transformer y realiza predicciones basadas en conjuntos paralelos en triples HOI. Como se muestra en la Figura 2, nuestra red As propuesta consta de cuatro partes. Primero utilizamos la columna vertebral (Sección 3.1) para extraer una secuencia de características visuales con contexto global. Las instancias (Sección 3.2) y las ramas de interacción (Sección 3.3) después de la red troncal detectan instancias y conjuntos de predicción de interacción en paralelo a partir de secuencias de características, respectivamente. Para mejorar las características de la instancia valiosas para el razonamiento interactivo, diseñamos un módulo de atención consciente de la instancia (Sección 3.4) para realizar la agregación de ramas. Específicamente, introducimos incrustaciones semánticas (Sección 3.5) en las ramas de instancia e interacción para lograr predicciones triples más precisas. Finalmente, comparamos las instancias e interacciones detectadas para obtener el triplete HOI final (Sección 3.6).

Figura 2 Descripción general del marco propuesto. Primero, se aplican codificadores CNN y Transformer para extraer secuencias de características con contexto global. Luego se establecen dos ramas en la capa decodificadora del Transformador: a) la rama de instancia transforma un conjunto de consultas de instancia que se pueden aprender en un conjunto de predicción de instancia una por una; b) la rama de interacción utiliza el conjunto de consultas de interacción para estimar el conjunto de predicción de interacción . El módulo de atención consciente de instancias tiene como objetivo introducir características de instancia relacionadas con la interacción desde la rama de instancia a la rama de interacción. Finalmente, las instancias detectadas se comparan con predicciones de interacción para inferir triples de HOI.

3.1 columna vertebral

Definimos la columna vertebral combinando codificadores CNN y Transformer para extraer características de la imagen. El codificador adopta un enfoque multicapa, donde cada capa incluye un módulo de autoatención de múltiples cabezales y una red de alimentación directa (FFN) de dos capas. Para una imagen determinada, primero extraemos mapas de características visuales I\in \mathbb{R}^{W\times H\times C}. Luego usamos convolución 1 × 1 para reducir la dimensión del canal del mapa de características visuales de C a d y remodelar el mapa de características en una secuencia de características I_{s}\in \mathbb{R}^{WH\times d}. A continuación, alimentamos la secuencia de características al codificador, que I_{s}'\in \mathbb{R}^{WH\times d}refina la secuencia de características al introducir un contexto global en la secuencia de características de salida.

3.2 Rama de instancia

Las ramas de instancia se utilizan para localizar y clasificar instancias. Después del detector DETR, nuestra rama de instancia consta de un decodificador Transformer multicapa y varios cabezales FFN. Cada capa del decodificador consta de un módulo de autoatención y un módulo de atención conjunta de múltiples cabezales. La entrada a cada capa de decodificador es Q_{d}\in \mathbb{R}^{N_{d}\times d}la suma de la secuencia de incrustaciones de posiciones que se pueden aprender y la salida de la última capa. Excepto que la primera capa no tiene salida de la última capa, agregamos 0 a la secuencia de incrustación de posiciones que se pueden aprender. Primero enviamos la entrada al módulo de autoatención. Luego, el módulo de atención colaborativa de múltiples cabezales agrega de forma adaptativa el contenido clave desde Es}a F_d\in \mathbb{R}^{N_{d}\times d}, donde tomamos el resultado de autoatención Q_dcomo consulta y los que tienen la codificación de posición fija correspondiente Escomo palabras clave. Hay un encabezado FFN encima de cada capa de decodificador que decodifica F_dun conjunto de predicciones de instancia de . La cabecera FFN consta de tres ramas independientes. (cx,cy,w,h)Un cuadro delimitador normalizado utilizado para predecir el formato de cada instancia detectada . La otra es inferir las puntuaciones de las dimensiones L_dde las categorías (L_d+1), donde la última dimensión se refiere a la (\o)categoría libre de objetos. El último genera incrustaciones semánticas únicas para cada caso \varepsilon \in \mathbb{R}^K , que se explicarán en la Sección 3.5. Cada rama consta de una o más capas perceptuales. Los encabezados FFN de cada capa decodificadora comparten pesos.

tren. Para el proceso de entrenamiento basado en conjuntos, primero encontramos coincidencias bipartitas uno a uno entre el conjunto de instancias detectadas \sombrero{y}y la verdad fundamental (sin relleno de instancia ∅ para un conjunto de dimensiones ). Para este fin, implementamos una pérdida de coincidencia, que es la suma de la pérdida del cuadro delimitador y la distancia semántica de clase entre la instancia y todos los cuadros delimitadores de verdad fundamental. Según el artículo "Detección de objetos de un extremo a otro con transformadores", la pérdida del cuadro delimitador consta de pérdida y pérdida de GIoU. La distancia semántica de la categoría es el negativo de la suma de las puntuaciones previstas para cada categoría de verdad fundamental.yDakota del Nortel_1

Dakota del NorteEl conjunto previsto de permutaciones del índice universal se expresa como S_ {N_d}. Consideramos la disposición de índice óptima del conjunto de instancias detectadas que minimiza la suma de \hat{\sigma }_d\in S_{N_d}todos los costos coincidentes , que calculamos utilizando el algoritmo húngaro. L_{partido}(\hat{y}_{\sigma _d(yi)},y_i)El i-ésimo elemento de la disposición indexada \sigma _d\in S_{N_d}se define como \sigma _d(i)y \sombrero{\sigma _d}se formula como:

Por ejemplo, predicción con permutación de índice, el cuadro delimitador y la clase predichos se indican como \sombrero{b}_{\sombrero{\sigma}_{d}(i)}y, respectivamente \hat{p}_{\hat{\sigma}_{d}(i)}. Seguimos el detector DETR para construir una pérdida de detección de instancias basada en conjuntos L_ins}:

donde biy c_irepresentan el cuadro delimitador y la categoría de la instancia de verdad fundamental coincidente, respectivamente, y \hat{p}_{\hat{\sigma}_{d}(i)}(c_i)es c_ila puntuación de confianza de la categoría.

 3.3 Rama de Interacción

La rama de interacción predice vectores y categorías de interacción para cada interacción. Su arquitectura es similar a la rama de instancia, que constituye un decodificador Transformer multicapa y varios cabezales FFN. Cada capa decodificadora utiliza varios conjuntos de consultas interactivas Q_rpara agregar Esel contenido clave correspondiente de secuencias de características compartidas F_r\in \mathbb{R}^{N_r\times d}. Cada capa decodificadora está equipada con un encabezado FFN como rama de instancia. Cada encabezado FFN también se divide en tres subramas. Para cada predicción de interacción, predecimos un vector de interacción de 4 dimensiones con la categoría y dos incrustaciones semánticas, es decir, \varepsilon ^h\in \mathbb{R}^Kpara \varepsilon ^o\in \mathbb{R}^Klas instancias de persona y objeto correspondientes, respectivamente. El vector de interacción apunta desde el centro humano normalizado (x_{ct}^{o},y_{ct}^{o})al centro del objeto (x_{ct}^{o},y_{ct}^{o}). Teniendo en cuenta que puede haber múltiples interacciones para el mismo par de personas, utilizamos un clasificador de etiquetas múltiples para predecir puntuaciones para cada categoría de verbos por separado.

tren. Representamos las interacciones reales como t = (v,z), donde v es el vector de interacción de t y z representa las L categorías de interacción real de t. Calculamos la pérdida de coincidencia entre t y cada interacción predicha, donde v representa el vector de interacción predicho y z representa la puntuación de confianza de la clase de interacción. El costo de contrapartida L_{partido}(\hat{t}_{\sigma_r(i)},t_i)se puede calcular mediante la siguiente fórmula:

donde , \hat{z}_{\sigma _{r}(i)}(z_l)se refiere a la puntuación tde la yocategoría de interacción de verdad fundamental z_l. wrtDe manera similar al proceso de entrenamiento basado en conjuntos de la rama de instancia, utilizamos el algoritmo húngaro para encontrar la asignación de índice óptima que predice la verdadera verdad del conjunto que interactúa .

Para \hat{\sigma_r}(i)predicciones de interacción con índices, definimos el vector y la categoría de interacción predichos como: \hat{v}_{\hat{\sigma}_{r}(i)}y , respectivamente \hat{z}_{\hat{\sigma}_{r}(i)}. Para equilibrar la relación entre muestras positivas y negativas para cada clasificador, aplicamos la pérdida focal (indicada como L_ {cls}) al entrenamiento de la clasificación de interacción. Además, empleamos l_1una pérdida, denotada como L_reg}, para la regresión del vector de interacción. La pérdida de interacción Hilas}se calcula de la siguiente manera:

 Entre ellos, \lambda_{cls}y se encuentran los coeficientes de peso de y \lambda_{reg}respectivamente .L_ {cls}L_reg}

analizar. La adaptación participa en la predicción interactiva desde dos aspectos. Primero, para cada consulta interactiva, aplicamos atención colaborativa de múltiples cabezas a la información agregada de cada elemento en la secuencia de características. Por lo tanto, cada consulta puede agregar de forma adaptativa características visuales relacionadas con la interacción. En segundo lugar, consideramos los vectores y categorías de interacción predichos para hacer coincidir cada interacción verdadera con predicciones similares, en lugar de preasignar cada interacción verdadera a la predicción correspondiente. Por lo tanto, cada predicción de interacción puede ser supervisada de manera más adaptativa por la interacción real más adecuada.

3.4 Atención consciente de instancias

Construimos un módulo de atención consciente de instancias entre cada instancia y la capa de interacción para enfatizar las características relevantes de la instancia para la predicción de interacción.

Primero, calculamos la puntuación de cercanía entre las características de la instancia F_dy las características de interacción :F_rA\in \mathbb{R}^{(N_r\times N_d)}

 Luego, aplicamos Softmax para obtener la matriz de peso de atención consciente de instancias M\en [0,1]^{(N_r\times N_d)}:

¿Dónde M_{ij}está el peso de atención de la j-ésima instancia detectada en relación con la i-ésima interacción predicha? La fórmula de la función de interacción del módulo de atención consciente de instancias de salida final F'_r\in \mathbb{R}^{(N_r\times d)}es:

 3.5 Incrustación semántica

Los vectores de interacción no apuntan directamente a instancias, sino a regiones. Introducimos incrustaciones semánticas inferidas por bloques MLP en nuestra estrategia de coincidencia en lugar de utilizar únicamente la coincidencia de indicaciones posicionales a partir de vectores de interacción. F_dDe esto inferimos la incrustación semántica de cada instancia detectada en la rama de instancia \varepsilon. En la F'_rrama se infieren dos incrustaciones semánticas \varepsilon ^{h}, \varepsilon ^{o}una para instancias de personas y otra para cada instancia de objeto predicha.

Durante el entrenamiento, las incrustaciones semánticas de diferentes instancias se separan entre sí. El procedimiento de empuje se puede describir como:

donde \izquierda |  \hat{\sigma }_d \right |se refiere al número total de instancias de verdad fundamental y \varepsilon _{\hat{\sigma }_{d}(i)}se refiere a la incrustación semántica de las instancias predichas que coinciden con la i-ésima instancia objetivo. Si la distancia entre dos incrustaciones semánticas l_2es mayor que el umbral t, consideramos que las dos incrustaciones son lo suficientemente independientes y L_ {empujar}las establecemos en 0.

Atraemos incrustaciones semánticas que se refieren a la misma instancia entre sí:

Entre ellos, denotamos las incrustaciones semánticas humanas predichas como \varepsilon _{\hat{\sigma }_r(i)}^{h}y las incrustaciones de objetos predichas por \hat{\sigma_r}(i)la interacción con el índice \varepsilon _{\hat{\sigma }_r(i)}^{o}. Incorporaciones semánticas \varepsilon _{\hat{\sigma }_d(h_i)}y \varepsilon _{\hat{\sigma }_r(i)}^{h}se refieren a la misma instancia humana en las ramas de instancia e interacción respectivamente. De manera similar, \varepsilon _{\hat{\sigma }_d(o_i)}y \varepsilon _{\hat{\sigma }_r(i)}^{o}se refiere a la misma instancia de objeto. \izquierda |  \hat{\sigma }_r \right |Se refiere al número total de interacciones reales.

3.6 Pérdida de entrenamiento y posprocesamiento

 La pérdida objetivo es la suma ponderada de las pérdidas anteriores:

 ¿Dónde \lambda_{emb}están los hiperparámetros que equilibran las diferentes pérdidas?

Durante el posprocesamiento, primero relacionamos las instancias humanas detectadas con las instancias de objetos en función de los vectores de interacción predichos y las incrustaciones semánticas. Una buena coincidencia de interacción persona-objeto debe cumplir los tres requisitos siguientes: 1) El centro normalizado de la instancia de persona/objeto coincidente está cerca del punto inicial y final del vector de interacción, respectivamente; 2) La instancia coincidente tiene una alta precisión en su categoría predicha. puntuación de confianza; 3) Las incrustaciones semánticas que hacen referencia a la misma instancia coincidente son similares entre sí.

Consideramos todas las instancias detectadas como instancias de objetos. Para cada vector de interacción predicho \hat{v}=(\hat{x}_{ct}^{h},\hat{y}_{ct}^{h},\hat{x}_{ct}^{o},\ sombrero {y} _ {ct} ^ {o}), la distancia coincidente D se puede calcular como:

donde (\tilde{x}_{ct}^{h},\tilde{y}_{ct}^{h},\tilde{x}_{ct}^{o},\tilde{y}_{ ct}^{o})representa el centro de las instancias de personas y objetos detectados, y los niveles de confianza son s^hy respectivamente s^o.

Cuando se introduce la incrustación semántica para la coincidencia, dadas las incrustaciones semánticas de la persona ( \varepsilon _h) y el objeto ( ) de la rama de instancia, la distancia R de coincidencia de incrustación de \varepsilon _ola persona ( \hat{\varepsilon }_h) y el objeto ( ) predichos de la rama de interacción se puede definir como:\hat{\varepsilon }_o

El costo final de contrapartida se calcula como \frac{DR}{s^hs^o}. Emparejamos las instancias detectadas con el costo mínimo de coincidencia previsto para cada interacción. La puntuación de confianza de HOI para cada triple predicho es el producto de la puntuación de la categoría de interacción, la puntuación de la instancia coincidente s^h, etc. s^oEl triplete con las puntuaciones de confianza N más altas se guarda como la predicción final del triplete HOI.

4 experimentos

4.1 Conjuntos de datos y métricas

conjunto de datos. Para verificar la efectividad de nuestro modelo, realizamos experimentos en tres conjuntos de datos de detección de HOI HICO-DET, V-COCO y HOI-A. HICO-DET contiene 38118 imágenes para entrenamiento y 9658 imágenes para pruebas, que contienen las mismas 80 categorías de objetos y 117 categorías de verbos que MS-COCO. Los objetos y verbos forman 600 tipos de triples HOI. V-COCO proporciona 2533 imágenes para entrenamiento, 2867 imágenes para validación y 4946 imágenes para pruebas. V-COCO se deriva del conjunto de datos MS-COCO y está anotado con 29 categorías de acciones. El conjunto de datos HOI-A consta de 38.668 imágenes comentadas, 11 tipos de objetos y 10 categorías de acciones.

medida. Según "Aprender a detectar interacciones hombre-objeto", se utiliza la precisión media (mAP) como índice de evaluación. Para un HOI triple <humano, verbo, objeto> predicho positivamente, los IoU de los cuadros delimitadores de objetos y humanos predichos son mayores que 0,5 del cuadro de verdad fundamental wrt, incluido el verbo predicho correctamente.

4.2 Detalles de implementación

Nuestra implementación se basa en dos decodificadores transformadores paralelos de 6 capas con una red troncal compartida, donde la red troncal está construida sobre ResNet-50 con un codificador de autoatención de 6 capas. F_d\in \mathbb{R}^{100\times 256}Después del detector DETR, inferimos N_d=100una instancia en función del contenido de interacción agregado en la rama de la instancia . En la rama de interacción, inferimos un N_r=16conjunto de vectores de interacción cuyas clases provienen de F'_r\in \mathbb{R}^{16\times 256}. Además, todas las incrustaciones semánticas predichas tienen dimensiones de K = 8. Después del proceso de comparación 3.6, finalmente se retienen las primeras N = 100 predicciones.

Durante el entrenamiento, ajustamos el lado más corto de la imagen de entrada al rango [480, 800] y el lado más largo no excede 1333. Establecemos los coeficientes de ponderación \lambda_{cls}, \lambda_{reg}y en la Sección 3.6 \lambda_{emb}en 1, 2 y 0,1 respectivamente. El modelo se entrenó con AdamW en los conjuntos de datos HICO-DET y HOI-A durante 90 épocas, y en el conjunto de datos V-COCO durante 75 épocas, con la tasa de aprendizaje reducida 10 veces en las épocas 70 10^{-4}. Todos los parámetros relacionados con la detección de instancias (capas troncales y decodificadoras de instancias) previamente entrenados en el conjunto de datos MS-COCO se congelaron en el conjunto de datos V-COCO y se entrenaron en los otros dos conjuntos de datos con una tasa de aprendizaje de 10^{-5}. Todos nuestros experimentos se realizaron en GPU GeForce GTX 1080Ti y CUDA 9.0, con un tamaño de lote de 64 en 32 GPU.

4.3 Comparación con lo último en tecnología

Realizamos experimentos en tres puntos de referencia de detección de HOI para verificar la eficacia de nuestra AS-Net. Las Tablas 1, 2 y 3 muestran que nuestra AS-Net logra un rendimiento de última generación en los tres puntos de referencia. Específicamente, en el conjunto de datos HICO-DET, en comparación con el método PPDM de una etapa de última generación anterior que adoptó Hourglass-104 como columna vertebral, nuestra As-Net utiliza una columna vertebral relativamente liviana (es decir, ResNet-50). para lograr un aumento de rendimiento del 31 %. Dado que el detector de objetos en el método de dos etapas solo se entrena en MS-COCO, también mostramos los resultados cuando solo se entrena la rama de interacción para una comparación justa. En este caso, nuestro AS-Net* logra un 24,40 % de mAP, lo que supera a todos los métodos de dos etapas existentes y logra una mejora de mAP de más del 3 %.

Tabla 1. Comparación de rendimiento del equipo de prueba HICO-DET. "P" y "L" representan información sobre la postura del cuerpo humano y características del lenguaje, respectivamente. *Indica parámetros relacionados con la detección de instancias congelados en el preprocesamiento en el conjunto de datos MS-COCO. Nuestro modelo de una etapa logra una alta velocidad de inferencia de 71 ms/14,08 FPS, superando significativamente todos los trabajos anteriores.

Tabla 2. Comparación de rendimiento del equipo de prueba V-COCO. "P" y "L" representan información sobre la postura del cuerpo humano y características del lenguaje, respectivamente. *Indica parámetros relacionados con la detección de instancias congelados en el preprocesamiento en el conjunto de datos MS-COCO.

Comparamos nuestros resultados en el conjunto de datos V-COCO con otros métodos de última generación. Al congelar los parámetros relacionados con la detección de instancias preprocesadas en el conjunto de datos MS-COCO, solo entrenamos los parámetros restantes del modelo. Como se muestra en la Tabla 2, nuestro modelo logra un 53,9% en mAProle, que es mejor que el trabajo anterior. Teniendo en cuenta que el tamaño relativamente pequeño del conjunto de datos V-COCO puede debilitar la capacidad de representación de las incrustaciones semánticas entrenadas, utilizamos una estrategia de coincidencia para probar los resultados sin utilizar incrustaciones semánticas.

Tabla 3. Comparación de rendimiento del conjunto de pruebas HOI-A. "P" representa información adicional sobre la postura humana o partes del cuerpo.

La Tabla 3 también ilustra nuestra efectividad en el conjunto de pruebas HOIA. Logramos un mAP del 72,19%, superando a todos los métodos anteriores, incluidos aquellos que utilizan el relativamente pesado Hourglass-104 como columna vertebral.

4.4 Estudio de ablación

estrategia de emparejamiento. Se implementan dos métodos de comparación de inferencias. Como se muestra en la Tabla 4a, el efecto se ve afectado cuando solo se usa la distancia de coincidencia de vectores D en la Sección 3.6 o solo se usa la distancia de incrustación semántica R.

 Tabla 4 (a) Estrategia de coincidencia: Analice diferentes estrategias de coincidencia, a saber, vectores de interacción e incrustaciones semánticas.

Configuración de incrustación semántica. Para explorar configuraciones de incrustación semántica adecuadas, evaluamos modelos con diferentes dimensiones de incrustación K L_ {tirar}y L_ {empujar}coeficientes de peso de la suma de las pérdidas de entrenamiento. \lambda_{emb}Como se muestra en la Tabla 4b, la efectividad de nuestro modelo no es sensible a la dimensión de incorporación. Cuando K cambia de 4 a 32, el resultado de mAP cambia solo 0,66 puntos. Con respecto al equilibrio entre efectividad y costo computacional, la dimensión de incorporación K se establece en 8. Como se muestra en la Tabla 4c, \lambda_{emb}=0.1en ese momento , el modelo funciona mejor, mientras que al \lambda_{emb}aumentar o disminuir, la efectividad se verá comprometida.

Tabla 4(b) Dimensiones de incrustación semántica: Selección de dimensiones de incrustación semántica.

 Tabla 4 (c) Coeficiente de peso \lambda_{emb}: influencia de diferentes configuraciones de pérdida de peso.

Variable de rama única. Implementamos una variante de rama separada para detectar instancias y sus interacciones preservando al mismo tiempo todos los hiperparámetros. Como se muestra en la Tabla 4d, esta variante obtiene un mAP del 25,91% en el conjunto de datos HICO-DET, que es un 2,96% menor que nuestro As-Net. En particular, Rare mAP es del 17,88%, que es un 6,37% más bajo que el nuestro. Creemos que esto se debe a que la detección y la interacción dependen de algunas características diferentes. Debido a la falta de características relacionadas con la interacción (como la pose humana), es más probable que la variante de una sola rama infiera acciones que ocurren con frecuencia en presencia de objetos detectados.

Tabla 4 (d) Análisis de componentes: Resultados para variantes con varios componentes, a saber, rama de interacción (Int), módulo de atención consciente de instancias (IA Attn) e incrustación semántica (emb).

Atención consciente del ejemplo. Se evalúan dos variantes adicionales mediante el uso de un módulo de atención consciente de instancias para verificar la contribución de la agregación de sucursales. Como se muestra en la Tabla 4d, el módulo de atención consciente de instancias (+IA Attn×6, Int w/o emb×6) en nuestro modelo base mejora mAP en 0,44 puntos. Para el modelo base con incrustaciones semánticas (+Int w/emb×6), la mejora utilizando el módulo de atención consciente de instancias (+IA Attn×6, Int w/emb×6,) es de 1,12 puntos. Por lo tanto, concluimos que las características de atención de instancias de las ramas de instancias son valiosas para la predicción de interacciones.

Incrustación semántica y atención consciente de instancias. El modelo base con incrustaciones semánticas (+Int×6w/emb) ha mejorado ligeramente en comparación con el modelo base (modelo base, Int×6), pero sin atención consciente de instancias, como se muestra en la Tabla 4d. Las incorporaciones semánticas también ayudan al entrenamiento como puente entre las instancias predichas y los vectores de interacción. Sin embargo, según los resultados, la incrustación semántica no es tan poderosa como el módulo de atención interactiva con reconocimiento de instancias. Basado en el modelo básico de incrustación semántica, se implementan varias variantes, que constan de diferentes capas de decodificadores interactivos o módulos de atención: 1) 3 módulos de atención conscientes de instancias con 6 capas de decodificadores interactivos (+IA Attn ×3, Int w/emb ×6), realizando atención en cada dos capas; 2) 3 módulos de atención con reconocimiento de instancias con decodificadores interactivos de 3 capas (+IA Attn×3, Int w/emb×3). Como se puede ver en la Tabla 4d, el uso conjunto del módulo de atención y la incrustación semántica mejora el rendimiento en aproximadamente 1 punto. Además, es mejor utilizar el módulo de reconocimiento de instancias y la capa decodificadora la misma cantidad de veces. Cuando usamos ambos módulos en menos tiempo, la eficiencia disminuye ligeramente, mientras que la cantidad de parámetros del modelo disminuye significativamente.

4.5 Resultados cualitativos

Como se muestra en las primeras tres filas de la Figura 3, visualizamos nuestro modelo base, el modelo base con incrustación semántica (+Int w/emb×6) y el módulo de atención consciente de instancias con incrustación semántica (+IA Attn×6, Int w/emb × 7) atención del decodificador interactivo para algunos pares interactivos en el modelo. También visualizamos la atención consciente de instancias en la última fila de cada par de interacción de ejemplo para mostrar cómo el módulo de atención contribuye a las predicciones de interacción.

Como se puede ver en la Figura 3 (a), el modelo básico sin ninguna agregación de ramas se centra en algunas regiones de características redundantes dispersas e ignora algunas características relacionadas con la interacción. Como puede verse en la Figura 3 (b), los modelos con incrustaciones semánticas solo alivian parcialmente este problema. Por ejemplo, la primera columna de figuras incluye a una niña sosteniendo un paraguas. Para predecir esta interacción, el modelo básico se centra en la cabeza de la niña y el cuerpo de una persona no relacionada. En consecuencia, el modelo con incrustaciones semánticas se centra en el borde del paraguas y el cuerpo de la niña, sin dejar de centrarse en personas no relacionadas. Cuando involucramos el módulo de atención consciente de instancias, como se muestra en la Figura 3 (c) y la Figura 3 (d), la rama de interacción se enfoca en todo el paraguas y algunas partes del cuerpo cercanas al paraguas, mientras que el módulo de atención consciente de instancias se enfoca en el cuerpo y la cabeza de la niña. En este mecanismo de enfoque separado, nuestro modelo puede enfocar características con mayor precisión.

Figura 3 Visualización de la atención relacionada con la interacción. En cada subfigura, el vector de interacción rojo apunta desde el centro humano correspondiente al centro del objeto.

5 Conclusión y trabajo futuro

En este artículo, reformulamos la detección de HOI como un problema de predicción de conjuntos adaptativos y proponemos un nuevo marco de detección de HOI de una etapa, llamado As-Net. Al agregar características relacionadas con la interacción del contexto global y hacer coincidir cada verdad fundamental con predicciones de interacción, nuestro método muestra capacidades adaptativas tanto en la agregación de características como en la supervisión. Además, el módulo de atención consciente de instancias diseñado ayuda a fortalecer las características instructivas de la instancia y también introducimos incorporaciones semánticas para mejorar el rendimiento. Los experimentos de ablación validan la eficacia de cada componente clave de nuestro modelo. Nuestro AS-Net supera a todos los métodos existentes en tres conjuntos de datos de detección de HOI. En el futuro, planeamos extender AS-Net para manejar problemas de asociación más generales, como la detección de relaciones visuales y el seguimiento de múltiples objetos.

Lo anterior es la mayor parte del contenido de este artículo. Es posible que algunas traducciones no sean lo suficientemente precisas. Por favor, comprenda. Es solo para fines de aprendizaje y comunicación.

Supongo que te gusta

Origin blog.csdn.net/Mr___WQ/article/details/127959576
Recomendado
Clasificación