Título original del artículo: Red de relación de gráficos con reconocimiento espacial para la detección de objetos a gran escala
论文地址为:Red de relación de gráficos con reconocimiento espacial para la detección de objetos a gran escala
La dirección del código es:
SGRN https://github.com/simblah/SGRN_torch
1. Aplicación de GNN a la detección de objetivos
Este documento describe una red Faster R-CNN mejorada con GCN para mejorar el rendimiento de las CNN frente a grandes distribuciones de datos de cola larga y un gran número de categorías confusas al descubrir e incorporar de forma adaptativa relaciones semánticas y espaciales clave . Antes de este documento, había dos enfoques para este problema:
1. Dibujo manual
Es decir, el método tradicional de aprendizaje automático de gráficos se usa para construir el gráfico de relaciones para el conjunto de datos, pero su estructura es relativamente fija y depende en gran medida de la anotación de atributos y relaciones.
2. Aprendizaje implícito a partir de características visuales
En comparación con los métodos anteriores, debido al uso del aprendizaje automático, el algoritmo es más versátil. Pero como todo el gráfico está conectado, habrá muchas conexiones redundantes y ruido , lo que interferirá con los resultados del modelo.
En vista de los problemas existentes en los dos métodos anteriores, el autor de este artículo propone la red SGRN, que consta de dos partes : un módulo de aprendizaje de gráficos dispersos y un módulo de convolución consciente del espacio .
En este sistema, las regiones propuestas se definen como nodos de gráfico, en lugar de crear gráficos de categoría a categoría. Esto reduce la sobrecarga innecesaria del área negativa (fondo). A continuación, se realiza una convolución de gráficos espacialmente consciente impulsada por un kernel gaussiano espacial aprendible para propagar y mejorar la representación contextual de la región.
SGRN admite el razonamiento gráfico adaptativo en regiones del gráfico de aprendizaje (los problemas de clase desequilibrados se pueden resolver compartiendo pesos). Algunas áreas severamente ocluidas/categoría borrosa/pequeñas también pueden remediarse con este método.
2. Estructura de la red
Como se muestra en la figura anterior, en comparación con el Faster R-CNN tradicional, el clasificador y el módulo de regresión lineal se agregan al módulo SGRN. Al mismo tiempo, este módulo también se describe en el artículo como fácilmente superpuesto a las redes de reconocimiento de objetivos existentes, como SSD y YOLO.
La red SGRN codifica la relación regional como un gráfico no dirigido G=(N,E). Un estudiante de gráficos aprende una matriz de adyacencia dispersa interpretable (que mantiene solo las conexiones más relevantes para identificar objetos) a partir de características visuales. Luego, los pesos de la capa anterior se combinan y se asignan suavemente a cada región, convirtiéndose en la incrustación visual de cada región. Un módulo de razonamiento gráfico espacialmente consciente evoluciona y propaga incrustaciones visuales para diferentes regiones basadas en matrices de adyacencia dispersas y núcleos gaussianos. Luego, la salida del módulo de inferencia de gráficos espaciales se concatena con las características de la región sin procesar para mejorar la clasificación y la localización.
1. Aprendiz de gráfico relacional
El propósito del aprendiz de gráfico relacional es producir un gráfico relacional entre las regiones propuestas y los objetos detectados . El gráfico no dirigido está marcado como: , donde N representa el conjunto de nodos y representa el conjunto de aristas. La vecindad de los nodos se determina aprendiendo la matriz de adyacencia de los conjuntos de aristas.
Formalmente, un vector D-dimensional de características visuales ( el vector de características pertenece a una matriz de tamaño D ) se extrae de la región propuesta y se mapea en el espacio mediante una función no lineal <usamos ReLu> en este documento . Denominado:
La matriz de adyacencia de un gráfico se puede escribir como, donde los vectores de borde se pueden escribir como
problema de muestra negativa
En la generación real, si no se imponen restricciones, este gráfico incrustará una gran cantidad de muestras negativas (fondo) en la vecindad en el gráfico, por lo que es necesario restringir la dispersión de la matriz . En este artículo, para cada región i propuesta, solo se reserva el vector fila de incrustación (el primer valor máximo de t) de la matriz de adyacencia, que se denota como:
incrustación semántica
Cree una incrustación visual semántica de alto nivel para cada categoría (puede proporcionar información semántica adicional para presentar vectores , aliviando así los problemas graves de oclusión y desenfoque )
Esto se puede lograr extrayendo pesos del clasificador (los pesos del clasificador son las características de activación de todos los gráficos, que naturalmente contienen información semántica). El peso se puede expresar como: ; C es el número de categorías y D es la dimensión visual.
La forma de mapeo puede ser a través de mapeo suave , la forma es: : ; la forma de conversión en matriz es
2. Módulo de razonamiento de percepción espacial
La inferencia de gráficos guiada por bordes se utiliza para aprender nuevas representaciones de objetos basadas en gráficos relacionales aprendidos (conjuntos de nodos y conjuntos de bordes ).
Para capturar la información espacial emparejada, las pseudocoordenadas emparejadas se usan para describir la posición. En este documento, se usa una función polar para describirla. Los dos elementos en la función polar representan la información de longitud y la información de ángulo entre dos puntos, respectivamente . La fórmula de cálculo es: ;
Para la influencia y el peso de propagación de los nodos adyacentes, se describe mediante la función kernel gaussiana de orden k , y su fórmula se escribe como:
Entre ellos, la función kernel gaussiana de orden k se expresa como:
En la fórmula anterior, yk son vectores medios de 2x1 y matrices de covarianza de 2x2 que se pueden aprender . Es decir, la codificación de la información espacial de la región. La estructura del módulo es la siguiente: