[Red neuronal gráfica] Red relacional consciente de relaciones espaciales (SGRN) - Interpretación de tesis

Título original del artículo: Red de relación de gráficos con reconocimiento espacial para la detección de objetos a gran escala

论文地址为:Red de relación de gráficos con reconocimiento espacial para la detección de objetos a gran escala

La dirección del código es:

SGRN https://github.com/simblah/SGRN_torch

 1. Aplicación de GNN a la detección de objetivos

Este documento describe una red Faster R-CNN mejorada con GCN para mejorar el rendimiento de las CNN frente a grandes distribuciones de datos de cola larga y un gran número de categorías confusas         al descubrir e incorporar de forma adaptativa relaciones semánticas y espaciales clave . Antes de este documento, había dos enfoques para este problema:

        1. Dibujo manual

                Es decir, el método tradicional de aprendizaje automático de gráficos se usa para construir el gráfico de relaciones para el conjunto de datos, pero su estructura es relativamente fija y depende en gran medida de la anotación de atributos y relaciones.

        2. Aprendizaje implícito a partir de características visuales

                En comparación con los métodos anteriores, debido al uso del aprendizaje automático, el algoritmo es más versátil. Pero como todo el gráfico está conectado, habrá muchas conexiones redundantes y ruido , lo que interferirá con los resultados del modelo.

        En vista de los problemas existentes en los dos métodos anteriores, el autor de este artículo propone la red SGRN, que consta de dos partes : un módulo de aprendizaje de gráficos dispersos y un módulo de convolución consciente del espacio .

        En este sistema, las regiones propuestas se definen como nodos de gráfico, en lugar de crear gráficos de categoría a categoría. Esto reduce la sobrecarga innecesaria del área negativa (fondo). A continuación, se realiza una convolución de gráficos espacialmente consciente impulsada por un kernel gaussiano espacial aprendible para propagar y mejorar la representación contextual de la región.

        SGRN admite el razonamiento gráfico adaptativo en regiones del gráfico de aprendizaje (los problemas de clase desequilibrados se pueden resolver compartiendo pesos). Algunas áreas severamente ocluidas/categoría borrosa/pequeñas también pueden remediarse con este método.

 2. Estructura de la red

         Como se muestra en la figura anterior, en comparación con el Faster R-CNN tradicional, el clasificador y el módulo de regresión lineal se agregan al módulo SGRN. Al mismo tiempo, este módulo también se describe en el artículo como fácilmente superpuesto a las redes de reconocimiento de objetivos existentes, como SSD y YOLO.

        La red SGRN codifica la relación regional como un gráfico no dirigido G=(N,E). Un estudiante de gráficos aprende una matriz de adyacencia dispersa interpretable (que mantiene solo las conexiones más relevantes para identificar objetos) a partir de características visuales. Luego, los pesos de la capa anterior se combinan y se asignan suavemente a cada región, convirtiéndose en la incrustación visual de cada región. Un módulo de razonamiento gráfico espacialmente consciente evoluciona y propaga incrustaciones visuales para diferentes regiones basadas en matrices de adyacencia dispersas y núcleos gaussianos. Luego, la salida del módulo de inferencia de gráficos espaciales se concatena con las características de la región sin procesar para mejorar la clasificación y la localización.

        1. Aprendiz de gráfico relacional

                El propósito del aprendiz de gráfico relacional es producir un gráfico relacional entre las regiones propuestas y los objetos detectados . El gráfico no dirigido está marcado como: G=(N,\varepsilon), donde N representa el conjunto de nodos y \varepsilonrepresenta el conjunto de aristas. \varepsilon \in R^{N_r \times N_r}La vecindad de los nodos se determina aprendiendo la matriz de adyacencia de los conjuntos de aristas.

                Formalmente, un vector D-dimensional de características visuales f={f}^{N_r}_{i=1}( f_i\en R^Del Fvector de características pertenece a una matriz de tamaño D R) se extrae de la región propuesta y se mapea en el espacio mediante una función no lineal\fi <usamos ReLu> en este documento Z. Denominado:

                        z_i=\phi(f),i=1,2...,N_r

                La matriz de adyacencia de un gráfico se puede escribir como\varepsilon =ZZ^T, donde los vectores de borde se pueden escribir comoe_{i,j}=z_i z_j ^T

                problema de muestra negativa

                        En la generación real, si no se imponen restricciones, este gráfico incrustará una gran cantidad de muestras negativas (fondo) en la vecindad en el gráfico, por lo que es necesario restringir la dispersión de la matriz . En este artículo, para cada región i propuesta, solo se reserva el vector fila de incrustación (el primer valor máximo de t) \varepsilonde la matriz de adyacencia, que se denota como:t

                        Vecino(Nodo\, i)=Top-t_{i=1,...,N_r(e_{i,j})}

                incrustación semántica

Cree una incrustación visual semántica de alto nivel para cada categoría (puede proporcionar información semántica adicional                         para presentar vectores , aliviando así los problemas graves de oclusión y desenfoque )

                        Esto se puede lograr extrayendo pesos del clasificador (los pesos del clasificador son las características de activación de todos los gráficos, que naturalmente contienen información semántica). El peso se puede expresar como: w \en RC \times (D+1); C es el número de categorías y D es la dimensión visual.

                        La forma de mapeo puede ser a través de mapeo suave , la forma es: m_{w->x_i}\en M^s: m_{w->x_i}=\frac{exp(s_{ij})}{\sum exp(s_{ij})}; la forma de conversión en matriz esX=M^sW

        2. Módulo de razonamiento de percepción espacial

La inferencia de gráficos guiada por bordes se utiliza para aprender nuevas representaciones de objetos                 basadas en gráficos relacionales aprendidos (conjuntos de nodos Xy conjuntos de bordes ).\varepsilon

                Para capturar la información espacial emparejada, las pseudocoordenadas emparejadas se usan para tu(a,b)describir la posición. En este documento, se usa una función polar para describirla. Los dos elementos en la función polar representan la información de longitud y la información de ángulou(a,b)=(d,\theta) entre dos puntos, respectivamente . La fórmula de cálculo es: ;d=\sqrt{(c_a-c_b)^2+(y_a-y_b)^2}\theta=arctan(\frac{y_b-y_a}{c_b-c_a})

                Para la influencia y el peso de propagación de los nodos adyacentes, se describe mediante la función kernel gaussiana de orden k , y su fórmula se escribe como:

                        {f}'_k(i)=\sum w_k(u(i,j))x_je_{ij}

                Entre ellos, la función kernel gaussiana de orden k se expresa como:w_k(u(i,j))=exp(-\frac{1}{2}(u(i,j)-\mu_k)^T\sum (u(i,j)-\mu_k))

                        En la fórmula anterior, yk son vectores medios de 2x1 y matrices de covarianza de 2x2 que se pueden aprender . Es decir, la codificación de la información espacial de la región. La estructura del módulo es la siguiente:

Supongo que te gusta

Origin blog.csdn.net/weixin_37878740/article/details/129837774
Recomendado
Clasificación