Interpretación técnica 丨 Algoritmos de la serie RepPoints para la detección de objetivos

Resumen: Este artículo clasifica la serie RepPoints de algoritmos de detección de objetivos sin anclajes, incluidos RepPoints, RepPoints V2 y Dense RepPoints.

Introducción de antecedentes

En los últimos dos años, el ancla libre como una nueva idea de algoritmo de detección de objetivos ha recibido cada vez más atención. En un algoritmo típico basado en anclajes, el efecto del modelo a menudo está limitado por los parámetros de configuración del ancla, como el tamaño del ancla, el muestreo de muestra positivo y negativo y la relación de aspecto del ancla. Los desarrolladores deben comprender bien los datos para configurar los parámetros de anclaje. , Para formar un buen modelo. El algoritmo sin anclajes se puede entrenar para obtener un buen modelo de detección sin configurar parámetros de anclaje, lo que reduce el complicado proceso de análisis de datos antes del entrenamiento.

Los algoritmos sin ancla se pueden dividir en algoritmos basados en puntos de ancla y algoritmos basados en puntos clave. El algoritmo de punto de anclaje es esencialmente similar al algoritmo basado en anclaje. El objetivo se detecta prediciendo el punto central del objetivo (x, y) y la distancia entre el marco y el punto central (w, h). Entre los algoritmos típicos se incluyen FSAF, FCOS, etc .; El método del punto clave es detectar los puntos del límite del objetivo (como los puntos de las esquinas) y luego emparejar los puntos del límite para formar el marco de detección del objetivo. Tales algoritmos incluyen CornerNet, RepPoints, etc. Este artículo presentará el trabajo de la serie de algoritmos RepPoints.

RepPoints es un artículo de ICCV2019, que propone de manera novedosa el uso de conjuntos de puntos para representar objetivos, este método ha logrado muy buenos resultados sin utilizar anclas. Como se muestra en la Figura 1, a) indica que el algoritmo general de detección de objetivos usa un cuadro delimitador horizontal para representar la información de ubicación del objetivo, yb) indica el método de RepPoints usando conjuntos de puntos para representar la ubicación del objetivo. El trabajo de la serie RepPoints se centra en la representación del conjunto de puntos, para mejorar aún más la precisión del algoritmo desde diferentes perspectivas: 1) El proceso de verificación (es decir, segmentación) se integra en RepPoints, y el resultado se mejora aún más para obtener RepPoints V2; 2) Se mejora el método de supervisión del conjunto de puntos y se amplía el número de puntos del conjunto de puntos para realizar el paradigma unificado de la tarea de segmentación de potencia objetivo, a saber, Dense RepPoints.

RepPoints

El marco del algoritmo RepPoints se muestra en la Figura 2. En general, este método se basa en una red totalmente convolucional, pero a diferencia de otros métodos de una etapa (por ejemplo, RetinaNet) que usan una regresión y una clasificación para obtener la posición final de destino, RepPoints usa dos regresiones y una clasificación, y La clasificación y la última regresión no utilizan una convolución ordinaria, sino una convolución deformable. El desplazamiento de la convolución deformable se obtiene mediante la primera regresión, lo que significa que el desplazamiento se supervisa durante el proceso de entrenamiento. De esta manera, las características de clasificación y regresión posteriores se seleccionan a lo largo del objetivo, y la calidad de las características es mayor.

Figura 2 Diagrama de la estructura de RepPoints

Los resultados de RepPoints se muestran en la Tabla 1. Funciona bien en el método de una sola etapa, y con la ayuda del entrenamiento de múltiples escalas y las pruebas de múltiples escalas, la precisión se puede mejorar aún más, superando con creces el método de dos etapas anterior.

Tabla 1 Comparación de los algoritmos RepPoint y SOTA

RepPoints V2

La verificación (es decir, la segmentación) y la regresión son dos tareas comunes de las redes neuronales, con sus propias ventajas: la verificación es más fácil de aprender y precisa, y la regresión suele ser muy eficiente y puede predecir cambios continuos. Por lo tanto, combinar los dos de una determinada manera puede aprovechar al máximo sus ventajas. RepPoints V2 agrega un módulo de verificación sobre la base de RepPoints para lograr una mayor mejora del rendimiento. El trabajo en este artículo tiene un cierto grado de escalabilidad, y este módulo se puede agregar a los métodos basados en regresión para mejorar los resultados.

Cuadro 2. Comparación de desempeño de varios métodos basados en verificación y regresión

En la Tabla 2 se muestra el análisis de resultados de varios métodos en COCO Val. Se puede observar que el método con rama de verificación tiene indicadores más altos en AP90, lo que indica que la precisión de los resultados de detección es mayor.

Figura 3 Diagrama de flujo de RepPoints V2

RepPoints V2 agrega una rama de segmentación basada en el método RepPoints. La segmentación consta principalmente de dos partes, una es la segmentación de la predicción de esquinas y la otra es la segmentación del primer plano del objetivo. Como se muestra en la Figura 3, después de obtener el mapa de segmentación, por un lado, este mapa de segmentación se agrega a la característica original como un complemento a la característica de regresión; por otro lado, en la etapa de inferencia, después de que la rama de regresión obtiene la posición objetivo, el mapa de segmentación se puede utilizar para comparar Los resultados se revisaron más a fondo. En general, la adición de esta tarea puede mejorar los resultados de tres niveles: la multitarea generalmente mejora directamente el resultado general; el uso de mapas de segmentación para mejorar las características para mejorar el efecto de regresión, y la integración de los resultados de la regresión y los resultados de la segmentación durante el proceso de inferencia también mejora. El autor utiliza experimentos para demostrar la mejora en estos tres aspectos, como se muestra en la Tabla 3.

表 3. Estudio de ablación

RepPoints densos

Dense RepPoints expande la tarea desde la detección de objetivos a la segmentación de instancias sobre la base de RepPoints, utilizando puntos más densos para representar el objetivo, a fin de lograr el objetivo de segmentación de instancias.

RepPoints es un método de representación para la detección de objetivos, solo se utilizan 9 puntos para representar el objetivo,

Estos puntos solo contienen información de posición, no pueden representar la estructura más fina del objeto y son difíciles de aplicar a las tareas de segmentación de instancias. En comparación con RepPoints, Dense RepPoints usa más puntos para representar objetos y agrega información de atributos para cada punto:

Existen múltiples representaciones al describir el posicionamiento geométrico detallado de objetos, como se muestra en la Figura 4. Entre ellos, el método basado en contornos (Figura 4b) expresa el objeto de manera más compacta y requiere más información, y debido a que presta más atención a la segmentación del borde del objeto, se espera que tenga un borde más preciso. El método basado en la máscara de cuadrícula (Figura 4c) realiza la segmentación de objetos clasificando los puntos de la cuadrícula como primer plano / fondo, que es más fácil de aprender. Basado en las ventajas de estas dos expresiones, Dense RepPoints usa el método de máscara de borde de la Figura 4d para representar objetos. Similar a la representación de contorno, la máscara de borde significa que el conjunto de puntos se coloca principalmente cerca del borde del objeto, de modo que el borde del objeto se puede representar con más precisión; por otro lado, similar a la representación de máscara de cuadrícula, este método utiliza el punto representativo de primer plano / fondo El método de clasificación para lograr la segmentación de objetos es más propicio para el aprendizaje.

Figura 4. Diferentes expresiones de límites y métodos de muestreo

Figura 5. Marco denso de RepPoints

RepPoints usa un conjunto de puntos R para representar el objetivo,

Las características de clasificación y regresión cuadrática se obtienen a través del muestreo de conjunto de puntos mencionado anteriormente (conv deformable) para obtener F (R), y el número de puntos se incrementa y la profundidad de F (R) aumentará linealmente. En la versión inicial de RepPoint, aún se pueden usar 9 puntos de muestreo para la detección de objetivos. Para describir con precisión objetivos irregulares, a menudo se necesitan cientos de puntos.

Dense RepPoints utiliza un conjunto de puntos más denso para representar objetos, lo que también aumenta la cantidad de cálculo requerido y afecta la eficiencia de la implementación. Dense RepPoints utiliza tres tecnologías para resolver el problema del cálculo aumentado: agrupación de grupos; campos de compensación compartidos; mapa de atributos compartidos.

La agrupación de grupos se muestra en la Figura 6, que principalmente resuelve la complejidad en el proceso de clasificación. Si se utilizan n puntos para describir el objetivo en el experimento, divídalo en k grupos, realice una operación de agrupación en cada grupo y luego haga predicciones. La complejidad de la parte de clasificación final se reduce de O (n) a O (k).

图 6. Agrupación de grupos

Cuando RepPoints corrige el desplazamiento de los puntos de contorno del objeto (Figura 2), se basa en los N puntos de contorno inicialmente previstos, y cada punto de contorno se corrige y predice por separado a través de N operadores Deformable Conv. La complejidad requerida es O (n ^ 2). Este método no es aplicable al algoritmo Dense RepPoints que predice puntos densos en términos de eficiencia de razonamiento. Dense RepPoint propone el método de campos de compensación compartidos, que cree que la función de corrección de compensación de cada punto de contorno solo debe basarse en la información original del punto de contorno predicho, es decir, cada punto de contorno se corrige individualmente, reduciendo así la complejidad a O (n) . Específicamente, como se muestra en la Figura 7, los puntos de contorno se corrigen extrayendo características para cada punto de contorno mediante interpolación lineal bilineal.

图 7. Campos de compensación compartidos

Para el mapa de atributos compartidos, como se muestra en la Figura 8. Debido a la segmentación, es necesario puntuar el primer plano. El proceso de puntuación se divide en cuatro áreas, arriba, abajo, izquierda y derecha según la posición de los puntos, y las diferentes áreas se asignan a diferentes canales. En el proceso de inferencia, para obtener la puntuación de un determinado punto, primero busque el canal correspondiente según la posición relativa del punto en el objetivo, y luego muestree la puntuación del canal para obtener la puntuación del punto.

图 8. Mapa de atributos compartidos

El autor verificó la efectividad de estas operaciones mediante experimentos comparativos, y básicamente no incrementó la cantidad de cálculo al incrementar el número de puntos, y mejoró efectivamente los resultados.

Tabla 3. Estudio de ablación. GP significa agrupación de grupos, SOF significa campos de compensación compartidos.

Además de reducir la cantidad de cálculo a través de una serie de operaciones, el documento Dense RepPoints también exploró el impacto de diferentes métodos de distribución de puntos y métodos de cálculo de funciones de pérdida en los resultados. Para la distribución del conjunto de puntos, el muestreo del borde de destino según la distancia tiene el mejor rendimiento en la tarea de segmentación de instancias. Para la función de pérdida, calcular el valor de pérdida entre el punto establecido y el punto establecido es mejor que el valor de pérdida de punto a punto.

resumen

El uso de RepPoints para representar el objetivo puede lograr un muy buen equilibrio entre precisión y cálculo, y el posprocesamiento es simple. Con base en el uso de conjuntos de puntos, en algunas tareas, la rama de verificación en V2 también se puede introducir para lograr una detección más refinada. También puede consultar Dense RepPoints para reemplazar Deformable Conv con un muestreo de puntos más general para lograr El modelo es más expansivo y expresivo.

Haga clic para seguir y conocer la nueva tecnología de Huawei Cloud por primera vez ~