Detección de línea de carril (1) - Lectura de papel PINet

Tabla de contenido

Resumen

Introducción

método

estructura de red

Cambiar el tamaño de la red

Red de predicción

Función de pérdida

detalles de implementacion

experimento

en conclusión


《Estimación de puntos clave y enfoque de segmentación de instancias de puntos para la detección de carriles》

Documento: https://arxiv.org/abs/2002.06604

Código: https://github.com/koyeongmin/PINet_new

Resumen

        Un documento de 2020 propuso una red de instancias de puntos (PINet) basada en la detección de puntos clave y la tecnología de segmentación de instancias para detectar líneas de carril. La red contiene varias redes de reloj de arena apiladas entrenadas al mismo tiempo, que se pueden cortar y usar directamente sin volver a entrenar para reducir la cantidad de cómputo del modelo. La red puede adaptarse a diferentes números de líneas de carril, logrando una buena precisión y un bajo número de falsos positivos en los conjuntos de datos de TuSimple y Culane. El diagrama de marco de la red es el siguiente.

Introducción

        La detección de línea de carril es una capacidad básica e importante en un sistema de conducción automática. El autor propone una red que puede detectar los puntos clave de la línea de carril a partir de la imagen de entrada RGB, y luego usar las características integradas generadas por la red para clasificar la clave. puntos. Al mismo tiempo, la red tiene la característica de corte, es decir, se puede usar sin entrenamiento después del corte y puede hacer frente a la situación en la que la potencia informática de la plataforma informática es limitada.

        Muchos métodos se basan en CNN y segmentación semántica, pero la anotación de datos es compleja y el tamaño de salida de la red es igual a la entrada, por lo que la salida contiene mucha información inútil y la cantidad de cálculo es grande; al mismo tiempo, la cantidad de puntos en el posprocesamiento conduce a una gran cantidad de cálculos, y la gran cantidad general de cálculos limita el proyecto.

        La red de reloj de arena se utiliza a menudo en el campo de la detección de puntos clave, como la estimación de poses y la detección de objetos. La red utiliza una serie de operaciones de muestreo descendente y ascendente para obtener información en diferentes niveles de escala. La red de reloj de arena apilada contiene varios módulos de reloj de arena entrenados con la misma función de pérdida, lo que facilita el corte para controlar la cantidad de parámetros de la red.

        Para la introducción de la red de reloj de arena, consulte la red de reloj de arena de Hourglass Network (estimación de pose de estimación de pose)_hxxjxw's blog-CSDN blog_Hourglass network , creo que es una forma de multiescala + resnet, un solo módulo presenta características de multiescala/nivel ; Múltiples módulos en paralelo pueden mejorar el rendimiento al profundizar la red

        El autor cree que la detección falsa tiene un mayor impacto en el flujo descendente, y la tasa de detección falsa de muchos métodos sota en ese momento era relativamente alta, por lo que el autor también usó falsos positivos como indicador de prueba comparativa.

        La siguiente figura muestra la estructura de la red. El autor cree que hay cuatro innovaciones principales: 1) La red genera puntos clave en lugar de regiones, y el tamaño de salida se reduce considerablemente; 2) El uso de módulos de reloj de arena apilados se puede cortar directamente para reducir la red. parámetros Se puede usar directamente sin volver a entrenar; 3) No hay restricciones en el número y la orientación de las líneas de los carriles; 4) Tiene una tasa de detección falsa más baja y una buena precisión en los conjuntos de datos públicos

método

        La red tiene tres salidas, que son confianza, información de compensación y funciones integradas. La información de confianza y compensación se utiliza para el posicionamiento del punto clave de la línea de carril, y se le aplicará la función de pérdida en YOLO; las funciones integradas se utilizan para la clasificación de puntos clave en el procesamiento posterior, y su función de pérdida se basa en el método de segmentación de instancias en SPGN .

estructura de red

Cambiar el tamaño de la red

        El tamaño RGB de entrada es 512X256, que se envía a la red de cambio de tamaño y se convierte en 64x32; esta parte del modelo de red es la siguiente

Red de predicción

        Después de eso, está la red de predicción, que incluye 4 módulos de reloj de arena, cada módulo incluye codificación, decodificación y tres ramas de salida, como se muestra en la figura a continuación.

        Cada bloque de color en la figura anterior representa un cuello de botella, y la composición específica se muestra en la figura siguiente, en la que se utiliza la convolución transpuesta para lograr un muestreo superior.

        La siguiente tabla detalla la información de tamaño de entrada y salida de un módulo de reloj de arena. En la rama de tres vías de salida, la cantidad de canales de confianza es 1, la cantidad de canales de compensación es 2 y la incrustación es 4. El aumento en la cantidad de pilas de módulos de reloj de arena puede mejorar el efecto de detección, por lo que puede usarse como una red de maestros, y el método de destilación de conocimiento puede usarse para mejorar el efecto de red que contiene una pequeña cantidad de módulos de reloj de arena.

Función de pérdida

        La red genera una celda de 64x32, cada celda tiene 7 canales, que incluyen confianza, compensación y características integradas, y cada uno tiene una función de pérdida; al mismo tiempo, el método de destilación se usa en el entrenamiento y hay una pérdida de destilación correspondiente . La definición específica se refiere al documento, que se presenta brevemente a continuación.

La función de pérdida de confianza es la siguiente

La función de pérdida para la compensación es la siguiente

        Para la función de pérdida de la característica de incrustación, el objetivo de la configuración es que la característica debe estar lo más cerca posible cuando pertenece a la misma instancia, y la característica debe estar lo más lejos posible cuando no pertenece a la misma instancia. .

        Introduzca una función de pérdida destilada e intente hacer que la salida de cada módulo de reloj de arena sea lo más cercana posible a la salida del último módulo de reloj de arena, para lograr el efecto de cortar la red de reloj de arena y usarla directamente sin entrenamiento.

detalles de implementacion

        El tamaño de la imagen de entrada es 512x256, formato bgr (confirmar después de leer el código), normalizado a (0,1);

        En el conjunto de datos, hay muy pocos puntos de datos para las marcas de carril que están cerca del nivel. El autor ha realizado una interpolación para aumentar la cantidad de procesamiento.

        El autor cree que la cantidad de datos de escena en el conjunto de datos está distribuida de manera desigual, marcando aquellos datos que funcionan mal durante el entrenamiento y aumentando la probabilidad de seleccionar estos datos en el entrenamiento posterior, similar a la técnica de minería negativa dura.

experimento

        Usando los conjuntos de datos TuSimple y CULane, cada conjunto de datos corresponde a un índice de evaluación diferente; los resultados muestran que la precisión de PINet es bastante buena, mientras que tiene un bajo falso positivo.

        Verifique que el módulo de destilación tenga la capacidad de reducir la diferencia de salida entre los primeros tres módulos de reloj de arena y el último módulo de reloj de arena.

en conclusión

        Se propone una nueva red de detección de líneas de carril, que se realiza mediante la extracción de puntos clave y la segmentación de instancias, y puede manejar líneas de carril en cualquier dirección sin limitar el número. Usando el módulo de reloj de arena apilado y aplicando la estrategia de aprendizaje de destilación en el entrenamiento, el modelo se puede cortar de acuerdo con el poder de cómputo de la plataforma durante el despliegue y se puede usar directamente sin volver a entrenar los pesos. Se verifica mediante experimentos que tiene buena precisión y baja tasa de detección falsa.

Supongo que te gusta

Origin blog.csdn.net/lwx309025167/article/details/126694916
Recomendado
Clasificación