escena de carretera algoritmo de segmentación semántica

escena de carretera algoritmo de segmentación semántica

Las interfaces de entrada y de salida

Entrada:

(1) alrededor de dos imágenes en tiempo real capturado por la resolución de vídeo de la cámara (int int)

(2) dos imágenes en tiempo real a derecha e izquierda capturados por el formato de vídeo de la cámara (RGB, YUV, MP4, etc.)

(3) parámetros de calibración de la cámara (la posición central (x, y) y cinco distorsión

Coeficiente (2 radialmente, tangencialmente 2, la nervadura 1), flotando tipo de punto flotante)

(4) los parámetros de la cámara de inicialización (posición de la cámara y inicial de tres direcciones de las coordenadas

ángulo de rotación, la velocidad del vehículo, etc. anchura altura, float float)

Salida:

(1) Las respectivas áreas límite (punto flotante tipo float)

(2) el respectivo tipo de imagen de la etiqueta (int entero)

(3) Ejemplos del número de regiones divididas (entero int)

(4) tres o imagen figura más fusionado (RGB, YUV, MP4, etc.)

(5) de la cámara a las respectivas áreas divididas (tipo de punto flotante de flotación)

1.  Definición de la función

(1) cálculo de cada límite del área de

(2) la respectiva etiqueta tipo de imagen

(3) calcular el número de regiones divide Ejemplos

(4) tres o imagen figura más fusionado (RGB, YUV, MP4, etc.)

(5) el cálculo de la distancia de la cámara con las respectivas regiones divididas

 

2.  programa de hoja de ruta tecnológica

Piloto automático es un importante núcleo de los sistemas de tecnología semántica - segmentación de la imagen (Semántica segmentación de imágenes). segmentación de imágenes semántica como la visión por ordenador (visión del ordenador) en la interpretación de imágenes (Interpretación de Imágenes) es una parte importante de no sólo las necesidades de la industria se ha convertido cada vez más prominente, mientras que la segmentación semántica es también una de las instituciones académicas contemporánea caliente.

profunda no tripulados en el campo de la percepción ambiental de la escena es un tema difícil y muy importante. algoritmo de segmentación semántica como la tecnología central de conducción del vehículo no tripulado, el vehículo montado en la sonda de radar o láser cámara a la entrada de la imagen de la red neuronal, el ordenador segmentación de la imagen de fondo puede clasificar de forma automática para evitar los obstáculos y otros vehículos y peatones. Y clasificación de los diferentes propósitos, modelo de segmentación semántica que se asocia con un poder predictivo de píxeles de alta densidad.

A lo largo de la historia del desarrollo de la segmentación semántica, principalmente a través de la "era DL segmentación semántica", "DL segmentación semántica antes de la era del" y. Desde la más "umbral" nivel de píxel simple, método de segmentación basado de los grupos de píxeles a "estudio en profundidad la figura" monopolizado "antes de trabajar segmentación semántica de la imagen descrito como" floreciente "que es el principal representante de" corte Normalizado " y "Grab corta" estos dos. con el rápido desarrollo de la tecnología de aprendizaje profundo, la segmentación semántica método clásico basado en la segmentación de partición gráfica de esta área se aspira gradualmente en un torbellino de aprendizaje profundo.

escena de carretera segmentación deseada sistema de destino Semántica 1 mostrado en la figura. Para las imágenes de la escena de ruta, la imagen del objeto se puede dividir en función del nivel de píxeles, con el fin de lograr datos básicos de asistencia al conductor inteligente no tripulado o apoyo.

 

                                                                                    

 

 

Ejemplo 1. La Fig segmentación semántica

 

 

 

 

 

 

 Las metas específicas región de segmentación semántica en el carril de circulación 2. La Fig.

 

segmentación de imágenes basado en la aplicación del proceso de discretización, fotogramas de vídeo por encima de semántica, a fin de lograr el procesamiento de vídeo. Los criterios de evaluación de VOC, utilizando la fórmula: IOU = TP / (TP + FP + FN) para evaluar el modelo, en el que el IOU y objetos divide en categorías basadas en, de conformidad con el presente sistema se basa principalmente en la evaluación de categoría IOU, categoría en última instancia IOU se aproxima al 80% (paisajes urbanos conjunto de datos), dada la complejidad de los datos corporativos en una escena de la noche, lo que es difícil evaluar el pagaré final se estima que es menor de lo esperado.

Sobre la base de los datos estándar establecidos para alcanzar el 80% categoría IOU en escena nocturna estudio sobre la migración de hacer algunas modificaciones menores, y eventualmente utilizados en el procesamiento de fotogramas de vídeo, la velocidad de cuadro está programado 25fps preliminar, pero utilizando un entorno diferente puede afectar a la imagen final tasa.

Referencia algoritmo de segmentación semántica tradicional, actualmente integrado a varias profundidades de la Red de Aprendizaje resultados de la aplicación en la tarea de segmentación semántica, este proyecto tiene la intención de adoptar un reproducen preliminar, mejora constante de la ruta global, desde la clásica a la FCN SegNet ...... hasta que la última DeepLab V3 +, de forma individual y la verificación y mejora del producto.

En la mayoría de los papeles, las dos partes divididas de la red se conoce como un codificador y un decodificador. En resumen, la primera parte de la información "codificado" como representante de la compresión vector de entrada. Acción de la segunda parte (decodificador) es la señal de salida deseada se reconstruye. Hay muchos codificadores basados ​​- estructura de decodificador red neuronal a realizar. FCNs, SegNet y UNET es el más popular de varios.

La mayoría de los codificadores - decodificador arquitectura es diferente, Deeplab segmentación semántica proporciona un enfoque diferente. Deeplab propuso para el control de la arquitectura de extracción de señal y un multi-escala características del contexto de estudio.

Deeplab en el pre-entrenamiento IMAGEnet ResNet obtenido como su red de extracción de características principal. Sin embargo, se caracteriza por el estudio de múltiples escalas añade un nuevo bloque residual. El último bloque utilizado ResNet convolución hueca, en lugar de la convolución convencional. Además, cada una convolución en el bloque residual se utilizan para capturar una relación de expansión información de contexto multiescala diferente.

Además, la parte superior del bloque residual usando agrupado espacio vacío pirámide ASPP. ASPP mediante la convolución de diferentes tasas de expansión para clasificar el área de cualquier escala.

DeepLabv1-v2 se extraen características semánticas a un uso intensivo perforada dividiendo convolución. Sin embargo, con el fin de resolver el problema de la segmentación del objeto de múltiples escalas, diseño DeepLabv3 utiliza un multi-escala de convolución con aberturas en cascada o en paralelo para capturar el fondo de escala múltiple. DeepLabv3 modificaciones propuestas anteriormente con aberturas módulo pirámide espacio de puesta en común que se utiliza para explorar las características de la imagen de fondo sobre la base de las características a nivel mundial obtenidos mediante la codificación adquiere rendimiento de estado-de-arte convolución de escala múltiple,, PASCAL COV-2012 86,9 Miou.

DeepLabv3 + siga actualizando en la arquitectura de modelo para la integración de múltiples escalas de la información, la introducción de la segmentación semántica utiliza comúnmente codificador-decodificador. En la arquitectura de codificador-decodificador, la introducción del codificador puede controlar la resolución de las características extraídas por convolución precisión el equilibrio de hueco y que consume tiempo.

Empleado Xception modelo de tarea de segmentación semántica, utilizando el ASPP profundidad para dar lugar separable de convolución y un bloque de decodificación, el codificador mejorado - la velocidad y la robustez de la red decodificador operativo, la obtención de un nuevo rendimiento de estado-de-arte en PASCAL VOC 2012 conjunto de datos, 89.0mIOU.

+ DeepLabv3 marco modelo como se muestra a continuación:

 

 

 

Figura modelo de arquitectura 3. Deeplab V3 +

Teniendo en cuenta la arquitectura de la segmentación semántica se basa en el original de seguir mejorando el proceso de desarrollo del proyecto, como se muestra en la Figura 178:

 

 

 

4. El sistema de diagrama de flujo global de la figura.

 

prueba

1) conjunto de datos de prueba se da a conocer: en los conjuntos de datos de prueba VOC y similares COCO dar Pérdida mapa y otros datos.

2) se ensayaron en la adquisición de conjuntos de datos independientes, análisis de resultados de la prueba.

integrado

Escrito envoltorio función puede ser integrado en el tablero de FPGA funcionar correctamente.

 

Descripción del entorno de desarrollo

 

 

 

Tabla 1. Entorno de Desarrollo de la segmentación semántica

 

3.  Los parámetros técnicos e indicadores clave de rendimiento

1) en tiempo real: hasta 30 fps en el GPU y FPGA

2) la capacidad de adaptación del medio ambiente: segmentación semántica preferiblemente se puede ajustar en los conjuntos de datos de recopilación de datos abiertas e independientes

Supongo que te gusta

Origin www.cnblogs.com/wujianming-110117/p/12481972.html
Recomendado
Clasificación