YOLOv1 traducción al chino (traducción de oraciones)

Solo tiene que mirar una vez: detección unificada de objetos en tiempo real

Joseph Redmon∗, Santosh Divvala∗†, Ross Girshick¶, Ali Farhadi∗†
Universidad de Washington∗, Allen Institute for AI†, Facebook AI Research

Resumen

Presentamos un nuevo método de detección de objetos: YOLO. El trabajo previo sobre la detección de objetos reutiliza los clasificadores para realizar la detección. En su lugar, tratamos la detección de objetos como un problema de regresión con cuadros delimitadores espacialmente separados y probabilidades de clase asociadas. En una evaluación, una única red neuronal predice cuadros delimitadores y probabilidades de clase directamente a partir de la imagen completa. Dado que todo el canal de detección es una sola red, es sencillo realizar una optimización de extremo a extremo en el rendimiento de detección.

Nuestra arquitectura unificada es muy rápida. Nuestro modelo base YOLO procesa imágenes en tiempo real a 45 fotogramas por segundo. Una versión más pequeña de esta red: Fast YOLO, procesa 155 fotogramas por segundo, lo que es sorprendentemente rápido, al mismo tiempo que logra el doble de mAP que otros detectores en tiempo real (mAP, donde significa tasa de precisión P (Precisión). AP (promedio) Precisión) promedio de etiqueta de una sola clase (el promedio de la precisión máxima en cada tasa de recuperación), la tasa de precisión, mAP (Mean Average Precision) la tasa de precisión promedio de todas las etiquetas de clase). En comparación con el sistema de detección más avanzado, YOLO producirá más errores de posicionamiento, pero es poco probable que prediga falsos positivos en segundo plano (los falsos positivos se denominan FP, que se juzga como una muestra positiva, pero en realidad es negativa). muestra). Finalmente, YOLO es un método común para aprender a detectar objetos. Al generalizar desde imágenes naturales a otros dominios, como obras de arte, supera a otros métodos de detección, incluidos DPM y R-CNN.

1. Introducción

Los humanos miran una imagen e instantáneamente saben cuáles son los objetos en la imagen, dónde están y cómo interactúan. El sistema visual humano es rápido y preciso, lo que nos permite realizar tareas complejas, como conducir, con poca o ninguna conciencia. Los algoritmos de detección de objetos rápidos y precisos permitirán que las computadoras conduzcan automóviles sin sensores especializados, permitirán que los dispositivos de asistencia comuniquen información de la escena en tiempo real a los usuarios y abrirán la puerta a sistemas robóticos receptivos de uso general.

Los sistemas de detección actuales reutilizan los clasificadores para realizar la detección. Para detectar un objeto, estos sistemas clasifican el objeto y lo evalúan en diferentes ubicaciones y escalas en la imagen de prueba. Los sistemas como los modelos de piezas deformables (DPM) utilizan un enfoque de ventana deslizante en el que el clasificador se ejecuta en ubicaciones espaciadas uniformemente a lo largo de la imagen [10].

inserte la descripción de la imagen aquí

Figura 1: Sistema de detección YOLO. Procesar imágenes con YOLO es simple y directo. Nuestro sistema (1) cambia el tamaño de la imagen de entrada a 448 × 448, (2) ejecuta una sola red convolucional en la imagen y (3) establece un umbral para la detección resultante en función de la confianza del modelo.

Algunos enfoques recientes, como R-CNN, utilizan un enfoque de propuesta de región que primero genera un rango de posibles cuadros delimitadores y luego ejecuta un clasificador en estos cuadros delimitadores. Después de la clasificación, las detecciones duplicadas se eliminan mediante el posprocesamiento de los cuadros delimitadores finos, y los cuadros se vuelven a puntuar con respecto a otros objetos en la escena [13]. Estas canalizaciones complejas son lentas y difíciles de optimizar, ya que cada parte debe entrenarse individualmente.

Reformulamos la detección de objetos como un problema de regresión simple, pasando directamente de los píxeles de la imagen a las coordenadas del cuadro delimitador y las probabilidades de clase. Con nuestro sistema, puede predecir la ubicación de un objeto mirando la imagen (YOLO) solo una vez.

YOLO es muy simple: ver Figura 1. Una sola red convolucional predice simultáneamente múltiples cuadros delimitadores y probabilidades de clase para esos cuadros. YOLO entrena con imágenes completas y optimiza directamente el rendimiento de detección. Este modelo unificado tiene varias ventajas sobre los métodos tradicionales de detección de objetos.

Primero, YOLO es muy rápido. Dado que tratamos la detección como un problema de regresión, no se requieren canales complejos. Simplemente ejecutamos la red neuronal en nuevas imágenes en el momento de la prueba para predecir las detecciones. Nuestra red base funciona a 45 fotogramas por segundo sin procesamiento por lotes en una GPU Titan X, mientras que la versión rápida funciona a más de 150 fps. Esto significa que podemos procesar la transmisión de video en tiempo real con menos de 25 milisegundos de latencia. Además, YOLO logra más del doble de la precisión promedio de otros sistemas en tiempo real. Consulte la página web de nuestro proyecto para ver una demostración en vivo de nuestro sistema ejecutándose en una cámara web: http://pjreddie.com/yolo/.

En segundo lugar, YOLO realizará un razonamiento global sobre la imagen al hacer predicciones. A diferencia de las técnicas basadas en propuestas y ventanas deslizantes, YOLO ve la imagen completa durante el entrenamiento y las pruebas, por lo que codifica implícitamente información contextual sobre las clases y su apariencia. Fast R-CNN, un método de detección superior [14], confundió los parches de fondo en las imágenes con objetos porque no podía ver el fondo más grande. En comparación con Fsast R-CNN, YOLO tiene menos de la mitad de los errores de identificación de fondo.

Tercero, YOLO aprende representaciones generalizables de objetos. Cuando se entrena en imágenes naturales y se prueba en obras de arte, YOLO supera a los mejores métodos de detección como DPM y R-CNN por un amplio margen. Dado que YOLO es altamente generalizable, es menos probable que falle cuando se aplica a nuevos dominios o entradas inesperadas.

YOLO todavía va a la zaga de los sistemas de detección de última generación en precisión. Si bien puede identificar rápidamente objetos en imágenes, tiene dificultades para identificar ciertos objetos, especialmente los pequeños. Investigamos más a fondo estos pesos en nuestros experimentos.

Todo nuestro código de entrenamiento y prueba es de código abierto. Varios modelos preentrenados también están disponibles para descargar.

2. Detección unificada

Unificamos varias partes de la detección de objetos en una sola red neuronal. Nuestra red utiliza características de toda la imagen para predecir cada cuadro delimitador. También predice todos los cuadros delimitadores para todas las clases de una imagen simultáneamente. Esto significa que nuestra red hace inferencias globales sobre la imagen completa y todos los objetos de la imagen. El diseño de YOLO permite el entrenamiento de extremo a extremo y la velocidad en tiempo real mientras mantiene una precisión promedio alta.

Nuestro sistema de entrada de imágenes se divide en una cuadrícula S×S. Si el centro de un objeto cae en una celda de cuadrícula, esa celda de cuadrícula es responsable de detectar el objeto.

Cada celda de la cuadrícula predice cuadros delimitadores B y puntuaciones de confianza para estos cuadros. Estas puntuaciones de confianza reflejan qué tan seguro está el modelo de que el cuadro delimitador contiene el objeto y qué tan precisas cree que son las predicciones del cuadro delimitador. Definimos formalmente el nivel de confianza: . Si no existe ningún objeto en esa celda, la puntuación de confianza debe ser cero. De lo contrario, queremos que la puntuación de confianza sea igual a la intersección sobre la unión (IOU) entre el cuadro predicho y la verdad básica.

Cada cuadro delimitador consta de 5 predicciones: x, y, w, h y confianza. Las coordenadas (x,y) indican el centro del paralelepípedo en relación con los límites de las celdas de la cuadrícula. El ancho y la altura se predicen en relación con la imagen completa. Finalmente, la predicción de confianza representa el IOU entre la caja predicha y cualquier caja de verdad básica.

Cada celda de la cuadrícula también predice la probabilidad de clase condicional de C Pr ( Classi | Object ). Estas probabilidades están condicionadas a la celda de la cuadrícula que contiene el objeto. Solo predecimos un conjunto de probabilidades de clase para cada celda de la cuadrícula, independientemente del número de cuadros delimitadores B. En el momento de la prueba, multiplicamos la relación de probabilidad de clase condicional y las predicciones de confianza de caja individual.

Esto nos da una puntuación de confianza específica de la clase para cada cuadro delimitador. Estos puntajes codifican la probabilidad de que la clase aparezca en el cuadro y qué tan bien el cuadro predicho coincide con el objeto.
inserte la descripción de la imagen aquí

Figura 2: Modelo. Nuestro sistema modela la detección como un problema de regresión. Divide la imagen en cuadrículas S×S y predice cuadros delimitadores, confianzas para estos cuadros y probabilidades de clase para cada celda de la cuadrícula. Estas predicciones se codifican como tensores S×S×(B*5+C).

Para evaluar YOLO en PASCAL VOC, usamos S=7, B=2. PASCAL VOC tiene 20 clases de tokens, por lo que C=20. Nuestras predicciones finales son tensores de 7×7×30.

2.1 Diseño de red

Implementamos el modelo como una red neuronal convolucional y lo evaluamos en el conjunto de datos de detección de COV de PASCAL [9]. Las capas convolucionales iniciales de la red extraen características de las imágenes, mientras que las capas completamente conectadas predicen las probabilidades y las coordenadas de salida.

Nuestra arquitectura de red está inspirada en el modelo GoogLeNet para la clasificación de imágenes [34]. Nuestra red tiene 24 capas convolucionales seguidas de dos capas completamente conectadas. A diferencia del módulo de inicio utilizado por GoogLeNet, solo usamos una capa de reducción de 1×1 seguida de una capa de coevolución de 3×3, similar a Lin et al [22]. La red completa se muestra en la Figura 3.

También entrenamos una versión rápida de YOLO diseñada para ampliar los límites de la detección rápida de objetos. La red neuronal utilizada por Fast YOLO tiene menos capas convolucionales (9 en lugar de 24) y menos filtros. Excepto por el tamaño de la red, todos los parámetros de entrenamiento y prueba son los mismos entre YOLO y Fast YOLO.

inserte la descripción de la imagen aquí

Figura 3: Arquitectura. Nuestra red de detección consta de 24 capas convolucionales y 2 capas totalmente conectadas. Las capas convolucionales alternas de 1 × 1 reducen el espacio de características de las capas anteriores. Entrenamos previamente las capas convolucionales a la mitad de la resolución (imágenes de entrada de 224 × 224) en la tarea de clasificación de ImageNet y luego duplicamos la resolución de detección.

El resultado final de nuestra red es un tensor de predicciones de 7×7×30.

2.2 entrenamiento

Pre-entrenamos capas convolucionales en el conjunto de datos de competencia de clase ImageNet 1000 [30]. Para el entrenamiento previo, usamos las primeras 20 capas convolucionales en la Figura 3, seguidas de la agrupación promedio y las capas completamente conectadas. Capacitamos a la red durante aproximadamente una semana y logramos un 88 % de precisión entre los 5 mejores de un solo cultivo en el conjunto de validación de ImageNet 2012, comparable al modelo GoogLeNet en Caffe Model Zoo [24]. Usamos Darknet para todo el entrenamiento y la inferencia [26].

Luego, aplicamos el modelo a la detección. Ren y otros demostraron que agregar capas convolucionales y concatenadas a una red preentrenada mejora el rendimiento [29]. Siguiendo su ejemplo, agregamos cuatro capas convolucionales y dos capas completamente conectadas con pesos inicializados aleatoriamente. La detección suele requerir información visual detallada, por lo que aumentamos la resolución de entrada de la red de 224×224 a 448×448.

La última capa predice las probabilidades de clase y las coordenadas del cuadro delimitador. Normalizamos el ancho y el alto del cuadro delimitador para que esté entre 0 y 1 por el ancho y el alto de la imagen. Parametrizamos las coordenadas X e Y del cuadro delimitador como compensaciones desde posiciones de celdas de cuadrícula específicas, por lo que sus límites también están entre 0 y 1.

Usamos una función de activación lineal para la última capa y todas las demás capas usan las siguientes activaciones lineales con corrección de fugas:
inserte la descripción de la imagen aquí

Optimizamos la suma de los errores al cuadrado de la salida del modelo. Usamos la suma de errores al cuadrado porque es fácil de optimizar, pero no se ajusta del todo a nuestro objetivo de maximizar la precisión promedio. Pondera el error de localización por igual con el error de clasificación posiblemente subóptimo. Además, en cada imagen, muchas celdas de cuadrícula no contienen ningún objeto. Esto empuja las puntuaciones de "confianza" de estas celdas hacia cero, a menudo superando el gradiente de las celdas que contienen objetos. Esto puede conducir a la inestabilidad del modelo, lo que hace que el entrenamiento se desvíe antes de tiempo.

Para abordar esto, aumentamos la pérdida para la predicción de coordenadas del cuadro delimitador y disminuimos la pérdida para la predicción de confianza para los cuadros que no contienen objetos. Hacemos esto usando dos parámetros λcoord y λnoobj. Establecemos λcoord=5 y λnoobj=.5.

La suma de los errores al cuadrado también pondera los errores por igual en las casillas grande y pequeña. Nuestra métrica de error debe reflejar que las pequeñas desviaciones en cuadros grandes son más importantes que las pequeñas desviaciones en cuadros pequeños. Para solucionar parcialmente este problema, predecimos la raíz cuadrada del ancho y el alto del cuadro delimitador en lugar de predecir el ancho y el alto directamente.

YOLO predice múltiples cuadros delimitadores por celda de cuadrícula. Al entrenar, solo queremos que un predictor de cuadro delimitador sea responsable de cada objeto. Designamos un predictor para que sea "responsable" de predecir un objeto en función del cual la predicción tiene el IOU de verdad en tierra actual más alto. Esto conduce a la especialización entre los predictores de cuadro delimitador. Cada predictor es mejor para predecir un tamaño específico, una relación de aspecto o una clase de objeto, lo que aumenta la recuperación general.

Durante el entrenamiento, optimizamos las siguientes partes de la función de pérdida:
inserte la descripción de la imagen aquí

donde indica si el objeto está presente en la cuadrícula de celdas i, lo que indica que el j-ésimo predictor de cuadro delimitador en la cuadrícula i es "responsable" de esa predicción.

Tenga en cuenta que la función de pérdida solo penaliza la clasificación errónea si hay un objeto en la celda de la cuadrícula (de ahí las probabilidades de clase condicionales discutidas anteriormente). También solo penaliza los errores de coordenadas del cuadro delimitador si el predictor es "responsable" del cuadro de verdad en el suelo (es decir, tiene el IOU más alto de cualquier predictor en esa celda de cuadrícula).

Capacitamos a la red durante aproximadamente 135 épocas en los conjuntos de datos de capacitación y validación PASCAL VOC 2007 y 2012. Al realizar las pruebas en 2012, también incluimos los datos de prueba de VOC 2007 para capacitación. A lo largo del entrenamiento, usamos un tamaño de lote de 64, un impulso de 0,9 y una caída de 0,0005.

Nuestro programa de tasa de aprendizaje es el siguiente: en las primeras épocas, aumentamos lentamente la tasa de aprendizaje de 10−3 a 10−2. Si comenzamos a aprender con una tasa de aprendizaje alta, nuestro modelo tiende a desviarse de gradientes inestables. Seguimos entrenando durante 75 épocas con una tasa de aprendizaje de 10−2, luego durante 30 épocas con una tasa de aprendizaje de 10−30 y finalmente durante 30 épocas con una tasa de aprendizaje de 10−30.

Para evitar el sobreajuste, usamos abandono y aumento de datos extensivo. La tasa de abandono de la capa es de 0,5 después de la primera capa conectada, lo que impide la adaptación mutua entre capas [18]. Para el aumento de datos, introducimos el 20 % del tamaño de la imagen original para el escalado y la traducción aleatorios. También ajustamos aleatoriamente la exposición y la saturación de la imagen a 1,5 en el espacio de color HSV.

2.3 Razonamiento

Al igual que en el entrenamiento, la predicción de detecciones en imágenes de prueba requiere solo una evaluación de red. En PASCAL VOC, la red predice 98 cuadros delimitadores por imagen, cada uno con una probabilidad de clase. A diferencia de los métodos basados ​​en clasificadores, YOLO es muy rápido en el momento de la prueba porque solo requiere una evaluación de red.

El diseño de cuadrícula mejora la diversidad espacial en la predicción del cuadro delimitador. Por lo general, está claro a qué celda de la cuadrícula pertenece un objeto y la red solo predice un cuadro por objeto. Sin embargo, algunos objetos grandes u objetos cerca de los límites de múltiples celdas pueden ser bien localizados por múltiples celdas. La supresión no máxima se puede utilizar para corregir estas detecciones múltiples. Si bien no es tan importante para el rendimiento como R-CNN o DPM, la supresión no máxima aumenta el mAP en un 23 %.

2.4 Limitaciones de YOLO

YOLO impone fuertes restricciones espaciales en las predicciones de cuadros delimitadores, ya que cada celda de la cuadrícula solo puede predecir dos cuadros y solo tiene una clase. Esta limitación espacial limita la cantidad de objetos cercanos que nuestro modelo puede predecir. Nuestro modelo lucha con objetos pequeños que aparecen en grupos, como bandadas de pájaros.

Dado que nuestro modelo aprende a predecir cuadros delimitadores a partir de datos, es difícil generalizar a objetos con relaciones de aspecto o configuraciones nuevas o inusuales. Nuestro modelo también usa características relativamente toscas para predecir cuadros delimitadores porque nuestra arquitectura tiene múltiples capas de reducción de resolución de la imagen de entrada.

Finalmente, cuando entrenamos una función de pérdida que se aproxima al rendimiento de detección, nuestra función de pérdida maneja los errores de la misma manera para los cuadros delimitadores pequeños que para los grandes. Los errores pequeños en cajas grandes suelen ser benignos, pero los errores pequeños en cajas pequeñas tienen un impacto mucho mayor en IOU. Nuestra principal fuente de error es el posicionamiento incorrecto.

3. Comparación con otros sistemas de detección

La detección de objetos es un problema central en la visión artificial. La canalización de detección generalmente comienza con la extracción de un conjunto de características robustas (Haar[25], SIFT[23], HOG[4], características convolucionales[6]) de la imagen de entrada. Luego, se utilizan clasificadores [36, 21, 13, 10] o localizadores [1, 32] para identificar objetos en el espacio de características. Estos clasificadores o localizadores operan en forma de ventana deslizante sobre toda la época de la imagen o sobre algún subconjunto de regiones de la imagen [35, 15, 39]. Comparamos el sistema de detección YOLO con varios marcos de detección principales, destacando similitudes y diferencias clave.

Modelos de piezas deformables. Los modelos de piezas deformables (DPM) utilizan un enfoque de ventana deslizante para la detección de objetos [10]. DPM utiliza canales separados para extraer características estáticas, clasificar regiones, predecir cuadros delimitadores para regiones de puntuación alta, etc. Nuestro sistema reemplaza todas estas partes diferentes con una única red neuronal convolucional. La red realiza simultáneamente la extracción de características, la predicción del cuadro delimitador, la supresión no máxima y el razonamiento contextual. En lugar de funciones estáticas, la red entrena funciones en línea y las optimiza para la tarea de detección. Nuestra arquitectura unificada da como resultado modelos más rápidos y precisos en comparación con DPM.

R-CNN. R-CNN y sus variantes utilizan propuestas de región en lugar de ventanas deslizantes para encontrar imágenes de objetos. La búsqueda selectiva [35] genera posibles cuadros delimitadores, la red convolucional extrae características, la máquina de vectores de soporte (SVM) predice la puntuación de los cuadros, el modelo lineal ajusta los cuadros delimitadores y la supresión no máxima elimina la detección de duplicados. Cada etapa de este proceso complejo debe ajustarse de forma independiente y, como resultado, la velocidad de detección del sistema es muy lenta y requiere más de 40 segundos por imagen en el momento de la prueba [14].

YOLO comparte algunas similitudes con R-CNN. Cada celda de la cuadrícula propone cuadros delimitadores potenciales y utiliza características convolucionales para marcar estos cuadros. Sin embargo, nuestro sistema impone restricciones espaciales en el esquema de celdas de cuadrícula, lo que ayuda a reducir las detecciones múltiples del mismo objeto. Nuestro sistema también propone muchos menos cuadros delimitadores, solo 98 por imagen, en comparación con aproximadamente 2000 para la búsqueda selectiva. Finalmente, nuestro sistema combina estos componentes individuales en un solo modelo optimizado conjuntamente.

Otros detectores rápidos. Fast R-CNN y Faster R-CNN se enfocan en acelerar la velocidad de detección del marco R-CNN compartiendo computación y usando propuestas de redes neuronales en lugar de búsqueda selectiva [14][28]. Aunque han mejorado en velocidad y precisión en comparación con R-CNN, su rendimiento en tiempo real aún no es satisfactorio.

Gran parte del trabajo de investigación se ha centrado en acelerar los canales DPM [31][38][5]. Aceleran los cálculos HOG, usan cascadas y envían los cálculos a la GPU. Sin embargo, solo 30 Hz DPM [31] pueden ejecutarse en tiempo real.

En lugar de intentar optimizar los componentes individuales de una gran tubería de detección, YOLO descarta la tubería por completo y está diseñada para ser rápida. Los detectores de clase única, como rostros o personas, pueden optimizarse mucho porque la variación con la que tienen que lidiar es mucho menor [37]. YOLO es un detector de propósito general que puede detectar múltiples objetos simultáneamente.

Caja múltiple profunda. A diferencia de R-CNN, Szegedy y otros entrenan una red neuronal convolucional para predecir regiones de interés (RoI) [8] en lugar de utilizar una búsqueda selectiva. MultiBox también puede realizar la detección de un solo objeto al reemplazar las predicciones de confianza con predicciones de una sola clase. Sin embargo, MultiBox no puede realizar la detección general de objetos y sigue siendo solo una parte de una canalización de detección más grande, lo que requiere una mayor clasificación de parches de imagen. Tanto YOLO como MultiBox usan redes convolucionales para predecir cuadros delimitadores en imágenes, pero YOLO es un sistema de detección completo.

Sobreajuste (OverFeat). Sermanet y otros entrenan una red neuronal convolucional para la localización y ajustan este localizador para la detección [32]. El sobreajuste realiza efectivamente la detección de ventanas deslizantes, pero sigue siendo un sistema inconexo. El sobreajuste optimiza la localización, no el rendimiento de detección. Al igual que DPM, los localizadores solo buscan información local cuando hacen predicciones. OverFeat no puede razonar sobre el contexto global y, por lo tanto, requiere un procesamiento posterior extenso para producir detecciones consistentes.

Multiagarre. Nuestro trabajo es similar en diseño al trabajo de detección de agarre de Redmon et al [27]. Nuestro método de predicción del cuadro delimitador de malla se basa en el sistema MultiGrasp para el agarre de regresión. Sin embargo, la detección de agarre es mucho más simple que la detección de objetos. MultiGrass solo necesita predecir una región comprensible para una imagen que contiene un objeto. No necesita estimar el tamaño, la posición o el límite del objeto, ni tampoco necesita predecir la categoría del objeto, solo necesita encontrar un área adecuada para agarrarlo. YOLO predice cuadros delimitadores y probabilidades de clase para múltiples objetos de múltiples clases en una imagen.

4. Experimenta

Primero, comparamos YOLO con otros sistemas de detección en tiempo real en PASCAL VOC 2007. Para comprender las diferencias entre las variantes de YOLO y R-CNN, estudiamos los errores de YOLO y Fast R-CNN en VOC 2007, una de las versiones de R-CNN de mayor rendimiento [14]. Según diferentes patrones de error, mostramos que YOLO se puede usar para restaurar las detecciones de Fast R-CNN y reducir los errores de los falsos positivos en segundo plano, lo que lleva a mejoras significativas en el rendimiento. También presentamos los resultados de VOC 2012 y comparamos mAP con los métodos actuales más avanzados. Finalmente, mostramos que YOLO generaliza a nuevos dominios mejor que otros detectores en dos conjuntos de datos de obras de arte.

4.1 Comparación en tiempo real con otros sistemas

Gran parte del trabajo de investigación en detección de objetos se ha centrado en la implementación rápida de canalizaciones de detección estándar. [5][38][31][14][17][28] Sin embargo, solo Sadeghi y otros produjeron un sistema de detección que funciona en tiempo real (30 cuadros por segundo o más) [31]. Comparamos YOLO con su implementación de DPM en una GPU, funcionando a 30 Hz o 100 Hz. Si bien otros esfuerzos no han alcanzado hitos en tiempo real, también comparamos su mAP y velocidad relativos para examinar la compensación entre precisión y rendimiento disponible en los sistemas de detección de objetos.
inserte la descripción de la imagen aquí

Tabla 1: Sistemas en tiempo real sobre PASCAL VOC 2007. Se comparan el rendimiento y la velocidad de los detectores rápidos. Fast YOLO es el detector más rápido registrado para la detección de COV PASCAL y sigue siendo el doble de rápido que otros detectores en tiempo real. YOLO es 10 mA más grande que la versión rápida, pero la velocidad sigue siendo mucho mayor que en tiempo real.

Fast YOLO es el método de detección de objetos más rápido en PASCAL; hasta donde sabemos, es el detector de objetos más rápido que existe. 52,7% mAP, que es más del doble de la precisión del trabajo de detección en tiempo real anterior. YOLO lleva mAP al 63,4 %, al mismo tiempo que mantiene el rendimiento en tiempo real.

También entrenamos a YOLO usando VGG-16. Este modelo es más preciso, pero también mucho más lento que YOLO. Es útil en comparación con otros sistemas de detección que se basan en VGG-16, pero dado que es más lento que los sistemas en tiempo real, el resto de este documento se centrará en nuestro modelo más rápido.

El DPM más rápido acelera efectivamente el DPM sin sacrificar demasiado mAP, pero aún pierde el doble de rendimiento en tiempo real [38]. En comparación con los métodos de redes neuronales, la precisión de detección de DPM es relativamente baja, lo que también limita su aplicación.

R-CNN menos R reemplaza la búsqueda selectiva con un esquema de cuadro delimitador estático [20].
Aunque es más rápido que R-CNN, todavía carece de rendimiento en tiempo real y su precisión sufre mucho debido a la falta de buenas propuestas regionales.

Fast R-CNN acelera la etapa de clasificación de R-CNN, pero aún se basa en la búsqueda selectiva y toma aproximadamente 2 segundos por imagen para generar candidatos de cuadro delimitador. Por lo tanto, tiene un mAP alto, pero a 0,5 fps está lejos de ser en tiempo real.

El reciente Faster R-CNN reemplaza la búsqueda selectiva con una red neuronal y propone cuadros delimitadores, similares a los de Szegedy et al.. [8] Su modelo más preciso logró 7 fps en nuestras pruebas, mientras que el modelo más pequeño y preciso alcanzó 18 fps. La versión VGG-16 de Faster R-CNN es 10 mA más alta que YOLO, pero también 6 veces más lenta. El R-CNN más rápido de ZeilerFergus es de solo 2 fps. 5 veces más lento que YOLO, pero también menos preciso.

4.2 Análisis de errores VOC 2007

Para investigar más a fondo las diferencias entre YOLO y los detectores de última generación, analizamos un desglose detallado de los resultados de las pruebas de VOC de 2007. Comparamos YOLO con Fast RCNN porque Fast R-CNN es uno de los detectores de mayor rendimiento en PASCAL y sus datos de detección están disponibles públicamente.

Usamos el método y las herramientas de Hoiem y otros [19], donde en el momento de la prueba para cada clase observamos las N predicciones principales para esa clase. Cada predicción es correcta o se clasifica según el tipo de error:

  • Correcto: categoría correcta y pagaré > .5
  • Localización: categoría correcta, .1<IOU<.5
  • Similar: Clasificación similar, IOU > .1
  • Otro: Categoría incorrecta, IOU>.1
  • Antecedentes: IOU < .1 para cualquier objeto
    inserte la descripción de la imagen aquí
    Figura 4: Análisis de errores: Fast R-CNN vs. YOLO Estos gráficos muestran el porcentaje de localización y errores de fondo en las N principales detecciones para diferentes clases (N = # objetos en esa clase).

La Figura 4 muestra el desglose de cada tipo de error promediado en las 20 clases.

YOLO localiza el objetivo de la forma más correcta posible. Los errores de localización representan una mayor proporción de los errores de YOLO que todas las demás fuentes combinadas. Fast R-CNN tiene muchos menos errores de localización, pero muchos más errores de fondo. El 13,6% de las principales detecciones son identificaciones erróneas que no contienen ningún objeto. Fast R-CNN tiene casi 3 veces más probabilidades de predecir la detección de fondo que YOLO.

4.3 Combinar Fast R-CNN y YOLO

YOLO comete muchos menos errores de fondo que Fast R-CNN. Al usar YOLO para eliminar la detección de fondo de Fast R-CNN, obtenemos un aumento significativo del rendimiento. Para cada cuadro delimitador predicho por R-CNN, verificamos si YOLO predijo un cuadro similar. Si es así, mejoramos la predicción en función de la probabilidad predicha por YOLO y la superposición entre las dos casillas.

En el equipo de prueba VOC 2007, el mAP del mejor modelo Fast R-CNN es del 71,8 %. Cuando se combinó con YOLO, su mAP aumentó entre un 3,2 % y un 75,0 %. También intentamos combinar el modelo superior Fast R-CNN con varias otras versiones de Fast R-CNN. Estas combinaciones produjeron pequeños aumentos en mAP entre .3 y .6%, como se detalla en la Tabla 2.
inserte la descripción de la imagen aquí

Tabla 2: Pruebas de combinación de modelos VOC en 2007. Estudiamos el efecto de combinar varios modelos con la mejor versión de Fast R-CNN. Otras versiones de Fast R-CNN brindan solo un pequeño beneficio, mientras que YOLO brinda un aumento significativo en el rendimiento.

La mejora aportada por YOLO no es solo un subproducto de la integración del modelo, porque hay pocos beneficios al combinar diferentes versiones de Fast R-CNN. Por el contrario, es precisamente porque YOLO comete todo tipo de errores en el momento de la prueba que mejora el rendimiento de Fast R-CNN de manera tan efectiva.

Desafortunadamente, esta combinación no se beneficia de la velocidad de YOLO porque ejecutamos cada modelo por separado y luego combinamos los resultados. Sin embargo, dado que YOLO es tan rápido, no agrega ningún tiempo de cálculo significativo en comparación con Fast R-CNN.

4.4 Resultados COV 2012

En la prueba VOC en 2012, YOLO logró un mAP de 57,9%. Esto es más bajo que el estado actual del arte y más cercano al R-CNN original que usa VGG-16, consulte la Tabla 3. Comparado con el competidor más cercano, nuestro sistema lucha con objetos pequeños. En categorías como botella, oveja y TV/monitor, YOLO obtiene un 8-10 % menos que R-CNN o Feature Edit. Sin embargo, en otras categorías, como cat y train YOLO, el rendimiento es superior.
inserte la descripción de la imagen aquí
Tabla 3: Tabla de clasificación PASCALVOC 2012. YOLO se comparó con la clasificación pública fullcomp4 (datos externos permitidos) a partir del 6 de noviembre de 2015. Se muestra la precisión promedio de varios métodos de detección y la precisión promedio por clase. YOLO es el único detector en tiempo real. Fast R-CNN YOLO es el cuarto método con mayor puntuación con una puntuación del 2,3 % sobre Faster R-CNN.

4.5 Resumen: Detección de personas en obras de arte

Los conjuntos de datos académicos para la detección de objetos extraen datos de entrenamiento y prueba de la misma distribución. En aplicaciones reales, es difícil predecir todos los casos de uso posibles, y los datos de prueba pueden ser diferentes de lo que el sistema ha visto antes [3]. Comparamos YOLO con otros sistemas de detección en el conjunto de datos de Picasso [12] y el conjunto de datos de People Art [3], que se utilizan para probar la detección de personas en obras de arte.

La figura 5 muestra el rendimiento comparativo entre YOLO y otros métodos de detección. Como referencia, presentamos el AP de detección de VOC 2007 onPerson, donde todos los modelos se entrenan solo con datos de VOC 2007. Para Picasso, los modelos se entrenaron en VOC 2012, mientras que para el arte de personajes, los modelos se entrenaron en VOC 2010.

R-CNN tiene un AP alto en VOC en 2007. Sin embargo, cuando se aplica R-CNN a obras de arte, cae significativamente. R-CNN utiliza un esquema de cuadro delimitador de búsqueda selectiva que está ajustado para imágenes naturales. El paso clasificador en R-CNN solo ve regiones pequeñas y requiere buenas propuestas.

DPM mantiene bien su AP cuando se aplica a obras de arte. El trabajo anterior teorizó que DPM funciona bien porque tiene un modelo espacial sólido de la forma y el diseño de los objetos. Aunque el rendimiento de DPM no es tan bueno como el de R-CNN, parte de un AP más bajo.

YOLO tiene un rendimiento muy bueno en VOC 2007 y su AP se degrada menos que otros métodos cuando se usa para obras de arte. Al igual que DPM, YOLO modela el tamaño y la forma de los objetos, las relaciones entre los objetos y dónde suelen aparecer los objetos. Las ilustraciones y las imágenes naturales son muy diferentes a nivel de píxeles, pero son similares en términos de tamaño y forma del objeto, por lo que YOLO aún puede predecir buenos cuadros delimitadores y detecciones.

inserte la descripción de la imagen aquí

(a) Curva de recuperación de precisión para el conjunto de datos de Picasso
(b) Resultados cuantitativos para los conjuntos de datos de VOC 2007, Picasso y Character Art. El conjunto de datos de Picasso se evalúa en función de las puntuaciones AP y Best F1.

5. Detección en tiempo real en el campo

YOLO es un detector de objetos rápido y preciso ideal para aplicaciones de visión artificial. Conectamos YOLO a una cámara web y verificamos que mantiene el rendimiento en tiempo real, incluido el tiempo para adquirir imágenes de la cámara y mostrar los resultados de detección.

inserte la descripción de la imagen aquí
Figura 6: Resultados cualitativos. YOLO opera con muestras de obras de arte e imágenes naturales de la web. Si bien cree que una persona es un avión, en su mayoría es preciso.
El sistema resultante es interactivo y atractivo. Mientras que YOLO procesa imágenes solo, cuando se conecta a una cámara web funciona como un sistema de seguimiento, detectando objetos a medida que se mueven y cambian de apariencia. Una demostración y el código fuente del sistema están disponibles en el sitio web de nuestro proyecto: http://pjreddie.com/yolo/.

6. Conclusión

Presentamos YOLO, un modelo unificado para la detección de objetos. Nuestro modelo es de construcción simple y se puede entrenar directamente en imágenes completas. A diferencia de los métodos basados ​​en clasificadores, YOLO se entrena en función de una función de pérdida que se corresponde directamente con el rendimiento de detección, y todo el modelo se entrena sincrónicamente.

Fast YOLO es el detector de objetos de propósito general más rápido en la literatura, y YOLO promueve el desarrollo de tecnología de detección de objetos en tiempo real. YOLO también se generaliza bien a nuevos dominios, lo que lo hace ideal para aplicaciones que dependen de una detección de objetos rápida y robusta.

Agradecimientos: Este trabajo fue apoyado en parte por ONR N00014-13-1-0720, NSF IIS-1338054 y un Premio Allen al Investigador Distinguido.

referencias

[1] MB Blaschko y CH Lampert. Aprender a localizar objetos con regresión de salida estructurada. InComputer Vision–ECCV 2008, páginas 2–15. Springer, 2008.4
[2]L. Bourdev y J. Malik. Poselets: detectores de partes del cuerpo entrenados mediante anotaciones de poses humanas en 3D. EnConferencia Internacional sobre Visión por Computador (ICCV), 2009.8
[3]H. Cai, Q. Wu, T. Corradi y P. Sala. El problema de la representación cruzada: Algoritmos de visión por computadora para reconocer objetos en obras de arte y fotografías.arXiv preprint arXiv:1505.00110, 2015.7
[4]N. Dalal y B. Triggs. Histogramas de gradientes orientados para detección humana. InComputer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, volumen 1, páginas 886–893. IEEE, 2005.4,8
[5]T. Dean, M. Ruzon, M. Segal, J. Shlens, S. Vijaya narasimhan, J. Yagnik, et al. Detección rápida y precisa de 100 000 clases de objetos en una sola máquina. En Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, páginas 1814–1821. IEEE, 2013.5
[6]J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. T zeng y T. Darrell. Decaf: una función de activación convolucional profunda para el reconocimiento visual genérico. Preimpresión de arXiv arXiv: 1310.1531, 2013.4
[7] J. Dong, Q. Chen, S. Yan y A. Y uille. Hacia la detección unificada de objetos y la segmentación semántica. InComputer Vision–ECCV 2014, páginas 299–314. Primavera, 2014.7
[8]D. Erhan, C. Szegedy, A. Toshev y D. Anguelov. Detección escalable de objetos utilizando redes neuronales profundas. InComputer Vision and Pattern Recognition (CVPR), Conferencia IEEE de 2014, páginas 2155–2162. IEEE, 2014.5,6
[9]M. Everingham, SMA Eslami, L. Van Gool, CKI Williams, J. Winn y A. Zisserman. El desafío de las clases de objetos visuales pascal: una retrospectiva. International Journal of Computer Vision, 111(1):98–136, enero de 2015.2
[10]P . F. Felzenszwalb, RB Girshick, D. McAllester y D. Ramanan. Detección de objetos con modelos basados ​​en piezas entrenados discriminativamente. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(9):1627–1645, 2010.1,4
[11]S. Gidaris y N. Komodakis. Detección de objetos a través de un modelo CNN multirregional y con segmentación semántica. CoRR, abs/1505.01749, 2015.7
[12]S. Ginosar, D. Haas, T. Brown y J. Malik. Detección de personas en el arte cubista. En Talleres Computer Vision-ECCV 2014, páginas 101–116. Springer, 2014.7
[13]R. Girshick, J. Donahue, T. Darrell y J. Malik. Jerarquías de funciones enriquecidas para la detección precisa de objetos y la segmentación semántica. InComputer Vision and Pattern Recognition (CVPR), Conferencia IEEE de 2014, páginas 580–587. IEEE,2014.1,4,7
[14]RB Girshick. Fast R-CNN.CoRR, abs/1504.08083, 2015.2,5,6,7
[15]S. Gould, T. Gao y D. Koller. Segmentación basada en regiones y detección de objetos. En Avances en los sistemas de procesamiento de información neuronal, páginas 655–663, 2009.4
[16]B. Hariharan, P. Arbeláez, R. Girshick, and J. Malik. Detección y segmentación simultánea. InComputer Vision ECCV 2014, páginas 297–312. Primavera, 2014.7
[17]K. Él, X. Zhang, S. Ren y J. Sun. Agrupación de pirámides espaciales en redes convolucionales profundas para el reconocimiento visual.arXiv preprint arXiv:1406.4729, 2014.5
[18]GE Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever y RR Salakhutdinov. Mejora de las redes neuronales mediante la prevención de la coadaptación de detectores de características. Preimpresión de arXiv arXiv: 1207.0580, 2012.4
[19] D. Hoiem, Y. Chodpathumwan y Q. Dai. Diagnóstico de error en detectores de objetos. InComputer Vision–ECCV 2012, páginas 340–353. Springer, 2012.6
[20]K. Lenc y A. V edaldi. R-cnn menos r.arXiv preprint arXiv:1506.06981, 2015.5,6
[21]R. Lienhart y J. Maydt. Un conjunto ampliado de funciones similares a las de un haar para la detección rápida de objetos. Procesamiento InImage. 2002. Actas. Conferencia Internacional de 2002 sobre, volumen 1, páginas I–900. IEEE, 2002.4
[22] m. Lin, Q. Chen y S. Yan. Red en red. CoRR, abs/1312.4400, 2013.2
[23]DG Lowe. Reconocimiento de objetos a partir de características locales invariantes a escala. InComputer vision, 1999. Actas de la séptima conferencia internacional IEEE, volumen 2, páginas 1150–1157. iee, 1999.4
[24]D. Mishkin. Precisión de los modelos en imagenet 2012 val.https://github.com/BVLC/caffe/wiki/Models-accuracy-on-ImageNet-2012-val. Consultado: 2015-10-2.3
[25]C. PAG . Papageorgiou, M. Oren y T. Poggio. Un marco general para la detección de objetos. InComputer vision, 1998. sexta conferencia internacional sobre, páginas 555–562. IEEE, 1998.4
[26]J. Redmón. Darknet: redes neuronales de código abierto en c.http://pjreddie.com/darknet/, 2013–2016.3
[27]J. Redmon y A. Angelova. Detección de agarre en tiempo real usando redes neuronales convolucionales. CoRR, abs/1412.3128, 2014.5
[28]S. Ren, K. He, R. Girshick y J. Sun. R-cnn más rápido: hacia la detección de objetos en tiempo real con redes de propuestas regionales.arXiv preprint arXiv:1506.01497, 2015.5,6,7
[29]S. Ren, K. He, RB Girshick, X. Zhang y J. Sun. Redes de detección de objetos en mapas de características convolucionales. CoRR, abs/1504.06066, 2015.3,7
[30]O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, AC Berg y L. Fei-Fei. Desafío de reconocimiento visual a gran escala de ImageNet. International Journal of Computer Vision (IJCV), 2015.3
[31] MA Sadeghi y D. Forsyth. Detección de objetos a 30 Hz con dpm v5. InComputer Vision–ECCV 2014, páginas 65–79. Springer, 2014.5,6
[32]P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus e Y. Le Cun. Overfeat: Reconocimiento, localización y detección integrados mediante redes convolucionales. CoRR, abs/1312.6229, 2013.4,5
[33]Z. Shen y X. Xue. Realice más abandonos en los mapas de funciones de pool5 para una mejor detección de objetos.arXiv preprint arXiv:1409.6911,2014.7
[34]C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke y A. Rabinovich. Profundizando con las circunvoluciones.CoRR, abs/1409.4842,2014.2
[35]JR Uijlings, KE van de Sande, T. Gevers y AW Smeulders. Búsqueda selectiva para el reconocimiento de objetos. International journal of computer vision, 104(2):154–171, 2013.4
[36]P . Viola y M. Jones. Robusta detección de objetos en tiempo real. International Journal of Computer Vision, 4:34–47, 2001.4
[37]P . Viola y MJ Jones. Robusta detección de rostros en tiempo real. Revista internacional de visión por computadora, 57(2):137–154, 2004.5
[38]J. Yan, Z. Lei, L. Wen y SZ Li. El modelo de pieza deformable más rápido para la detección de objetos. InComputer Vision and Pattern Recognition (CVPR), Conferencia IEEE de 2014, páginas 2497–2504. IEEE, 2014.5,6
[39]CL Zitnick y P . Dólar. Cajas de borde: Localización de propuestas de objetos desde los bordes. InComputer Vision–ECCV 2014, páginas 391–405. Primavera, 2014.4

Traducción original: Solo se mira una vez: Detección unificada de objetos en tiempo real
<!-- >

Supongo que te gusta

Origin blog.csdn.net/qq_46248455/article/details/124666616
Recomendado
Clasificación