Detección de imágenes: RetinaNet: pérdida focal para la detección de objetos densos (arXiv 2018)

Descargo de responsabilidad: esta traducción es sólo un registro de estudio personal.

Información del artículo

Resumen

  Los detectores de objetos de mayor precisión hasta la fecha se basan en un enfoque de dos etapas generalizado por R-CNN, en el que se aplica un clasificador a un conjunto disperso de ubicaciones de objetos candidatos. Por el contrario, los detectores de una sola etapa que toman muestras densas y regulares de posibles ubicaciones de objetos tienen el potencial de ser más rápidos y simples, pero hasta ahora se han quedado atrás en precisión con respecto a los detectores de dos etapas. En este artículo investigamos por qué es así. Descubrimos que la razón principal es el desequilibrio extremo de clases entre primer plano y fondo encontrado durante el entrenamiento de detectores densos. Proponemos abordar este desequilibrio de clases remodelando la pérdida de entropía cruzada estándar para que pondere la pérdida asignada a ejemplos bien clasificados. Nuestra novedosa pérdida focal centra el entrenamiento en un conjunto escaso de ejemplos difíciles y evita que una gran cantidad de negativos propensos abrumen el detector durante el entrenamiento. Para evaluar la efectividad de nuestra pérdida, diseñamos y entrenamos un detector denso simple, al que llamamos RetinaNet. Nuestros resultados muestran que cuando se entrena con una pérdida focal, RetinaNet puede igualar la velocidad de los detectores de una sola etapa anteriores y, al mismo tiempo, excede la precisión de todos los detectores de dos etapas de última generación existentes. El código se encuentra en: https://github.com/facebookresearch/Detectron.

inserte la descripción de la imagen aquí

Figura 1. Proponemos una nueva pérdida, a la que llamamos pérdida focal, que agrega un factor ( 1 − pt ) γ (1−p_t)^γ al criterio estándar de entropía cruzada.( 1pagt)c。 establecer> 0 c>0C>0 puede reducir la pérdida relativa ( pt > .5 )para ejemplos bien clasificados( pag.t>.5 ) , prestando así más atención a ejemplos erróneos difíciles de clasificar. Como lo demuestran nuestros experimentos, la pérdida focal propuesta es capaz de entrenar detectores de objetos densos de alta precisión con una gran cantidad de ejemplos de fondo simples.

inserte la descripción de la imagen aquí

Figura 2. Velocidad (ms) y precisión (AP) de COCO test-dev. Debido a la pérdida focal, nuestro sencillo detector RetinaNet de una sola etapa supera a todos los detectores anteriores de una y dos etapas, incluido el mejor sistema Faster R-CNN [28] informado en [20]. Mostramos variantes de RetinaNet con ResNet-50-FPN (círculos azules) y ResNet-101-FPN (diamantes naranjas) en cinco escalas (400-800 píxeles). Haciendo caso omiso del estado de baja precisión (AP<25), RetinaNet forma la envolvente superior de todos los detectores actuales, con una variante mejorada (no mostrada) que alcanza 40,8 AP. Véase §5 para más detalles.

1. Introducción

  Los detectores de objetos más modernos se basan en un mecanismo de dos etapas impulsado por propuestas. Como se generaliza en el marco R-CNN [11], la primera etapa genera un conjunto disperso de ubicaciones de objetos candidatos, y la segunda etapa utiliza una red neuronal convolucional para clasificar cada ubicación candidata en una de las clases de primer plano o de fondo. A través de una serie de avances [10, 28, 20, 14], este marco de dos etapas logra consistentemente la mayor precisión en el desafiante punto de referencia COCO [21].

  A pesar del éxito de los detectores de dos etapas, una pregunta natural es: ¿puede un detector simple de una sola etapa lograr una precisión similar? Se aplica un detector de una sola etapa para un muestreo denso y regular de ubicaciones, escalas y relaciones de aspecto de objetos. Estudios recientes sobre detectores de una sola etapa, como YOLO [26, 27] y SSD [22, 9], demuestran resultados prometedores, que arrojan precisiones entre el 10 y el 40 % en comparación con los detectores más rápidos con métodos de dos etapas de última generación. .

  Este artículo lleva este concepto un paso más allá: proponemos un detector de objetos de una sola etapa que por primera vez coincide con el COCO AP de última generación de detectores de dos etapas más complejos, como Feature Pyramid Network (FPN) [ 20] o variante Faster Mask R-CNN [14] de R-CNN [28]. Para lograr este resultado, identificamos el desequilibrio de clases durante el entrenamiento como el principal obstáculo que impide que los detectores de una sola etapa alcancen una precisión de última generación y proponemos una nueva función de pérdida para eliminar este obstáculo.

  El problema del desequilibrio de clases en detectores tipo CNN se aborda mediante una cascada de dos etapas y una heurística de muestreo. La etapa de propuesta (por ejemplo, búsqueda selectiva [35], cuadro de borde [39], máscara de profundidad [24, 25], RPN [28]) reduce rápidamente el número de ubicaciones de objetos candidatos a un número pequeño (por ejemplo, 1-2k ), para filtrar la mayoría de las muestras de fondo. En la segunda etapa de clasificación, se realizan heurísticas de muestreo, como una relación fija de primer plano a fondo (1:3) o minería de ejemplos físicos en línea (OHEM) [31] para mantener un equilibrio manejable entre el primer plano y el fondo.

  Por el contrario, los detectores de una sola etapa tienen que lidiar con un conjunto más grande de ubicaciones de objetos candidatos muestreadas regularmente en la imagen. En la práctica, esto normalmente equivale a enumerar alrededor de 100.000 ubicaciones que cubren densamente ubicaciones espaciales, escalas y relaciones de aspecto. Si bien también se pueden aplicar heurísticas de muestreo similares, son ineficientes porque el proceso de entrenamiento todavía está dominado por ejemplos de antecedentes fácilmente clasificados. Esta ineficiencia es un problema clásico en la detección de objetos y generalmente se aborda mediante técnicas como el bootstrapping [33, 29] o la minería de ejemplos difíciles [37, 8, 31].

  En este artículo, proponemos una nueva función de pérdida como una alternativa más eficiente a los métodos anteriores que abordan el desequilibrio de clases. La función de pérdida es una pérdida de entropía cruzada escalada dinámicamente, donde el factor de escala decae a cero a medida que aumenta la confianza en la clase correcta; consulte la Figura 1. De manera intuitiva, este factor de escala reduce automáticamente la contribución de ejemplos fáciles durante el entrenamiento y enfoca rápidamente el modelo en ejemplos difíciles. Los experimentos muestran que nuestra pérdida focal propuesta nos permite entrenar detectores de una sola etapa de alta precisión que superan significativamente a las alternativas entrenadas utilizando heurísticas de muestreo o minería de ejemplos difíciles, que previamente han entrenado detectores de una sola etapa. Finalmente, observamos que la forma exacta de la pérdida focal no importa y mostramos que otras instancias pueden lograr resultados similares.

  Para demostrar la efectividad de la pérdida focal propuesta, diseñamos un detector de objetos simple de una etapa llamado RetinaNet, llamado así por su denso muestreo de ubicaciones de objetos en la imagen de entrada. Su diseño presenta una pirámide de funciones eficiente dentro de la red y el uso de cajas de anclaje. Toma prestadas varias ideas de vanguardia de [22, 6, 28, 20]. RetinaNet es eficiente y preciso; nuestro mejor modelo, basado en una red troncal ResNet-101-FPN, logra un AP de desarrollo de prueba COCO de 39,1 cuando se ejecuta a 5 fotogramas por segundo, superando a los detectores de una y dos etapas publicados anteriormente. El mejor modelo resultados para , consulte la Figura 2.

2. Trabajo relacionado

Detectores de objetos clásicos : el paradigma de ventana deslizante de aplicar clasificadores a cuadrículas de imágenes densas tiene una larga y rica historia. Uno de los primeros éxitos fue el trabajo clásico de LeCun et al. Aplicó redes neuronales convolucionales al reconocimiento de dígitos escritos a mano [19, 36]. Viola y Jones [37] utilizaron detectores de objetos aumentados para la detección de rostros, lo que llevó a la adopción generalizada de dichos modelos. La introducción de HOG [4] y características holísticas del canal [5] produce un método eficaz para la detección de peatones. DPM [8] ayuda a extender los detectores densos a categorías de objetos más generales y logra los mejores resultados durante muchos años en PASCAL [7]. Si bien el enfoque de ventana deslizante fue el paradigma de detección dominante en la visión por computadora clásica, con el resurgimiento del aprendizaje profundo [18], los detectores de dos etapas descritos a continuación dominaron rápidamente la detección de objetos.

Detectores de dos etapas : el paradigma dominante de la detección de objetos modernos se basa en un enfoque de dos etapas. Como fue pionero en el trabajo de Búsqueda selectiva [35], la primera etapa genera un conjunto disperso de propuestas candidatas que deben contener todos los objetos mientras filtra la mayoría de las posiciones negativas, y la segunda etapa clasifica las propuestas como primer plano/fondo. R-CNN [11] actualizó el clasificador de segunda etapa a una red convolucional, lo que logró un gran aumento en la precisión y marcó el comienzo de la era moderna de la detección de objetos. R-CNN ha mejorado a lo largo de los años tanto en términos de velocidad [15, 10] como en el uso de propuestas de objetos aprendidos [6, 24, 28]. Region Proposal Network (RPN) integra la generación de propuestas con un clasificador de segunda etapa en una única red convolucional, formando un marco R-CNN más rápido [28]. Se han propuesto muchas extensiones a este marco, como [20, 31, 32, 16, 14].

Detectores de una sola etapa : OverFeat [30] es uno de los primeros detectores de objetos modernos de una sola etapa basado en redes profundas. Recientemente, SSD [22, 9] y YOLO [26, 27] han reavivado el interés en los métodos de una etapa. Estos detectores están sintonizados para la velocidad, pero su precisión está por detrás de los métodos de dos etapas. Los SSD tienen un AP entre un 10 y un 20 % menor, mientras que YOLO se centra en compensaciones más extremas entre velocidad y precisión. Ver Figura 2. Trabajos recientes han demostrado que los detectores de dos etapas se pueden implementar rápidamente simplemente reduciendo la resolución de la imagen de entrada y el número de propuestas, pero incluso con presupuestos computacionales más grandes, la precisión de los métodos de una sola etapa se queda atrás [17]. Por el contrario, el objetivo de este trabajo es ver si los detectores de una sola etapa pueden igualar o superar la precisión de los detectores de dos etapas mientras funcionan a velocidades similares o más rápidas.

  El diseño de nuestro detector RetinaNet comparte muchas similitudes con los detectores densos anteriores, especialmente el concepto de "ancla" introducido por RPN [28] y el uso de pirámides de funciones en SSD [22] y FPN [20]. Destacamos que los mejores resultados logrados por nuestro detector simple no se basan en innovaciones en el diseño de la red, sino en nuestra nueva pérdida.

Desequilibrio de clases : los métodos clásicos de detección de objetos de una etapa, como Boosted Detectors [37, 5] y DPM [8], así como métodos más recientes como SSD [22], enfrentan grandes desequilibrios de clases durante el entrenamiento. Estos detectores evalúan entre 104 y 105 ubicaciones candidatas por imagen, pero solo unas pocas ubicaciones contienen objetos. Este desequilibrio conduce a dos problemas: (1) la capacitación es ineficiente, ya que la mayoría de las posiciones son propensas a influencias negativas, lo que no proporciona ninguna señal de aprendizaje útil; (2) las influencias negativas simples pueden, en general, abrumar la capacitación y conducir a un modelo degradado. Una solución común es realizar algún tipo de minería negativa dura [33, 37, 8, 31, 22], muestrear ejemplos duros durante el entrenamiento o esquemas de muestreo/reponderación más complejos [2]. En cambio, mostramos que nuestra pérdida focal propuesta maneja naturalmente el desequilibrio de clases que enfrentan los detectores de una sola etapa y nos permite entrenar de manera eficiente en todos los ejemplos sin muestreo, ni la pérdida abrumadora negativa fácil y los gradientes calculados.

Estimación robusta : existe un gran interés en diseñar funciones de pérdida robustas (por ejemplo, pérdida de Huber [13]) que reduzcan la contribución de los valores atípicos ponderando la pérdida para ejemplos con grandes errores (ejemplos difíciles). En lugar de resolver los valores atípicos, nuestra pérdida focal aborda el desequilibrio de clases ponderando los valores atípicos (ejemplo simple) de modo que incluso si su número es grande, su contribución a la pérdida total es pequeña. En otras palabras, la pérdida focal desempeña el papel opuesto a la pérdida robusta: centra el entrenamiento en un conjunto escaso de ejemplos concretos.

3. Pérdida de concentración

  Focal Loss está diseñado para abordar escenarios de detección de objetos de una sola etapa donde hay un desequilibrio extremo (por ejemplo, 1:1000) entre las categorías de primer plano y de fondo durante el entrenamiento. Introducimos pérdidas focales a partir de la pérdida de entropía cruzada (CE) para la clasificación binaria (extender la pérdida focal al caso multiclase es sencillo y funciona bien; para simplificar, nos centramos en las pérdidas binarias en este trabajo):

inserte la descripción de la imagen aquí

En el ejemplo anterior, y ∈ {±1} especifica la clase de verdad fundamental, y p ∈ [0, 1] es la probabilidad estimada del modelo para la clase denominada y=1. Para facilitar la anotación, definimos pt p_tpagt:

inserte la descripción de la imagen aquí

今重写CE ( p , y ) = CE ( pt ) = − log ( pt ) CE(p,y)=CE(p_t)=-log(p_t)CE ( ​​p ,y )=CE ( pag.t)=l o g ( pt)

  La pérdida CE se muestra como la curva azul (arriba) en la Fig. 1. Una propiedad notable de esta pérdida es que incluso los ejemplos fácilmente clasificables ( pt > > .5 ) (p_t>>.5)( pag.t>>.5 ) también sufre pérdidas considerables, como se ve fácilmente en su gráfico. Estos pequeños valores de pérdida pueden abrumar a clases raras al resumir una gran cantidad de ejemplos sencillos.

3.1 Entropía cruzada de equilibrio

  Un enfoque común para abordar el desequilibrio de clases es introducir un factor de ponderación α ∈ [0,1] para la clase 1 y 1 − α para la clase −1. En la práctica, α puede establecerse mediante frecuencia inversa o verse como un hiperparámetro establecido mediante validación cruzada. Para facilitar la notación, definimos α t α_tatde una manera similar a definir pt p_tpagtEl camino. Escribimos la pérdida CE equilibrada en α como:

inserte la descripción de la imagen aquí

Esta pérdida es una simple extensión de CE, que consideramos como una base experimental para nuestra pérdida focal propuesta.

3.2 Definición de pérdida focal

  Como muestran nuestros experimentos, el gran desequilibrio de clases encontrado durante el entrenamiento de detectores densos supera la pérdida de entropía cruzada. Las clases negativas fáciles de clasificar constituyen la mayor parte de la pérdida y dominan el gradiente. Si bien α equilibró la importancia de los ejemplos positivos/negativos, no distingue entre ejemplos fáciles/difíciles. En cambio, proponemos remodelar la función de pérdida para aligerar el peso de los ejemplos fáciles, centrando así el entrenamiento en los aspectos negativos difíciles.

  Más formalmente, proponemos agregar un factor de modulación ( 1 − pt ) γ (1−p_t)^γ a la pérdida de entropía cruzada( 1pagt)γ , el parámetro de enfoque ajustable γ≥0. Definimos pérdida focal como:

inserte la descripción de la imagen aquí

  En la Figura 1, para γ ∈ [0, 5] γ ∈ [0, 5]CVarios valores de [ 0 , 5 ] , puede ver visualmente la pérdida de enfoque. Observamos dos propiedades de la pérdida focal. (1) Cuando un ejemplo está mal clasificado y pt es pequeño, el factor de modulación es cercano a 1 y la pérdida no se ve afectada. comopt → 1 p_t → 1pagt1 , el factor pasa a ser 0 y la pérdida de ejemplos bien clasificados se reduce. (2) Parámetro de enfoqueγ γγ ajusta suavemente la velocidad a la que se reducen los ejemplos simples. Cuandoγ = 0 γ=0C=0 , FL es equivalente a CE, y conγ γA medida que γ aumenta, también aumenta el efecto del factor de modulación (encontramosγ = 2 γ=2C=2 funcionó mejor en nuestros experimentos).

  Intuitivamente, el factor de modulación reduce la contribución de pérdida de ejemplos simples y amplía el rango en el que los ejemplos reciben baja pérdida. Por ejemplo, en γ = 2 γ=2C=2 , comparado con CE,pt = 0,9 p_t=0,9pagt=La pérdida para un ejemplo clasificado por 0,9 se reducirá en un factor de 100, mientras que en pt ≈ 0,968 p_t ≈ 0,968pagtEn el caso de 0,968, la pérdida se reducirá 1000 veces. Esto a su vez aumenta la importancia de corregir ejemplos mal clasificados (parapt ≤ .5 p_t≤.5pagt.5γ = 2 γ=2C=2 , su pérdida se puede reducir hasta 4 veces).

  En la práctica, utilizamos una variante α-equilibrada de la pérdida focal:

inserte la descripción de la imagen aquí

Adoptamos esta forma en nuestros experimentos debido a su precisión ligeramente mejorada con respecto a la forma no equilibrada. Finalmente, observamos que la implementación de la capa de pérdida combina la operación sigmoidea para calcular p con el cálculo de pérdida, lo que mejora la estabilidad numérica.

  Aunque en nuestros principales resultados experimentales utilizamos la definición anterior de pérdida focal, su forma precisa no es importante. En el apéndice consideramos otros casos de pérdida focal y mostramos que son igualmente efectivos.

3.3 Desequilibrio de clases e inicialización del modelo

  De forma predeterminada, los modelos de clasificación binaria se inicializan para generar y=-1 o 1 con la misma probabilidad. Con tal inicialización, la pérdida debida a categorías frecuentes domina la pérdida total y conduce a inestabilidad en el entrenamiento temprano cuando las categorías están desequilibradas. Para abordar esto, introducimos la noción de un "antes" para el valor p estimado por el modelo para la clase rara (primer plano) al comienzo del entrenamiento. Denotamos el prior por π y lo configuramos de modo que el modelo estime que p para instancias de clases raras sea bajo, digamos 0,01. Observamos que esto es un cambio en la inicialización del modelo (ver §4.1), no un cambio en la función de pérdida. Descubrimos que esto mejora la estabilidad del entrenamiento de la entropía cruzada y la pérdida focal en presencia de un desequilibrio de clases severo.

3.4 Desequilibrio de clases y detectores de dos etapas

  Los detectores de dos etapas generalmente se entrenan con pérdida de entropía cruzada en lugar de pérdida equilibrada α o nuestra pérdida propuesta. En cambio, abordan el desequilibrio de clases a través de dos mecanismos: (1) cascadas de dos etapas y (2) muestreo sesgado de microlotes. La primera etapa en cascada es un mecanismo de propuesta de objetos [35, 24, 28] que reduce el conjunto casi infinito de posibles ubicaciones de objetos a mil o dos mil. Es importante destacar que las propuestas seleccionadas no son aleatorias, sino que probablemente corresponden a ubicaciones de objetos reales, lo que elimina la gran mayoría de los negativos fáciles. Al entrenar la segunda etapa, a menudo se utiliza el muestreo sesgado para crear minilotes que contienen, por ejemplo, una proporción de 1:3 de ejemplos positivos a negativos. Esta relación actúa como un factor α equilibrado implícito implementado por muestreo. Nuestra pérdida focal propuesta tiene como objetivo abordar directamente estos mecanismos en sistemas de detección de una sola etapa a través de una función de pérdida.

4. Detector RetinaNet

  RetinaNet es una red unificada única que consta de una red troncal y dos subredes de tareas específicas. La columna vertebral es responsable de calcular los mapas de características convolucionales en toda la imagen de entrada y es una red no autoconvolucional. La primera subred realiza una clasificación convolucional de objetos en la salida de la red troncal; la segunda subred realiza una regresión convolucional del cuadro delimitador. Estas dos subredes se caracterizan por el diseño simple que proponemos específicamente para la detección densa de una etapa, consulte la Fig. 3. Si bien hay muchas opciones posibles para los detalles de estos componentes, como lo han demostrado los experimentos, la mayoría de los parámetros de diseño no son particularmente sensibles a los valores exactos. A continuación describimos cada componente de RetinaNet.

Columna vertebral de la red piramidal de funciones : adoptamos la Red piramidal de funciones (FPN) de [20] como la red troncal de RetinaNet. En resumen, FPN aumenta las redes convolucionales estándar con rutas de arriba hacia abajo y conexiones laterales, de modo que la red construye de manera eficiente pirámides de características ricas en múltiples escalas a partir de imágenes de entrada de resolución única, consulte la Fig. 3 (a) - (b). Cada nivel de la pirámide se puede utilizar para detectar objetos de diferentes escalas. FPN mejora la predicción multiescala de redes totalmente convolucionales (FCN) [23], como lo demuestran sus ganancias sobre RPN [28] y esquemas tipo DeepMask [24], así como en detectores de dos etapas como Fast R- CNN [10] o la ganancia en Mask R-CNN [14]).

  Siguiendo [20], construimos FPN sobre la arquitectura ResNet [16]. Construimos un sistema con nivel P 3 P_3PAG3a P 7 P_7PAG7pirámide, donde lll indica el nivel de la pirámide (P l P_lPAGyotiene una resolución 2 l 2^l menor que la entrada2l ). Como en [20], todos los niveles de la pirámide tienen C = 256 canales. Los detalles de la pirámide generalmente siguen [20], con algunas diferencias modestas (RetinaNet utiliza niveles de pirámide de característicasP 3 P_3PAG3a P 7 P_7PAG7, donde P 3 P_3PAG3a P5 P_5PAG5es el nivel residual del ResNet correspondiente usando conexiones de arriba hacia abajo y laterales ( C 3 C_3C3a C 5 C_5C5) se calcula como en [20], P6 se ​​calcula mediante C 5 C_5C5Obtenido en la convolución 3×3 stride-2, P 7 P_7PAG7se pasa en P 6 P_6PAG6Se calcula aplicando ReLU y convolución 3×3 stride-2. Esto es ligeramente diferente de [20]: (1) No utilizamos niveles piramidales P 2 de alta resolución por razones computacionales.PAG2,(2)P6P_6PAG6se calcula mediante convolución a zancadas en lugar de reducción de resolución, (3) incluimos P 7 P_7PAG7para mejorar la detección de objetos grandes. Estas modificaciones menores mejoran la velocidad manteniendo la precisión). Si bien muchas opciones de diseño no son críticas, enfatizamos que el uso de una red troncal FPN sí lo es; los experimentos preliminares que utilizan solo características de la capa ResNet final producen AP bajos.

Ancla : utilizamos cuadros de anclaje invariantes de traducción similares a los de la variante RPN en [20]. Los anclajes están al nivel de la pirámide P 3 P_3PAG3a P 7 P_7PAG7tiene 3 2 2 32^23 22 a51 2 2 512^251 22 zona. Como se describe en [20], en cada nivel de pirámide, utilizamos tres relaciones de aspecto{ 1 : 2 , 1 : 1 , 2 : 1 } \{1:2, 1:1, 2:1\}{ 1:2 1:1 2:1 } ancla. Para una cobertura de escala más densa que en [20], en cada nivel agregamos los 3 anclajes de relación de aspecto originales de tamaño{ 2 0 , 2 1 / 3 , 2 2 / 3 } \{2^0,2 ^{1/3} ,2^{2/3}\}{ 20 ,21/3 ,22/3 }ancla. Esto mejora AP en nuestra configuración. Hay un total de A = 9 anclajes por nivel, y en cada nivel cubren un rango de escala de 32 a 813 píxeles en relación con la imagen de entrada a la red.

  A cada ancla se le asigna un vector único de longitud K para objetivos de clasificación, donde K es el número de clases de objetivos, y un vector de 4 para objetivos de regresión de caja. Usamos la regla de asignación de RPN [28] pero la modificamos para la detección de clases múltiples y ajustamos el umbral. Específicamente, los anclajes se asignan a cajas de objetos de verdad sobre el terreno utilizando un umbral de Intersección sobre Unión (IoU) de 0,5; si su IoU está en [0, 0,4, se configuran como fondo). Dado que cada ancla está asignada como máximo a un cuadro de objeto, establecemos la entrada correspondiente en su vector de etiqueta de longitud K en 1 y todas las demás entradas en 0. Si no se asigna ningún ancla (posiblemente superpuesta en [0.4, 0.5)), se ignora durante el entrenamiento. El objetivo de regresión del cuadro se calcula como el desplazamiento entre cada ancla y su cuadro de destino asignado, que se ignora si no hay asignación.

inserte la descripción de la imagen aquí

Figura 3. La arquitectura de red RetinaNet de una sola etapa utiliza una columna vertebral de Feature Pyramid Network (FPN) [20] sobre una arquitectura ResNet feed-forward [16] (a) para generar ricas pirámides de características convolucionales de múltiples escalas (b). En esta columna vertebral, RetinaNet conecta dos subredes, una subred se usa para clasificar cuadros de anclaje (c) y la otra subred se usa para retroceder desde cuadros de anclaje a cuadros de destino de verdad terrestre (d). El diseño de la red es intencionalmente simple, lo que permite que este trabajo se centre en una nueva función de pérdida focal que cierra la brecha de precisión entre nuestro detector de una sola etapa y los detectores de dos etapas de última generación, como los que tienen FPN [20]. Es R-CNN más rápido mientras corre a una velocidad más rápida.

Subred de clasificación : la subred de clasificación predice la probabilidad de que exista un objeto en cada ubicación espacial para cada una de las clases de objetos A y K. Esta subred es una pequeña FCN conectada a cada nivel de FPN; los parámetros de esta subred se comparten en todos los niveles de la pirámide. Su diseño es sencillo. Tomando un mapa de características de entrada con canales C de un nivel piramidal determinado, la subred aplica cuatro capas de conversión de 3 × 3, cada capa tiene un filtro C, cada capa es seguida por una activación ReLU y luego una capa de conversión de 3 × con un KA. filtro 3 capas conv. Finalmente, se agrega una activación sigmoidea para generar la predicción binaria KA para cada ubicación espacial, consulte la Fig. 3 (c). En la mayoría de los experimentos, utilizamos C=256 y A=9. En comparación con RPN [28], nuestra subred de clasificación de objetos es más profunda, usa solo CONV 3 × 3 y no comparte parámetros con la subred de regresión de cuadro (descrita a continuación). Descubrimos que estas decisiones de diseño de nivel superior son más importantes que los valores específicos de los hiperparámetros.

Subred de regresión de caja : en paralelo a la subred de clasificación de objetos, adjuntamos otro FCN pequeño a cada nivel de pirámide, con el objetivo de hacer una regresión del desplazamiento (si está presente) de cada caja de anclaje a los objetos de verdad terrestre cercanos. El diseño de la subred de regresión de caja es el mismo que el de la subred de clasificación, excepto que termina en una salida lineal 4A en cada ubicación espacial, consulte la Fig. 3 (d). Para cada ancla A en cada ubicación espacial, las 4 salidas predicen el desplazamiento relativo entre el ancla y el cuadro de verdad sobre el terreno (utilizamos la parametrización de cuadro estándar de R-CNN [11]). Observamos que, a diferencia del trabajo reciente, utilizamos un regresor de cuadro delimitador independiente de la clase que utiliza menos parámetros, lo que nos parece igualmente efectivo. La subred de clasificación de objetos y la subred de regresión de cuadros, aunque comparten una estructura común, utilizan parámetros diferentes.

4.1 Inferencia y entrenamiento

Inferencia : RetinaNet forma un único FCN que consta de una red troncal ResNet FPN, una subred de clasificación y una subred de regresión de caja; consulte la Figura 3. Por tanto, la inferencia consiste en simplemente reenviar la imagen a través de la red. Para mayor velocidad, después de establecer el umbral de confianza del detector en 0,05, solo decodificamos las predicciones del cuadro de hasta 1.000 predicciones de máxima puntuación por nivel de FPN. Se combinan las principales predicciones de todos los niveles y se aplica una supresión no máxima con un umbral de 0,5 para producir detecciones finales.

Pérdida focal : utilizamos la pérdida focal introducida en este trabajo como pérdida en la salida de la subred de clasificación. Como mostraremos en el §5, encontramos que γ = 2 funciona bien en la práctica y que RetinaNet es relativamente robusto a γ ​​∈ [0.5, 5]. Destacamos que cuando se entrena RetinaNet, la pérdida focal se aplica a todos los anclajes de ~100k en cada imagen muestreada. Esto contrasta con la práctica común de seleccionar un pequeño conjunto de anclajes (por ejemplo, 256) para cada mini lote mediante muestreo heurístico (RPN) o minería de ejemplos difíciles (OHEM, SSD). La pérdida focal total de una imagen se calcula como la suma de las pérdidas focales para todos los anclajes de ~100k, normalizada por el número de anclajes asignados al cuadro de verdad sobre el terreno. Realizamos la normalización especificando el número de anclajes en lugar del número total de anclajes, ya que la gran mayoría de los anclajes son fácilmente negativos y reciben valores de pérdida insignificantes bajo la pérdida focal. Finalmente, observamos que el peso α asignado a clases raras también tiene un rango estable, pero interactúa con γ, por lo que es necesario elegir ambos juntos (ver Tablas 1a y 1b). En general, α debería disminuir ligeramente a medida que γ aumenta (para γ=2, α=0,25 funciona mejor).

Inicialización : realizamos experimentos con las redes troncales ResNet-50-FPN y ResNet-101-FPN [20]. Los modelos básicos ResNet-50 y ResNet-101 están preentrenados en ImageNet1k; utilizamos los modelos publicados en [16]. Las nuevas capas agregadas para FPN se inicializan como se describe en [20]. Excepto la última capa en la subred RetinaNet, todas las capas de conversión nuevas se inicializan con un relleno de peso gaussiano con un sesgo b=0 y σ=0,01. Para la capa de conversión final de la subred de clasificación, configuramos la inicialización del sesgo en b = − log ( ( 1 − π ) / π ) b=−log((1−π)/π)b=l o g (( 1π ) / π ) , donde π especifica que al comienzo del entrenamiento, cada ancla debe etiquetarse como primer plano con confianza ~π. Usamos π = .01 en todos los experimentos, aunque los resultados son robustos a los valores exactos. Como se describe en §3.3, esta inicialización evita que una gran cantidad de anclajes de fondo produzcan valores de pérdida grandes e inestables en la primera iteración del entrenamiento.

inserte la descripción de la imagen aquí

Tabla 1. Experimentos de ablación en RetinaNet y pérdida focal (FL) . A menos que se indique lo contrario, todos los modelos se entrenan en trainval35k y se prueban en minival. Si no se especifica, los valores predeterminados son: γ = 2; anclajes para 3 escalas y 3 relaciones de aspecto; una red troncal ResNet-50-FPN; y una secuencia y una escala de imagen de prueba de 600 píxeles. (a) RetinaNet con CE con equilibrio α alcanza hasta 31,1 AP. (b) Por el contrario, el uso de FL con exactamente la misma red logra una ganancia AP de 2,9 y es bastante robusto a la configuración exacta de γ/α. (c) El uso de anclajes de escala 2-3 y 3 relaciones de aspecto produce buenos resultados, después de lo cual el rendimiento se satura. (d) FL supera a la mejor variante de Minería de ejemplos difíciles en línea (OHEM) [31, 22] con AP de 3 puntos. (e) Compensación entre precisión y velocidad de RetinaNet en el desarrollo de pruebas en varias profundidades de red y escalas de imagen (ver también la Fig. 2).

Optimización : RetinaNet se entrena utilizando Stochastic Gradient Descent (SGD). Usamos SGD síncrono en 8 GPU con un total de 16 imágenes por minibatch (2 imágenes por GPU). A menos que se especifique lo contrario, todos los modelos se entrenaron con una tasa de aprendizaje inicial de 0,01 para 90.000 iteraciones, luego se dividieron por 10 en 60.000 iteraciones y nuevamente por 10 en 80.000 iteraciones. A menos que se indique lo contrario, utilizamos el volteo horizontal de imágenes como única forma de aumento de datos. Utilice una caída de peso de 0,0001 y un impulso de 0,9. La pérdida de entrenamiento es la suma de la pérdida focal y la pérdida L1 de suavizado estándar para la regresión de caja [10]. Para los modelos de la Tabla 1e, el tiempo de formación oscila entre 10 y 35 horas.

5. Experimentar

  Presentamos resultados experimentales en la pista de detección de cuadros delimitadores del desafiante punto de referencia COCO [21]. Para el entrenamiento, seguimos prácticas comunes [1, 20] y utilizamos la división COCO trainval35k (la unión de 80k imágenes del entrenamiento y un subconjunto aleatorio de 35k imágenes de la división val de 40k de imágenes). Informamos estudios de deterioro y sensibilidad mediante la evaluación de la partición minival (5k imágenes restantes de val). Para nuestros resultados principales, informamos COCO-AP para la división test-dev, que no tiene etiquetas públicas y requiere el uso de un servidor de evaluación.

5.1 Entrenamiento de detección densa

  Realizamos experimentos extensos para analizar el comportamiento de la función de pérdida para detección densa y diversas estrategias de optimización. Para todos los experimentos, utilizamos ResNets de profundidad 50 o 101 [16] y construimos Feature Pyramid Network (FPN) [20] en la parte superior. Para todos los estudios de ablación, utilizamos una escala de imagen de 600 píxeles para entrenamiento y prueba.

Inicialización de la red : nuestro primer intento de entrenar RetinaNet utiliza la pérdida de entropía cruzada (CE) estándar sin ninguna modificación en la estrategia de inicialización o aprendizaje. Esto falla rápidamente y la red diverge durante el entrenamiento. Sin embargo, se puede lograr un aprendizaje eficiente simplemente inicializando la última capa de nuestro modelo de modo que la probabilidad previa de detectar un objeto sea π = 0,01 (ver §4.1). Al entrenar RetinaNet con ResNet-50, esta inicialización ha arrojado un AP respetable de 30,2 en COCO. Los resultados no son sensibles al valor exacto de π, por lo que utilizamos π = 0,01 para todos los experimentos.

inserte la descripción de la imagen aquí

Figura 4. Funciones de distribución acumulativa de pérdidas normalizadas para muestras positivas y negativas para diferentes valores de γ en el modelo convergente. Para ejemplos positivos, cambiar γ tiene poco efecto en la distribución de pérdidas. Sin embargo, para los ejemplos negativos, el aumento de γ hace que la pérdida se centre en gran medida en ejemplos difíciles, desviando casi toda la atención de los ejemplos negativos fáciles.

Entropía cruzada equilibrada : nuestro próximo intento de mejorar el aprendizaje implica el uso de la pérdida CE equilibrada α descrita en §3.1. Los resultados para varios α se muestran en la Tabla 1a. Configurar α=0,75 da una ganancia de AP de 0,9.

Pérdida focal : los resultados utilizando nuestra pérdida focal propuesta se muestran en la Tabla 1b. La pérdida focal introduce un nuevo hiperparámetro, el parámetro focal γ, que controla la fuerza del término de modulación. Cuando γ = 0, nuestra pérdida es equivalente a la pérdida de CE. A medida que γ aumenta, la forma de la pérdida cambia, por lo que los ejemplos "fáciles" con pérdidas bajas se descuentan aún más (consulte la Figura 1). Al aumentar γ, FL muestra una ganancia mayor que CE. Con γ=2, FL mejora 2.9AP sobre la pérdida de CE con equilibrio α.

  Para los experimentos de la Tabla 1b, encontramos el mejor α para cada γ para una comparación justa. Observamos que para γ más alto, se elige α más bajo (se requiere menos énfasis en los aspectos positivos ya que los negativos fáciles están ponderados). Sin embargo, en general, los beneficios de variar γ son mucho mayores y, de hecho, el mejor α está solo en el rango [0,25, 0,75] (probamos α ∈ [0,01, 0,999]). Usamos γ = 2.0 y α = .25 en todos los experimentos, pero α = .5 es casi igual de efectivo (menor .4AP).

Análisis de pérdida focal : para comprender mejor la pérdida focal, analizamos la distribución empírica de la pérdida del modelo convergente. Para esto, adoptamos el modelo predeterminado ResNet-101 de 600 píxeles entrenado con γ = 2 (con 36.0 AP). Aplicamos el modelo a una gran cantidad de imágenes aleatorias, y para $10^7$ ventanas negativas y 1 0 5 10^51 0Se muestrean las probabilidades previstas de las 5 ventanas positivas. A continuación, para positivos y negativos, calculamos el FL de estas muestras por separado y normalizamos la pérdida para que sume 1. Dada una pérdida normalizada, podemos ordenar las pérdidas de menor a mayor y trazar la función de distribución acumulativa (CDF) de muestras positivas y negativas y diferentes configuraciones de γ (incluso si el modelo fue entrenado con γ=2).

  Las funciones de distribución acumulativa de muestras positivas y negativas se muestran en la Fig. 4. Si observamos las muestras positivas, vemos que las CDF para diferentes valores de γ parecen bastante similares. Por ejemplo, alrededor del 20% de las muestras positivas más difíciles representan aproximadamente la mitad de la pérdida positiva y, a medida que γ aumenta, se concentra más pérdida en el 20% superior de las muestras, pero el efecto es pequeño.

  El efecto de γ en muestras negativas fue significativamente diferente. Para γ=0, las CDF positivas y negativas son muy similares. Sin embargo, a medida que γ aumenta, se centran más ponderaciones en ejemplos negativos duros. De hecho, cuando γ = 2 (nuestra configuración predeterminada), la gran mayoría de la pérdida proviene de una pequeña cantidad de muestras. Se puede ver que FL puede efectivamente restar importancia al efecto de las negativas fáciles y centrar toda la atención en ejemplos negativos difíciles.

Minería de ejemplos duros en línea (OHEM) : [31] propone mejorar el entrenamiento de detectores de dos etapas mediante la construcción de minilotes con ejemplos de alta pérdida. Específicamente, en OHEM, cada ejemplo se califica según su pérdida, luego se aplica la supresión no máxima (NMS) y se crean minilotes con los ejemplos con la mayor pérdida. El umbral de nms y el tamaño del lote son parámetros ajustables. Al igual que la pérdida focal, OHEM pone más énfasis en ejemplos mal clasificados, pero a diferencia de FL, OHEM descarta por completo los ejemplos fáciles. También implementamos una variante de OHEM utilizada en SSD [22]: después de aplicar nms a todos los ejemplos, construimos minilotes para imponer una proporción de 1:3 entre positivos y negativos, para ayudar a garantizar que cada minilote tuviera suficientes positivos cada tiempo.

  Probamos dos variantes de OHEM en el contexto de la detección de una etapa, que tiene un gran desequilibrio de clases. Los resultados de la estrategia OHEM original y la estrategia "OHEM 1:3" para tamaños de lote seleccionados y umbrales de nms se muestran en la Tabla 1d. Estos resultados utilizan ResNet-101; nuestra línea de base entrenada con FL logra 36,0 AP en esta configuración. Por el contrario, la mejor configuración de OHEM (sin relación 1:3, tamaño de lote 128, nms 0,5) logra 32,8 AP. Esta es una brecha de 3,2 AP, lo que demuestra que FL es más eficaz que OHEM en el entrenamiento de detectores densos. Observamos que probamos otras configuraciones de parámetros y variantes de OHEM sin mejores resultados.

Pérdida de bisagra : finalmente, en experimentos anteriores intentamos usar pt p_tpagtLa pérdida de bisagra [13] en el entrenamiento, la pérdida en pt p_tpagtEstablecer en 0 por encima de un cierto valor. Sin embargo, esto es inestable y no pudimos obtener resultados significativos. Los resultados de la exploración de funciones de pérdida alternativas se dan en el apéndice.

inserte la descripción de la imagen aquí

Tabla 2. Resultados de un solo modelo de detección de objetos (cuadro delimitador AP) frente a lo último en pruebas de desarrollo de COCO. Mostramos los resultados de nuestro modelo RetinaNet-101-800, entrenado con fluctuación proporcional, que tarda 1,5 veces más que el mismo modelo en la Tabla 1e. Nuestro modelo logra los mejores resultados, superando a los modelos de una y dos etapas. Consulte la Tabla 1e y la Figura 2 para obtener un desglose detallado de la velocidad frente a la precisión.

5.2 Diseño de arquitectura modelo

Densidad de anclaje : Uno de los factores de diseño más importantes en un sistema de detección de una sola etapa es la densidad con la que cubre el espacio de posibles cuadros de imagen. Los detectores de dos etapas pueden clasificar cajas en cualquier ubicación, escala y relación de aspecto mediante operaciones de agrupación de regiones [10]. Por el contrario, dado que los detectores de una sola etapa utilizan una cuadrícula de muestreo fija, entre estos métodos una forma popular de lograr una alta cobertura de caja es utilizar múltiples "anclajes" [28] en cada ubicación espacial para cubrir cada caja de varias escalas y relaciones de aspecto. .

  Realizamos un barrido del número de anclajes de escala y relación de aspecto utilizados por ubicación espacial y por nivel de pirámide en FPN. Consideramos casos que van desde un único ancla cuadrada por posición hasta 12 anclas por posición que abarcan 4 escalas de sub-octava ( 2 k / 4 2^{k/4}2k /4 , para k ≤ 3) y 3 relaciones de aspecto [0,5, 1, 2]. Los resultados utilizando ResNet-50 se muestran en la Tabla 1c. Se logra un AP sorprendentemente bueno (30.3) usando solo un ancla cuadrada. Sin embargo, cuando se utilizan 3 escalas y 3 relaciones de aspecto por ubicación, el AP mejora en casi 4 puntos (a 34,0). Utilizamos esta configuración en todos los demás experimentos de este trabajo.

  Finalmente, observamos que las anclas más allá de 6-9 no muestran más ganancias. Así, mientras que un sistema de dos etapas puede clasificar cajas arbitrarias en una imagen, la saturación del rendimiento con respecto a la densidad significa que la mayor densidad latente de un sistema de dos etapas puede no conferir una ventaja.

Velocidad frente a precisión : las redes troncales más grandes producen una mayor precisión, pero también una inferencia más lenta. Lo mismo ocurre con la escala de la imagen de entrada (definida por el lado más corto de la imagen). Mostramos el efecto de estos dos factores en la Tabla 1e. En la Figura 2, trazamos la curva de equilibrio entre velocidad y precisión para RetinaNet y la comparamos con un método reciente que utiliza números públicos en COCO test-dev. La figura muestra que debido a nuestra pérdida focal, RetinaNet forma un límite superior entre todos los métodos existentes, independientemente de los esquemas de baja precisión. RetinaNet con ResNet-101-FPN y una escala de imagen de 600 píxeles (para simplificar, lo designamos como RetinaNet-101-600) coincide con la precisión del ResNet-101-FPN Faster R-CNN [20] lanzado recientemente, mientras que el tiempo de ejecución por imagen fue de 122 ms frente a 172 ms (ambos medidos en una GPU Nvidia M40). El uso de un tamaño mayor permite a RetinaNet superar la precisión de todos los métodos de dos etapas y, al mismo tiempo, seguir siendo más rápido. Para un tiempo de ejecución más rápido, solo un punto de operación (entrada de 500 píxeles) mejora con ResNet-50-FPN sobre ResNet-101-FPN. Abordar mecanismos de alta velocidad de cuadros puede requerir diseños de red especiales, como se describe en [27], lo cual está más allá del alcance de este trabajo. Observamos que después de la publicación, la variante R-CNN más rápida en [12] ahora logra resultados más rápidos y precisos.

5.3 Comparación con tecnologías existentes

  Evaluamos RetinaNet en el desafiante conjunto de datos COCO y comparamos los resultados del desarrollo de pruebas con métodos recientes de última generación, incluidos modelos de una y dos etapas. Los resultados se muestran en la Tabla 2 para nuestro modelo RetinaNet-101-800 entrenado con fluctuación proporcional 1,5 veces más larga que el modelo de la Tabla 1e (dando una ganancia AP de 1,3). En comparación con los métodos existentes de una etapa, nuestro método logra una saludable brecha AP de 5,9 puntos (39,1 frente a 33,2) con el competidor más cercano, DSSD [9], y al mismo tiempo es más rápido, consulte la Fig. 2. En comparación con los métodos recientes de dos etapas, RetinaNet supera al modelo Faster R-CNN de mayor rendimiento basado en Inception-ResNet-v2-TDM [32] en 2,3 puntos porcentuales. La inserción de ResNeXt-32x8d-101-FPN [38] como columna vertebral de RetinaNet mejora aún más 1,7 AP, superando los 40 AP en COCO.

6. Conclusión

  En este trabajo, identificamos el desequilibrio de clases como el principal obstáculo que impide que los detectores de objetos de una sola etapa superen a los métodos de dos etapas de mejor rendimiento. Para abordar esto, proponemos la pérdida focal, que aplica un término de modulación a la pérdida de entropía cruzada para centrar el aprendizaje en ejemplos negativos difíciles. Nuestro método es simple y eficiente. Demostramos su eficacia diseñando un detector de una sola etapa totalmente convolucional e informamos un análisis experimental extenso que muestra precisión y velocidad de última generación. El código fuente se encuentra en https://github.com/facebookresearch/Detectron[12]

inserte la descripción de la imagen aquí

Figura 5. Como xt = yx x_t=yxXt=Función de y x , cambio en la pérdida focal en comparación con la entropía cruzada. Para ejemplos bien clasificados( xt > 0 ) (x_t>0)( xt>0 ) , tanto el FL original como la variante alternativa FL* reducen la pérdida relativa.

inserte la descripción de la imagen aquí

Tabla 3. FL y FL* versus CE para entornos seleccionados.

Apéndice A: Pérdida focal*

  La forma exacta de pérdida de enfoque no es crítica. Ahora mostramos otro ejemplo de pérdida focal que tiene propiedades similares y produce resultados comparables. Lo siguiente también proporciona más información sobre las propiedades de la pérdida focal.

  Primero consideramos la entropía cruzada (CE) y la pérdida focal (FL) en una forma ligeramente diferente al texto principal. Específicamente, definimos una cantidad xt x_tXtcomo sigue:

inserte la descripción de la imagen aquí

donde y ∈ { ± 1 } y ∈ \{±1\}y{ ± 1 } especifica la clase de verdad como antes. Entonces podemos escribirpt = σ( xt ) p_t=σ(x_t)pagt=s ( xt) (esto es lo mismo que pt p_ten la ecuación 2pagtdefinición compatible). cuando xt > 0 x_t>0Xt>0 , un ejemplo está correctamente clasificado, en este casopt > .5 p_t>.5pagt>.5

Ahora podemos usar xt x_tXtdefinir otra forma de pérdida focal. Para pt ∗ p^*_tpagtFL ∗ FL*FL se define de la siguiente manera:

inserte la descripción de la imagen aquí

FL tiene dos parámetros, γ y β, que controlan la pendiente y el desplazamiento de la curva de pérdidas. Trazamos FL, CE y FL para dos configuraciones seleccionadas γ y β en la Fig. 5. Se puede ver que, al igual que FL, FL* con parámetros seleccionados reduce la pérdida asignada a ejemplos bien clasificados.

  Entrenamos RetinaNet-50-600 usando la misma configuración que antes, pero reemplazamos FL con FL* con parámetros seleccionados. Estos modelos logran casi el mismo AP que los entrenados con FL, ver Tabla 3. En otras palabras, FL* es una alternativa razonable a FL que funciona bien en la práctica.

  Descubrimos que varias configuraciones gamma y beta dieron buenos resultados. En la Fig. 7 mostramos los resultados de RetinaNet-50-600 con FL* bajo un amplio conjunto de parámetros. El gráfico de pérdida está codificado por colores de modo que las configuraciones válidas (modelo convergente y AP superior a 33,5) se muestran en azul. Por simplicidad, utilizamos α = 0,25 en todos los experimentos. Se puede ver que reduciendo los ejemplos bien clasificados ( xt > 0 ) (x_t>0)( xt>0 ) la pérdida de peso es efectiva.

  De manera más general, esperamos que cualquier función de pérdida con propiedades similares a FL o FL* sea igualmente efectiva.

inserte la descripción de la imagen aquí

Figura 6. Derivación de la función de pérdida con respecto a x según la Figura 5.

inserte la descripción de la imagen aquí

Figura 7. La efectividad de FL* bajo diferentes configuraciones de γ y β. Los gráficos están codificados por colores, por lo que las configuraciones válidas se muestran en azul.

Apéndice B: Derivados

  Como referencia, las derivadas de CE, FL y FL* con respecto a x son:

inserte la descripción de la imagen aquí

En la Figura 6 se muestra un gráfico de los ajustes seleccionados. Para todas las funciones de pérdida, la derivada tiende a ser -1 o 0 para predicciones de alta confianza. Sin embargo, a diferencia de CE, para configuraciones válidas de FL y FL*, siempre que xt > 0 x_t>0Xt>0 , la derivada es muy pequeña.

Referencias

[1] S. Bell, CL Zitnick, K. Bala y R. Girshick. Red interior-exterior: detección de objetos en contexto con agrupación de saltos y redes neuronales recurrentes. En CVPR, 2016. 6
[2] SR Bulo, G. Neuhold y P. Kontschieder. Maxpooling de pérdida para segmentación de imágenes semánticas. En CVPR, 2017.3
[3] J. Dai, Y. Li, K. He y J. Sun. R-FCN: Detección de objetos a través de redes totalmente convolucionales basadas en regiones. En NIPS, 2016. 1
[4] N. Dalal y B. Triggs. Histogramas de gradientes orientados para detección humana. En CVPR, 2005. 2
[5] P. Dollar´ar, Z. Tu, P. Perona y S. Belongie. Funciones integrales del canal. En BMVC, 2009. 2, 3
[6] D. Erhan, C. Szegedy, A. Toshev y D. Anguelov. Detección de objetos escalable mediante redes neuronales profundas. En CVPR, 2014.2
[7] M. Everingham, L. Van Gool, CK Williams, J. Winn y A. Zisserman. El desafío PASCAL de clases de objetos visuales (VOC). IJCV, 2010. 2
[8] PF Felzenszwalb, RB Girshick y D. McAllester. Detección de objetos en cascada con modelos de piezas deformables. En CVPR, 2010. 2, 3
[9] C.-Y. Fu, W. Liu, A. Ranga, A. Tyagi y AC Berg. DSSD: Detector deconvolucional de disparo único. arXiv:1701.06659, 2016. 1, 2, 8
[10] R. Girshick. R-CNN rápido. En ICCV, 2015. 1, 2, 4, 6, 8
[11] R. Girshick, J. Donahue, T. Darrell y J. Malik. Ricas jerarquías de funciones para una detección precisa de objetos y una segmentación semántica. En CVPR, 2014. 1, 2, 5
[12] R. Girshick, I. Radosavovic, G. Gkioxari, P. Doll´ar y K. He. Detectrón. https://github.com/facebookresearch/detectron, 2018. 8
[13] T. Hastie, R. Tibshirani y J. Friedman. Los elementos del aprendizaje estadístico. Serie de Springer en estadística Springer, Berlín, 2008. 3, 7
[14] K. He, G. Gkioxari, P. Doll´ar y R. Girshick. Máscara R-CNN. En ICCV, 2017. 1, 2, 4
[15] K. He, X. Zhang, S. Ren y J. Sun. Agrupación de pirámides espaciales en redes convolucionales profundas para reconocimiento visual. En ECVC. 2014. 2
[16] K. He, X. Zhang, S. Ren y J. Sun. Aprendizaje residual profundo para el reconocimiento de imágenes. En CVPR, 2016. 2, 4, 5, 6, 8
[17] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y .Song, S. Guadarrama y K. Murphy. Compensaciones entre velocidad y precisión para los detectores de objetos convolucionales modernos. En CVPR, 2017. 2, 8
[18] A. Krizhevsky, I. Sutskever y G. Hinton. Clasificación de ImageNet con redes neuronales convolucionales profundas. En NIPS, 2012. 2
[19] Y. LeCun, B. Boser, JS Denker, D. Henderson, RE Howard, W. Hubbard y LD Jackel. Propagación hacia atrás aplicada al reconocimiento de códigos postales escritos a mano. Computación neuronal, 1989. 2
[20] T.-Y. Lin, P. Doll´ar, R. Girshick, K. He, B. Hariharan y S. Belongie. Presenta redes piramidales para la detección de objetos. En CVPR, 2017. 1, 2, 4, 5, 6, 8
[21] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll´ar y CL Zitnick. Microsoft COCO: objetos comunes en contexto. En ECCV, 2014. 1, 6
[22] W. Liu, D. Anguelov, D. Erhan, C. Szegedy y S. Reed. SSD: Detector multibox de disparo único. En ECCV, 2016. 1, 2, 3, 6, 7, 8
[23] J. Long, E. Shelhamer y T. Darrell. Redes totalmente convolucionales para segmentación semántica. En CVPR, 2015. 4
[24] PO Pinheiro, R. Collobert y P. Dollar. Aprender a segmentar objetos candidatos. En NIPS, 2015. 2, 4
[25] PO Pinheiro, T.-Y. Lin, R. Collobert y P. Dollar´ar. Aprender a refinar segmentos de objetos. En ECCV, 2016. 2
[26] J. Redmon, S. Divvala, R. Girshick y A. Farhadi. Solo miras una vez: Detección de objetos unificada y en tiempo real. En CVPR, 2016. 1, 2
[27] J. Redmon y A. Farhadi. YOLO9000: Mejor, más rápido, más fuerte. En CVPR, 2017. 1, 2, 8
[28] S. Ren, K. He, R. Girshick y J. Sun. R-CNN más rápido: hacia la detección de objetos en tiempo real con redes de propuesta de región. En NIPS, 2015. 1, 2, 4, 5, 8
[29] H. Rowley, S. Baluja y T. Kanade. Detección de rostros humanos en escenas visuales. Informe técnico CMU-CS-95-158R, Universidad Carnegie Mellon, 1995. 2
[30] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus e Y. LeCun. Overfeat: reconocimiento, localización y detección integrados mediante redes convolucionales. En ICLR, 2014.2
[31] A. Shrivastava, A. Gupta y R. Girshick. Entrenamiento de detectores de objetos basados ​​en regiones con minería de ejemplos en línea. En CVPR, 2016. 2, 3, 6, 7
[32] A. Shrivastava, R. Sukthankar, J. Malik y A. Gupta. Más allá de las conexiones de salto: modulación de arriba hacia abajo para la detección de objetos. arXiv:1612.06851, 2016. 2, 8
[33] K.-K. Sung y T. Poggio. Aprendizaje y selección de ejemplos para la detección de objetos y patrones. En el Memorándum n.º 1521 del MIT AI, 1994. 2, 3
[34] C. Szegedy, S. Ioffe, V. Vanhoucke y AA Alemi. Inception-v4, inception-resnet y el impacto de las conexiones residuales en el aprendizaje. En Conferencia AAAI sobre Inteligencia Artificial, 2017. 8
[35] JR Uijlings, KE van de Sande, T. Gevers y AW Smeulders. Búsqueda selectiva de reconocimiento de objetos. IJCV, 2013. 2, 4
[36] R. Vaillant, C. Monrocq e Y. LeCun. Enfoque original para la localización de objetos en imágenes. Proceso EEI sobre visión, imágenes y procesamiento de señales, 1994. 2
[37] P. Viola y M. Jones. Detección rápida de objetos mediante una cascada mejorada de funciones simples. En CVPR, 2001. 2, 3
[38] S. Xie, R. Girshick, P. Doll´ar, Z. Tu y K. He. Transformaciones residuales agregadas para redes neuronales profundas. En CVPR, 2017. 8
[39] CL Zitnick y P. Doll´ar. Cuadros de borde: localización de propuestas de objetos desde los bordes. En ECCV, 2014. 2

Supongo que te gusta

Origin blog.csdn.net/i6101206007/article/details/132132682
Recomendado
Clasificación