Descripción general de la detección de objetivos - SSD en la segunda parte

SSD(Detector MultiBox de disparo único)

Dirección de papel SSD: https://arxiv.org/abs/1512.02325
El papel SSD usa VGG16 para extraer mapas de características. Luego, use la capa Conv4_3 para detectar objetos, que es una red clásica de etapas . Estructura de red:

Por favor agregue una descripción de la imagen

Pasos del algoritmo

  • Ingrese una imagen, deje que la imagen extraiga características a través de una red neuronal convolucional (CNN) y genere un mapa de características
  • Extraiga el mapa de características de seis capas (escala múltiple) y luego genere un cuadro predeterminado en cada punto del mapa de características
  • Recopile todos los cuadros predeterminados generados, colóquelos todos en NMS (supresión de valor máximo), emita los cuadros predeterminados filtrados y emita

SSD combina la idea de regresión en YOLO y el mecanismo de anclaje en Faster-RCNN (llamado Defalut Box en el documento ), y utiliza las áreas de múltiples escalas de cada posición de la imagen completa para la regresión, que no solo mantiene la velocidad rápida de YOLO , pero también garantiza la ventana La predicción es tan precisa como Faster-RCNN. El núcleo de SSD es usar núcleos de convolución en mapas de características de diferentes escalas para predecir la categoría y el desplazamiento de coordenadas de una serie de cuadros delimitadores predeterminados . El diseño del núcleo SSD principalmente tiene los siguientes tres puntos:

1. Escala múltiple

Conv4_3, c, conv8_2, conv7_2, conv8_2, conv9_2, conv10_2, conv11_2 mapas de características de diferentes tamaños se utilizan en el algoritmo SSD. El propósito es detectar con precisión objetos de diferentes escalas, porque en el mapa de características de bajo nivel, el campo receptivo Es relativamente pequeño, y el campo receptivo de alto nivel es relativamente grande.La convolución en diferentes mapas de características puede lograr propósitos de múltiples escalas.
Por favor agregue una descripción de la imagen
Hacer coincidir objetos más pequeños en mapas de características a mayor escala (a), hacer coincidir objetos más grandes en mapas de características más profundos (b),
inserte la descripción de la imagen aquí

2. Use la capa convolucional en lugar de la capa totalmente conectada para la predicción

SSD no utiliza capas completamente conectadas. Calcula las puntuaciones de ubicación y clase utilizando pequeños filtros convolucionales. Después de extraer mapas de características, SSD aplica filtros convolucionales de 3×3 a cada unidad para la predicción. (Estos filtros se calculan como los filtros CNN regulares). Cada filtro genera 25 canales: 21 puntajes para cada clase más un cuadro delimitador.

3. Establecer la casilla anterior

Los cuadros predeterminados (Prior Box) son similares a los cuadros candidatos generados por la ventana deslizante en RPN.En SSD, también se generan varios cuadros para cada píxel en el mapa de características.

nombre Enorme nombre_de_la_caja_anterior núm_total
conv4_3 38x38 4 5776
conv5_2 19x19 6 2166
conv7_2 10x10 6 600
conv9_2 5x5 6 150
conv10_2 3x3 4 36
conv11_2 1x1 4 4
8732

La casilla anterior es equivalente a las anclas en el rcnn más rápido, algunas casillas están preestablecidas, y la red da la categoría y posición del objeto detectado a través de la clasificación y regresión según la casilla. Cada ventana se ordena y se devuelve a una posición y tamaño más precisos.
En el documento, se utilizan 4 casillas predeterminadas para conv4_3, conv10_2 y conv11, y se establecen 6 casillas predeterminadas para las otras tres. El número de cuadros predeterminados (prior_box_name) y la configuración de tamaño se calculan de acuerdo con la siguiente tabla:
insertar descripción de la imagen
Fuente de la imagen: teoría del algoritmo SSD

entrenamiento y predicción

Entrada->Salida->Cálculo de pérdida de regresión de resultados y muestras marcadas de verdad de tierra->Propagación inversa, actualización de pesos
Primero haga coincidir el cuadro anterior con el cuadro de verdad de tierra para marcar muestras positivas y negativas, y no entrene 8732 calculados cada vez por defecto cajas, primero realice un análisis de confianza y entrene las muestras positivas y negativas especificadas, las siguientes reglas:
muestra positiva:
la caja predeterminada que coincide con el IOU máximo de GT (valor de marca-verdad del terreno) es una muestra positiva, para cualquier terreno verdad IOU mayor que 0,5 también se establece como una muestra positiva.
Por favor agregue una descripción de la imagen
La imagen es interceptada del papel original.

Muestras negativas :
cuanto mayor sea la pérdida de confianza, mayor será la pérdida. Seleccione el valor superior como muestra negativa. Durante el entrenamiento, los cuadros predeterminados se controlan de acuerdo con las muestras positivas y negativas. positivo: negativo = 1:3

损失计算
L ( x , c , l , g ) = 1 norte ( L conf ( x , c ) + α L loc ( x , l , g ) L(x, c, l, g)=\frac{1} {N}\left(L_{conf}(x, c)+\alpha L_{loc}(x, l, g)\right.L ( x ,c ,yo ,g )=norte1( Lco n f( X ,c )+α Ll oc( X ,yo ,g )

L conf ( x , c ) = − ∑ yo ∈ pags norte xijp iniciar sesión ⁡ ( c ^ ip ) − ∑ yo ∈ norte p. ej. iniciar sesión ⁡ ( c ^ i 0 ) donde c ^ ip = exp ⁡ ( cip ) ∑ pag exp ⁡ ( cip ) L_{\text {conf }}(x, c)=-\sum_{i \in P os}^{N} x_{ij}^{p} \log \left(\hat{c} _{i}^{p}\right)-\sum_{i \in N eg} \log \left(\hat{c}_{i}^{0}\right) \quad \text { where } \ cuádruple \hat{c}_{i}^{p}=\frac{\exp \left(c_{i}^{p}\right)}{\sum_{p} \exp \left(c_{i} ^{p}\derecho)}Lconferencia ( X ,c )=yo pos _norteXyopaginiciar sesión(C^ipag)yo norte mi gramoiniciar sesión(C^i0) dónde C^ipag=pagExp( doipag)Exp( doipag)

  • N es el número de casillas anteriores desde el partido hasta GT (Ground Truth)
  • c^ip \hat{c}_{i}^{p}C^ipagpara el predicho iii el cuadro predeterminado corresponde a la probabilidad de categoría del cuadro GTP \mathrm{P}PAG
  • xijp = { 0 , 1 } x_{ij}^{p}=\{0,1\}Xyopag={ 0 ,1 } asegundoEl jth \mathrm{j}emparejado con el cuadro predeterminado ij Cajas GT (la categoría esP \mathrm{P}pag )

Referencias:
SSD: Detector MultiBox de disparo único
Detección de objetos SSD: Detector MultiBox de disparo único para la detección de objetivos de procesamiento en tiempo real
|Principio SSD e implementación
del aprendizaje profundo: explicación detallada del proceso del algoritmo SSD

Supongo que te gusta

Origin blog.csdn.net/Peyzhang/article/details/126304415
Recomendado
Clasificación