Análisis del algoritmo YOLOv2 para la detección de objetivos.

Puntos principales
Normalización por lotes
  • tren

Si batchsize=64una neurona en una determinada capa genera 64un valor de respuesta, calcule la media y la desviación estándar 64del valor de respuesta, luego normalícelo y multiplique el resultado estandarizado por λ + β \lambda + \betayo+b , donde λ\lambdaλβ \betaβ es el parámetro que necesita ser entrenado y cada neurona tiene un conjunto deλ \lambdaλβ \betaβ .
Al hacer esto, la salida de la neurona se puede limitar aN (0, 1) N(0,1)norte ( 0 ,1 ) Entre la distribución gaussiana estándar.

  • prueba

Se realiza el mismo proceso que el entrenamiento, excepto que la media de entrenamiento uu ya no es necesaria.u , varianzaσ \sigmaσλ \lambdaλβ \betaParámetro β , los valores de estos dos parámetros están determinados por todos λ \lambdadurante el entrenamientoλβ \betaβ求出,如utest = E ( ubatch ) u_{test}=E(u_{batch})tut es t=mi ( ba t c h) ,σ = nn − 1 E ( σ lote 2 ) \sigma=\frac{n}{n-1}E(\sigma_{batch}^2)pag=norte - 1nortemi ( pag.bateria _ _ _2) .

El uso de la normalización por lotes puede acelerar la convergencia del entrenamiento, mejorar el gradiente y evitar estar en la zona de saturación tanto como sea posible. Por ejemplo, al usar una sigmoidfunción de activación, (0,+1)(-1,0)no se satura en el medio.

Ancla
  • Dividir una imagen en 13*13 13*131313 cuadrícula, es decir,169una celda de cuadrícula. Cada celda de la cuadrícula está configurada con un número fijo (n = 5) y anclajes de tamaño. La longitud y el ancho de cada ancla son diferentes, y el ancla con el pagaré más grande del marco real es Responsable de predecir la celda de la cuadrícula.Objeto de prueba responsable. El principio del ancla es similar al marco candidato que existe en RCNN: hay un ancla y solo es necesario entrenar el desplazamiento del marco de predicción con respecto al ancla cada vez.
  • En la etapa de predicción, el vector de salida tiene un valor de probabilidad de categoría de objeto predicho para cada ancla. En comparación con yolov1, solo cada celda de la cuadrícula tiene un valor de probabilidad de categoría. Una celda de cuadrícula tiene 5 anclajes, cada anclaje tiene (x, y, w, h, confianza, 20 tipos de clases) (x, y, w, h, confianza, 20 \space tipos \espacio de \clases espaciales)( x ,y ,w ,h ,confianza , _ _ _ _ _ _ _20 tipos de clases     _ _ _ _ _ _
características detalladas

passthrough 层, fusiona mapas de características de alta resolución con mapas de características de baja resolución para lograr efectos de detección de múltiples escalas, que se inspira en la detección de SSD.
Por ejemplo, una matriz de mapa de características con un tamaño de 4*4*3se reorganiza de la siguiente manera
Insertar descripción de la imagen aquí
: el número de canales en el mapa se multiplica por 4 y el tamaño es 1/4 del original, 4 ∗ 4 ∗ 3 4*4*3443 -->2 ∗ 2 ∗ 12 2*2*122212.
Fusión del mapa de características procesado y el mapa de características original mediante procesamiento convolucional.
En yolov2 real, hay26*26*5122626512 mapas de características, usando 641*1 1*111 convolución, obtiene26 ∗ 26 ∗ 64 26*26*64262664 mapas de características y luego convertir esto26 ∗ 26 ∗ 64 26*26*642626El mapa de características de 64passthrough se envía a la capa y13*13*256 13*13*2561313256 mapa de características; por otro lado, continúe con la convolución y finalmente obtenga13*13*1024 13*13*10241313El mapa de características de 1024 será13*13*1024 13*13*10241313Mapa de características 1024 con13*13*256 13*13*2561313Se fusionan 256 mapas de características para obtener 13*13*1280 13*13*128013131280 mapa de características y luego ingréselo en la red.

función de pérdida

Insertar descripción de la imagen aquí

La suma de i, j, ki,j,k en la fórmula anterioryo ,j ,k significa13 ∗ 13 13*1313Cadaancla Anchor_k de 13 celdas de cuadrículaancla _ _ _ _k;

La primera línea es si la relación de intersección del IOU del ancla y el marco real cumple con el umbral dado. Si es así, se calcula. De lo contrario, este elemento no se calcula. − bijk 0 -b_{ijk}^{0}segundocoeficiente intelectual0Indica que el cuadro de predicción no es responsable de predecir la confianza del objeto y cuanto más pequeño, mejor.

El segundo comportamiento determina si se trata de las primeras 12.800 iteraciones. De ser así, la información de posición del ancla y el marco de predicción se optimiza para que cada ancla determine su propia función y el modelo sea estable.

La tercera línea realiza este cálculo para el ancla responsable de detectar el objeto: las tres expresiones son el error de posicionamiento entre la caja real y la caja predicha, el valor IOU de la caja real y el ancla y el error de confianza de la caja predicha. la categoría y predicción de la caja real. El error de categoría de la caja.

Supongo que te gusta

Origin blog.csdn.net/qq_44116998/article/details/128431271
Recomendado
Clasificación