Puntos principales
Normalización por lotes
- tren
Si
batchsize=64
una neurona en una determinada capa genera64
un valor de respuesta, calcule la media y la desviación estándar64
del valor de respuesta, luego normalícelo y multiplique el resultado estandarizado por λ + β \lambda + \betayo+b , donde λ\lambdaλ和β \betaβ es el parámetro que necesita ser entrenado y cada neurona tiene un conjunto deλ \lambdaλ和β \betaβ .
Al hacer esto, la salida de la neurona se puede limitar aN (0, 1) N(0,1)norte ( 0 ,1 ) Entre la distribución gaussiana estándar.
- prueba
Se realiza el mismo proceso que el entrenamiento, excepto que la media de entrenamiento uu ya no es necesaria.u , varianzaσ \sigmaσ、λ \lambdaλ和β \betaParámetro β , los valores de estos dos parámetros están determinados por todos λ \lambdadurante el entrenamientoλ和β \betaβ求出,如utest = E ( ubatch ) u_{test}=E(u_{batch})tut es t=mi ( túba t c h) ,σ = nn − 1 E ( σ lote 2 ) \sigma=\frac{n}{n-1}E(\sigma_{batch}^2)pag=norte - 1nortemi ( pag.bateria _ _ _2) .
El uso de la normalización por lotes puede acelerar la convergencia del entrenamiento, mejorar el gradiente y evitar estar en la zona de saturación tanto como sea posible. Por ejemplo, al usar una sigmoid
función de activación, (0,+1)(-1,0)
no se satura en el medio.
Ancla
- Dividir una imagen en 13*13 13*1313∗13 cuadrícula, es decir,
169
una celda de cuadrícula. Cada celda de la cuadrícula está configurada con un número fijo (n = 5) y anclajes de tamaño. La longitud y el ancho de cada ancla son diferentes, y el ancla con el pagaré más grande del marco real es Responsable de predecir la celda de la cuadrícula.Objeto de prueba responsable. El principio del ancla es similar al marco candidato que existe en RCNN: hay un ancla y solo es necesario entrenar el desplazamiento del marco de predicción con respecto al ancla cada vez. - En la etapa de predicción, el vector de salida tiene un valor de probabilidad de categoría de objeto predicho para cada ancla. En comparación con yolov1, solo cada celda de la cuadrícula tiene un valor de probabilidad de categoría. Una celda de cuadrícula tiene 5 anclajes, cada anclaje tiene (x, y, w, h, confianza, 20 tipos de clases) (x, y, w, h, confianza, 20 \space tipos \espacio de \clases espaciales)( x ,y ,w ,h ,confianza , _ _ _ _ _ _ _20 tipos de clases ) 。 _ _ _ _ _ _
características detalladas
passthrough 层
, fusiona mapas de características de alta resolución con mapas de características de baja resolución para lograr efectos de detección de múltiples escalas, que se inspira en la detección de SSD.
Por ejemplo, una matriz de mapa de características con un tamaño de 4*4*3
se reorganiza de la siguiente manera
: el número de canales en el mapa se multiplica por 4 y el tamaño es 1/4 del original, 4 ∗ 4 ∗ 3 4*4*34∗4∗3 -->2 ∗ 2 ∗ 12 2*2*122∗2∗12.
Fusión del mapa de características procesado y el mapa de características original mediante procesamiento convolucional.
En yolov2 real, hay26*26*51226∗26∗512 mapas de características, usando 641*1 1*11∗1 convolución, obtiene26 ∗ 26 ∗ 64 26*26*6426∗26∗64 mapas de características y luego convertir esto26 ∗ 26 ∗ 64 26*26*6426∗26∗El mapa de características de 64passthrough
se envía a la capa y13*13*256 13*13*25613∗13∗256 mapa de características; por otro lado, continúe con la convolución y finalmente obtenga13*13*1024 13*13*102413∗13∗El mapa de características de 1024 será13*13*1024 13*13*102413∗13∗Mapa de características 1024 con13*13*256 13*13*25613∗13∗Se fusionan 256 mapas de características para obtener 13*13*1280 13*13*128013∗13∗1280 mapa de características y luego ingréselo en la red.
función de pérdida
La suma de i, j, ki,j,k en la fórmula anterioryo ,j ,k significa13 ∗ 13 13*1313∗Cadaancla Anchor_k de 13 celdas de cuadrículaancla _ _ _ _k;
La primera línea es si la relación de intersección del IOU del ancla y el marco real cumple con el umbral dado. Si es así, se calcula. De lo contrario, este elemento no se calcula. − bijk 0 -b_{ijk}^{0}− segundocoeficiente intelectual0Indica que el cuadro de predicción no es responsable de predecir la confianza del objeto y cuanto más pequeño, mejor.
El segundo comportamiento determina si se trata de las primeras 12.800 iteraciones. De ser así, la información de posición del ancla y el marco de predicción se optimiza para que cada ancla determine su propia función y el modelo sea estable.
La tercera línea realiza este cálculo para el ancla responsable de detectar el objeto: las tres expresiones son el error de posicionamiento entre la caja real y la caja predicha, el valor IOU de la caja real y el ancla y el error de confianza de la caja predicha. la categoría y predicción de la caja real. El error de categoría de la caja.