[Notas del estudio MOT] Explicación detallada de la función de pérdida JDE

Acabo de escribir un documento recientemente y lo clasifiqué en el algoritmo JDE.La parte de la función de pérdida del documento JDE original es un poco vaga.

(1) Función de pérdida

A diferencia de YOLO v3, JDE utiliza un método de segmentación de doble umbral para juzgar si el objetivo está en primer plano o en segundo plano. Es decir, si el IoU del objetivo y un cuadro de verdad es superior a 0,5, se considera una coincidencia; si el IoU es inferior a 0,4, se considera un desajuste. Después de los experimentos,
se cree que este método puede suprimir las falsas alarmas (FP). Para la pérdida de clasificación de primer plano y de fondo L α \mathcal{L}_{\alpha}LaUsando la pérdida de entropía cruzada, la pérdida de regresión L β \mathcal{L}_{\beta} para el cuadro delimitadorLbSe utiliza la pérdida suave de L1,
como se muestra en las fórmulas (4-1) y (4-2).
L α ( X , y ) = 1 norte ∑ norte = 1 norte [ - ∑ C = 1 C Iniciar sesión ⁡ exn , C ∑ yo = 1 C exn , yo ] yn , C \mathcal{L}_{\alpha}( x,y) =\frac{1}{N} \sum_{n=1}^N[ -\sum_{c=1}^C \log \frac{e^{x_{n,c}}}{ \sum_{i=1}^Ce^{x_{n,i}}}]y_{n,c}La( X ,y )=norte1norte = 1norte[ -c = 1ciniciar sesiónyo = 1cmiXn , yomiXn , c] añon , c
L β ( X , y ) = 1 norte ∑ norte = 1 norte [ 1 2 ( xn − yn ) 2 yo ( ∣ xn − yn ∣ < 1 ) + ( ∣ xn − yn ∣ − 0,5 ) yo ( ∣ xn − yn ∣ ≥ 1 ) ] \mathcal{L}_{\beta}(x,y) =\frac{1}{N} \sum_{n=1}^N[\frac{1}{2}(x_n- y_n)^2 \mathbb{I}(|x_n-y_n|<1) + (|x_n-y_n| - 0.5)\mathbb{I}(|x_n-y_n|\ge 1)]Lb( X ,y )=norte1norte = 1norte[21( Xnyn)2 yo(xnyn<1 )+( Xnyn0 _ 5 ) yo ( xnyn1 ) ]
dondexxx representa el resultado de la predicción,yyy representa el valor de verdad,NNN representa el tamaño del lote,eee es el logaritmo natural. xn en la fórmula (4-1), c x_{n,c}Xn , cIndica el xn x_n predichoXnpertenece a la categoría ccLa probabilidad de c ,yn , c ∈ { 0 , 1 } y_{n,c}\in\{0,1\}yn , c{ 0 ,1 } significa etiquetayy¿ Y pertenece a la categoría ccc .I ( ⋅ ) \mathbb{I}(·)en la fórmula (4-2)yo ( ) es una función indicadora.

Para la tarea de aprendizaje de características de apariencia, el efecto deseado es que la métrica de distancia sea lo suficientemente grande para diferentes objetos. JDE trata este problema como un problema de clasificación. Supongamos que el número objetivo de diferentes instancias en toda la secuencia de video es n ID nIDn I D , entonces el algoritmo deben ID nID
en el objetivo incrustando el vectorClasificación de las categorías n I D.

Supongamos que una instancia de anclaje en un lote de muestras es f T f^TFT , la muestra positiva (es decir, la categoría de valor verdadero) esf + f^+F+ , que con el anclaf T f^TFT está relacionado; las muestras negativas (es decir, otras categorías) sonf − f^-F Al calcular la pérdida, preste atención a todas las clasificaciones negativas de la muestra. Tomarf T f + f^Tf^+FTf _+ indica la probabilidad de que la instancia de anclaje se
considere una muestra positiva,f T fj − f^Tf_j^-FTf _jIndica que el ancla se considera el jjthLa probabilidad de j categorías, la pérdida se calcula de una forma similar a la función de entropía cruzada:
L γ ( x , y ) = 1 N ∑ i = 1 N [ − log ⁡ efi T fi + efi T fi + + ∑ jefi T fi , j − ] \mathcal{L}_{\gamma}(x,y) =\frac{1}{N}\sum_{i=1}^N[-\log \frac{e^{ f_i^Tf_i^ +}} {e^{f_i^Tf_i^+} + \sum_j{e^{f_i^Tf_{i,j}^-}}}]LC( X ,y )=norte1yo = 1norte[ -iniciar sesiónmiFiTFi++jmiFiTFyo , jmiFiTFi+]
donde subíndiceiiyo muestroiiyo muestras.

(2) Saldo de pérdida

JDE aprende tres tareas simultáneamente: clasificación, regresión de cuadro delimitador y aprendizaje de características de apariencia. Por lo tanto, cómo equilibrar las tres tareas es un tema muy importante. La mayoría de los otros algoritmos son sumas ponderadas de las funciones de pérdida de cada parte, pero JDE adopta el método de ajustar automáticamente la importancia de las tareas múltiples para seleccionar el peso de cada parte de la pérdida. Específicamente, consulte el concepto de incertidumbre independiente de la tarea propuesto en [39] para conocer los pesos de cada parte de la pérdida como parámetros de red.
Por lo tanto, la función de pérdida total se muestra en la fórmula (4-4):
L total = ∑ i = 1 M ∑ j = α , β , γ 1 2 ( 1 esji L ji + sji ) \mathcal{L}_{total } = \sum_{i=1}^M \sum_{j=\alpha,\beta,\gamma} \frac{1}{2} (\frac{1}{e^{s_j^i}}\mathcal {L }_j^i+s_j^i)Len total _ _ _=yo = 1mj = un , segundo , c21(misjyo1Ljyo+sjyo)
en esesji s_j^isjyoes una incertidumbre independiente de la tarea y es un parámetro aprendible. milímetroM es el número de tareas, ya que hay tres tareas de clasificación, regresión de cuadro delimitador y aprendizaje de características de apariencia, por lo queM = 3 M = 3METRO=3 .

Supongo que te gusta

Origin blog.csdn.net/wjpwjpwjp0831/article/details/124538565
Recomendado
Clasificación