Tabla de contenido
prefacio
En el algoritmo de detección de objetivos, a menudo nos encontramos con Focal Loss. Hoy simplemente dividiremos esta pérdida.
1. Pérdida focal
Durante el entrenamiento de aprendizaje profundo, si la función de pérdida se calcula directamente cuando la categoría objetivo está desequilibrada, el resultado final del cálculo puede estar sesgado hacia categorías comunes, baja tasa de recuperación, sobreajuste del modelo y otros problemas. Para hacer frente a este problema, se introdujo Focal Loss
. Específicamente, Focal Loss
se introduce un parámetro sintonizable γ \gammaγ , que se utiliza para ajustar la relación de peso entre muestras fáciles de clasificar y muestras difíciles. Cuandoγ \gammaCuando el valor de γ es bajo, el modelo presta más atención a las muestras fáciles de clasificar, y cuandoγ \gammaCuando el valor de γ es mayor, el modelo presta más atención a las muestras difíciles. Focal Loss
se define como sigue:
FL ( pt ) = − α ( 1 − pt ) γ log ( pt ) FL(p_t) = -\alpha(1 - p_t)^\gamma \log(p_t)F L ( págs.t)=− un ( 1−pagt)Clo g ( pagt)
En la detección de objetivos, Focal Loss
generalmente se usa one-stage
en el algoritmo, porque two-stage
el algoritmo se ha analizado una vez en la primera etapa y el marco candidato en la segunda etapa no causará un desequilibrio grave de muestras positivas y negativas. Por ejemplo, en una imagen, el objetivo suele ser relativamente pequeño, normalmente decenas de los más correctos, pero cuando usamos la selección de casillas candidatas, la cantidad de casillas candidatas que configuramos es relativamente grande, generalmente decenas de miles, si configuramos la pérdida contribuido por cada objetivo a 10
, la pérdida del objetivo es solo unos pocos cientos, y la pérdida aportada por los cuadros candidatos restantes se establece en 0.1
, y la pérdida del fondo también llegará a varios miles, entonces la red estará muy preocupada No -objetivos, es decir, el fondo, conducen a resultados de detección muy pobres.
La respuesta corta resume la función de una oración Focal Loss
. De hecho, es establecer un hiperparámetro para la red y dejar que la red aprenda los coeficientes de peso de las muestras positivas y negativas por sí misma, de modo que la red pueda equilibrar el enfoque en el objetivo y el fondo, para no favorecer a un lado.
Mire un ejemplo: donde p
representa la probabilidad predicha, y
representa la etiqueta real y CE
representa la pérdida de entropía cruzada ordinaria, FL
lo que significa Focal Loss
que el cálculo se basa en γ = 2, α = 0.5 \gamma=2, \alpha=0.5C=2 ,a=0,5 calculado.
pag | y | CE | Florida | CE/FL |
---|---|---|---|---|
0.9 | 1 | 0.105 | 0.00026 | 400 |
0.968 | 1 | 0.033 | 0.000008 | 3906 |
0.1 | 0 | 0.105 | 0.00079 | 133 |
0.032 | 0 | 0.033 | 0.000025 | 1302 |
0.1 | 1 | 2.3 | 0.466 | 4.9 |
0.9 | 0 | 2.3 | 1.4 | 1.6 |
Del ejemplo anterior, se puede ver que para muestras fáciles de segmentar, Focal Loss
su relación de peso puede reducirse significativamente y se reducirá ligeramente para muestras difíciles de segmentar. Focal Loss
Susceptible a la interferencia de ruido cuando está en uso .
Aquí hay una pregunta: ¿Cuál es la diferencia entre F ocal Loss
y OHEM
(muestreo de muestras positivas y negativas)?
2. Resumen
definición:
Focal Loss
La idea clave de es introducir un parámetro ajustable, que se utiliza para reducir el peso de las muestras fáciles y hacer que el modelo preste más atención a las muestras difíciles.OHEM(Online Hard Example Mining)
es una estrategia de entrenamiento para resolver problemas de desequilibrio de clases.OHEM
Al seleccionar una pequeña cantidad de ejemplos difíciles en cada iteración de entrenamiento y agregarlos al conjunto de entrenamiento, se mejora la capacidad de aprendizaje del modelo en ejemplos difíciles.la diferencia:
Focal Loss
es una función de pérdida,OHEM
pero una estrategia de entrenamiento.Focal Loss
Se utiliza principalmente para reducir el impacto de muestras simples en el entrenamiento y mejorar la capacidad de aprendizaje del modelo para muestras difíciles. La capacidad de aprendizaje del modelo se mejora principalmenteOHEM
mediante la extracción de muestras difíciles.
Lo anterior es la introducción sobre la pérdida focal, si hay algún error, ¡corríjame!