Resumen de la función de pérdida de segmentación de imágenes

1. Introducción

Para la segmentación de imágenes, mejorar la precisión a través de la optimización del modelo siempre ha sido el foco del avance de todos. Como parte importante de la solución del algoritmo, la función de pérdida de objetivo juega un papel importante para ayudar a que el modelo converja rápidamente.
Referencia del artículo:
imagen.png
La segmentación de imágenes se puede definir como una tarea de clasificación a nivel de píxeles. Las imágenes se componen de varios píxeles que combinados definen diferentes elementos en la imagen, por lo que el método de clasificar estos píxeles en una clase de elementos se llama segmentación semántica de imágenes . Al diseñar arquitecturas de aprendizaje profundo basadas en segmentación de imágenes complejas, a menudo uno se encuentra con una elección crucial: qué función de pérdida/objetivo elegir , ya que motivan el proceso de aprendizaje del algoritmo. La elección de la función de pérdida es crucial para que cualquier arquitectura aprenda el objetivo correcto.
imagen.png

Este es un resumen de las funciones de pérdida de segmentación de imágenes. Se resumen un total de 14 funciones de pérdida de segmentación . y dividirlos en 4 categorías .
Funciones basadas en distribución , basadas en regiones , basadas en límites y de pérdida compuesta .
imagen.png
Dirección del artículo: https://arxiv.org/pdf/2006.14822.pdf
Dirección del código : https://github.com/shruti-jadon/Semantic-Segmentation-Loss-Functions
Recomendación del proyecto: https://github.com/JunMa11 /PérdidaSeg

2. Basado en la distribución

2.1 Función de pérdida de entropía cruzada binaria

La entropía cruzada se define como una medida de la diferencia entre dos distribuciones de probabilidad para un conjunto determinado de variables o eventos aleatorios. Se usa ampliamente para tareas de clasificación y, dado que la segmentación es una clasificación a nivel de píxeles , funciona bien. En tareas de clasificación múltiple, a menudo se usa la función de activación softmax + función de pérdida de entropía cruzada, porque la entropía cruzada describe la diferencia entre dos distribuciones de probabilidad, pero la salida de la red neuronal es un vector, no una forma de Distribución de probabilidad. Por lo tanto, se requiere la función de activación softmax para "normalizar" un vector en forma de distribución de probabilidad y luego usar la función de pérdida de entropía cruzada para calcular la pérdida.

La función de pérdida de entropía cruzada evalúa la predicción de clase de cada vector de píxeles individualmente y luego la promedia en todos los píxeles, por lo que podemos considerar que los píxeles de la imagen se aprenden por igual. Sin embargo, el problema del desequilibrio de clases ocurre a menudo en las imágenes médicas . Como resultado, el entrenamiento estará dominado por clases con más píxeles, lo que dificulta aprender las características de objetos más pequeños, lo que reduce la efectividad de la red.
El mejor escenario de uso es que haya datos distribuidos uniformemente entre diferentes categorías, que es una función de pérdida basada en la distribución de Bernoulli.

2.2 Entropía cruzada binaria ponderada Entropía cruzada binaria ponderada

**Entropía cruzada binaria ponderada (WCE)** es una variante de la variable de entropía cruzada binaria. En este ejemplo, los ejemplos positivos están ponderados por algún coeficiente. Se utiliza ampliamente en casos de datos asimétricos.
Las ponderaciones agregadas se utilizan para ajustar los falsos negativos y falsos positivos. Si desea reducir el número de falsos negativos, establezca un peso mayor que 1. Del mismo modo, si desea reducir el número de falsos positivos, establezca un peso menor que 1. El peso es el coeficiente utilizado para los ejemplos positivos.
Escenario de aplicación: ampliamente utilizado en conjuntos de datos asimétricos, medidos por coeficientes

2.3 Entropía cruzada equilibrada

La entropía cruzada equilibrada (BCE) es similar a la entropía cruzada ponderada . La única diferencia es que además de los ejemplos positivos, también ponderamos los ejemplos negativos .
Escenario de aplicación: similar a la entropía cruzada ponderada, se usa ampliamente en conjuntos de datos sesgados y pondera muestras positivas y negativas respectivamente.

2.4Pérdida focal

La pérdida focal (FL) también puede verse como un cambio en la entropía cruzada binaria . Reduce la contribución de ejemplos simples y permite que el modelo se centre más en aprender ejemplos difíciles. Es adecuado para escenarios de clases altamente desequilibrados.
La pérdida de enfoque propone reducir los pesos para aligerar el modelo y utilizar un coeficiente de modulación para centrarse en entrenar ejemplos negativos duros . Cuando una muestra se clasifica erróneamente, el coeficiente de modulación tiende a 1, lo que significa que no hay grandes cambios en comparación con la pérdida original. Cuando la clasificación es correcta y la muestra es fácil de clasificar, el coeficiente de modulación tiende a 0, lo que significa que contribuye poco a la pérdida total.
Escenario de aplicación: para conjuntos de datos altamente desequilibrados, lo más efectivo es reducir la contribución de ejemplos simples, lo que permite que el modelo aprenda ejemplos difíciles.

2.5 Término de penalización por pérdida derivada del mapa de distancias Término de penalización por pérdida derivada del mapa de distancias

El mapa de distancia se puede definir como la distancia entre la verdad del terreno y el mapa de predicción (distancia euclidiana, distancia absoluta, etc.). Hay dos formas de fusionar mapeos: una es crear una arquitectura de red neuronal con un cabezal de reconstrucción para la segmentación o introducirlo en la función de pérdida. Siguiendo la misma teoría, se creó el mapa de distancia derivado de la máscara GT y se creó una función de pérdida personalizada basada en penalizaciones. Con este enfoque, la red puede guiarse fácilmente a regiones fronterizas que son difíciles de segmentar. La función de pérdida se define como:
imagen.png
Escenario de aplicación: variable de entropía cruzada para límites difíciles de segmentar

3. Según la región

3.1 Pérdida de dados

El coeficiente Dice es una métrica ampliamente utilizada en la comunidad de visión por computadora para calcular la similitud entre dos imágenes . En 2016, también se adaptó como una función de pérdida denominada Pérdida de dados.
Coeficiente de dado : Es una función de medición que se utiliza para medir la similitud de un conjunto . Generalmente se usa para calcular la similitud entre píxeles entre dos muestras. La fórmula es la siguiente: La
imagen.png
razón por la que hay un coeficiente 2 en el numerador es porque hay un recuento duplicado x en el denominador e y, el rango de valores es [0,1]. Para la tarea de segmentación, x representa la imagen segmentada de Ground Truth e y representa la imagen segmentada predicha.
Pérdida de dados:
imagen.png
aquí, se suma 1 al numerador y al denominador para garantizar el determinismo de la función en casos extremos como. El uso de Dice Loss está extremadamente desequilibrado en las muestras. Si se usa Dice Loss en circunstancias normales, la retropropagación tendrá un efecto adverso y hará que el entrenamiento sea inestable.
Escenario de aplicación: Inspirado en el coeficiente de los dados, una métrica para evaluar los resultados de la segmentación. Dado que los coeficientes de los dados son de naturaleza no convexa, se modificaron para que fueran más manejables.

3.2 Pérdida de Tversky

Fórmula:
imagen.png
El coeficiente de Tversky es una generalización del coeficiente de Dice y el coeficiente de Jaccard. Al configurar α = β = 0.5 \alpha = \beta =0.5a=b=0,5 , en este momento el coeficiente de Tversky es el coeficiente de Dice. Y al establecerα = β = 1 \alpha = \beta = 1a=b=Cuando 1 , el coeficiente de Tversky es el coeficiente de Jaccard. α , β \alfa , \betaun ,β controla los falsos negativos y los falsos positivos respectivamente. Ajustandoα , β \alpha , \betaun ,β puede controlar el equilibrio entre falsos positivos y falsos negativos.
El índice de Tversky (TI) también puede verse comouna generalización del coeficiente de los dados. Agrega peso a FP(falsos positivos) y FN (falsos negativos)mediante la acción de coeficientes
Caso de uso: una variante del coeficiente de dados que agregapeso a los falsos positivos y falsos negativos.

3,3 Pérdida focal de Tversky

Similar a "Pérdida focal", que se centra en ilustrar ejemplos difíciles reduciendo el peso de las pérdidas fáciles/comunes. Focal Tversky Loss también intenta aprender ejemplos difíciles, como en el caso de un pequeño ROI (región de interés) con la ayuda del coeficiente γ, como se muestra a continuación:
imagen.png
Similar al
escenario de aplicación de Focal Loss: una variante de Tversky, que se centra en ejemplos difíciles.

3.4 Pérdida de sensibilidad y especificidad

En primer lugar, la sensibilidad es la tasa de recuerdo, la capacidad de detectar que efectivamente existe una enfermedad:

imagen.png
Especificidad, la capacidad de detectar que realmente no hay enfermedad:
imagen.png
Sensibilidad La pérdida de especificidad es:
imagen.png
el lado izquierdo es la tasa de error de los píxeles enfermos, es decir, 1-Sensibilidad, no la tasa correcta, por lo tanto, establezca λ \lambdaλ es 0,05. Donde(rn − pn) 2 (r_n - p_n)^2( rnortepagnorte)2 es conseguir un gradiente suave.
De manera similar al coeficiente de Dice, la sensibilidad y la especificidad son métricas comúnmente utilizadas para evaluar las predicciones de segmentación. En esta función de pérdida, podemos usar parámetros para tener en cuenta el desequilibrio de clases.

3.5 Pérdida de dados Log-Cosh** (la función de pérdida propuesta en este documento)**

El coeficiente de dados es una métrica utilizada para evaluar el resultado de la segmentación . También se ha modificado como función de pérdida ya que permite una representación matemática del objetivo de segmentación. Pero debido a su no convexidad, muchas veces no logra resultados óptimos. La pérdida de Lovsz-softmax tiene como objetivo resolver el problema de las funciones de pérdida no convexas agregando suavizado mediante la expansión de Lovsz. Mientras tanto, el método Log-Cosh se ha utilizado ampliamente en problemas basados ​​en regresión para suavizar curvas.
Equivale a una mejora en el coeficiente de Dice. Debido a la no convexidad de Dice, es posible que no se obtenga el resultado óptimo.

4. Basado en límites

4.1 Pérdida consciente de la forma Pérdida consciente de la forma

Pérdida consciente de la forma Como sugiere el nombre, la pérdida consciente de la forma tiene en cuenta la forma. En general, todas las funciones de pérdida funcionan a nivel de píxel, pero la pérdida con reconocimiento de forma calcula la distancia euclidiana promedio de los puntos alrededor de la curva de segmentación predicha desde la verdad fundamental y la utiliza como coeficiente de la función de pérdida de entropía cruzada .
En los casos en los que los límites son difíciles de segmentar, la pérdida de entropía cruzada se modifica aumentando los coeficientes basados ​​en la forma.

4.2 **Pérdida de distancia de Hausdorff**Pérdida de distancia de Hausdorff

La pérdida de distancia de Hausdorff (HD) es una métrica utilizada por los métodos de segmentación para rastrear el rendimiento del modelo. Se define como:
imagen.png
El propósito de cualquier modelo de segmentación es maximizar la distancia de Hausdorff , pero debido a su no convexidad, no se usa ampliamente como función de pérdida. Algunos investigadores han propuesto tres variables de la función de pérdida basadas en la distancia de Hausdorff, que combinan casos de uso de medición y garantizan que la función de pérdida sea fácil de manejar.
Inspirándonos en la métrica de distancia de Hausdorff utilizada para evaluar la pérdida de segmentación, manejamos la no convexidad de la métrica de distancia agregando algunas variables

5. Pérdida combinada

5.1 Pérdida combinada

La pérdida combinada se define como la suma ponderada de la pérdida de Dice y la reducción cruzada modificada. Intenta utilizar la flexibilidad de la pérdida de Dice para resolver el problema del desequilibrio de clases mientras utiliza la reducción cruzada para suavizar la curva. **Definido como: (DL se refiere a Dice Loss)
imagen.png
La pérdida combinada es la suma ponderada de la pérdida de Dice y la entropía cruzada mejorada. Intenta explotar la flexibilidad de la pérdida de dados desequilibrada mientras aprovecha la entropía cruzada para suavizar las curvas.

5.2 Pérdida logarítmica exponencial

La función de pérdida logarítmica exponencial se centra en predecir estructuras menos precisas utilizando una fórmula combinada de pérdida de dados y pérdida de entropía cruzada . Se realizan transformaciones exponenciales y logarítmicas en la pérdida de dados y la pérdida de entropía para incorporar los beneficios de límites de segmentación más finos y una distribución de datos precisa . Se define como:
imagen.png
Escenario de aplicación: la función combinada de pérdida de dados y entropía cruzada binaria se centra en situaciones en las que la precisión de la predicción es baja.

Referencia:
[Función de pérdida utilizada para la segmentación de imágenes médicas - Artículo de Blackened Pig - Zhihu]
https://zhuanlan.zhihu.com/p/267128903
[Habilidades de ajuste del modelo de segmentación de imágenes, inventario de funciones de pérdida]
https: //zhuanlan.zhihu.com /p/393496742

Supongo que te gusta

Origin blog.csdn.net/Alexa_/article/details/131819586
Recomendado
Clasificación