Explicación detallada de conceptos relacionados con los indicadores de rendimiento de la visión artificial: matriz de confusión, IoU, curva ROC, mapa, etc.

Tabla de contenido

0. Prefacio

1. Indicadores de rendimiento de clasificación de imágenes.

1.1 Matriz de confusión

1.2 Exactitud (Precisión)

1.3 Tasa de recuperación (Recall)

1.4 puntuación F1

1.5 Curva ROC (curva característica de funcionamiento del receptor)

1,6 mAP (precisión media media)

2. Indicadores de rendimiento de la segmentación de imágenes.

2.1 Intersección sobre Unión (IoU, Intersección sobre Unión)

2.2 Puntuación de precisión, recuperación y F1

2.3 Coeficiente de dados


0. Prefacio

De acuerdo con la práctica internacional, primero me gustaría declarar: este artículo es solo mi propia comprensión del aprendizaje. Aunque me refiero a las valiosas ideas de otros, el contenido puede contener imprecisiones. Si encuentras errores en el artículo, espero criticarlos y corregirlos para que podamos avanzar juntos.

Este artículo explicará sistemáticamente los indicadores relacionados con el rendimiento de la visión artificial a través de ejemplos. Puedo dividir aproximadamente estos indicadores en dos categorías: indicadores de rendimiento de clasificación de imágenes e indicadores de rendimiento de segmentación de imágenes.

1. Indicadores de rendimiento de clasificación de imágenes.

Este tipo de indicador se utiliza para evaluar la precisión del modelo en la clasificación de imágenes: la proporción de objetos en la imagen que se pueden clasificar correctamente en las categorías correspondientes, la proporción de reconocimientos perdidos, la proporción de reconocimientos incorrectos, etc.

1.1 Matriz de confusión

La matriz de confusión es la base de este tipo de métrica de desempeño. La matriz de confusión es un método de evaluación utilizado en el aprendizaje supervisado para evaluar la capacidad de predicción de un modelo de clasificación en un conjunto de datos de prueba. Una matriz de confusión es una matriz bidimensional en la que cada fila representa la etiqueta real y cada columna representa la etiqueta predicha.

Los cuatro indicadores básicos de la matriz de confusión son Verdadero Positivo (TP), Falso Positivo (FP), Verdadero Negativo (TN) y Falso Negativo (FN), que representan respectivamente el número de muestras de ejemplos positivos clasificados correctamente y ejemplos positivos clasificados incorrectamente. , ejemplos negativos clasificados correctamente y ejemplos negativos clasificados incorrectamente.

El siguiente es un ejemplo para explicar la matriz de confusión: Supongamos que tenemos un modelo de aprendizaje profundo para identificar si hay Ultraman en la imagen. Tenemos las siguientes 9 muestras de prueba. Después del reconocimiento por parte del modelo de aprendizaje profundo, el resultado es el siguiente:

Se puede ver que los números correspondientes de los cuatro indicadores anteriores son:

  • TP (el modelo predice Ultraman, y el real también tiene Ultraman): 5
  • TN (el modelo no predice que Ultraman, y en realidad no existe Ultraman): 1
  • FP (el modelo predice Ultraman, pero en realidad no existe Ultraman): 2
  • FN (el modelo no predice que Ultraman, pero en realidad tiene Ultraman): 1

La matriz de confusión correspondiente es:

Matriz de confusión para juzgar a Ultraman categoría verdadera
No
Categoría de predicción 5(TP) 2(FP)
No 1(FN) 1(TN)

Aunque el ejemplo anterior utiliza un problema de clasificación de dos clases (si hay un problema, si hay un problema), la matriz de confusión también se puede extender a problemas de clasificación múltiple, como juzgar Ultraman Tiga, Ultraman Taro y Seven en la imagen Terman et al.

Matriz de confusión para juzgar a Ultraman categoría verdadera
tiga taylor …… Severn
Categoría de predicción tiga
taylor
……
Severn
1.2 Exactitud (Precisión)

La definición matemática de precisión es:

Precisión = \frac{TP}{TP+FP}

La tasa de precisión describe: si el resultado del modelo es "sí", qué proporción es realmente "sí", es decir, si la predicción del modelo es precisa.

1.3 Tasa de recuperación (Recall)

La definición matemática de recuperación es:

Recuperar = \frac{TP}{TP+FN}

La tasa de recuperación describe: si todas las predicciones son realmente "sí", qué proporción del modelo puede generar "sí", es decir, las predicciones del modelo están incompletas.

1.4 puntuación F1

La definición matemática del valor F1 es:

Puntuación F1 = \frac{2\times Precisión\times Recuperación }{Precisión+Recuperación}

La sustitución de las fórmulas anteriores de Precisión y Recuperación se puede simplificar a:

Puntuación F1 = \frac{2TP}{2TP+FN+FP}

El valor F1 es una métrica de evaluación que combina la precisión y la recuperación del modelo. Es la media armónica de precisión y recuperación y, por lo tanto, es más completa y precisa al evaluar clasificadores binarios. Tiene un importante significado de referencia en la selección de modelos, ajuste de parámetros e interpretación de resultados. Al mismo tiempo, la puntuación F1 también se puede utilizar para comparar el rendimiento de diferentes modelos o algoritmos con el fin de seleccionar el modelo o algoritmo óptimo.

1.5 Curva ROC (curva característica de funcionamiento del receptor)

Este indicador es un poco complicado. . .

Primero, la abscisa de la curva ROC es la tasa de falsos positivos FPR (tasa de falsos positivos), FPR=FP/(FP+TN). La ordenada es la tasa de verdaderos positivos TPR (tasa de verdaderos positivos, es decir, recuperación), TPR = recuperación = TP/(TP+FN).

Luego regrese al ejemplo anterior de Altman: necesitamos saber que la salida de la red de aprendizaje profundo para problemas de clasificación no es "sí" o "no", sino una probabilidad de confianza de 0 ~ 1.

Si establecemos un umbral, por ejemplo, si la probabilidad de confianza de Ultraman en el resultado del cálculo del modelo es superior a 0,6, consideraremos que el juicio del modelo es Ultraman. El ejemplo anterior debería quedar así:

Obviamente, si ajustamos este umbral de juicio, el resultado de la predicción "sí" o "no" puede cambiar, entonces tanto FPR como TPR pueden cambiar, por lo que habrá una nueva coordenada de punto (FPR, TPR).

Si trazamos todos (FPR, TPR) en coordenadas y los conectamos en orden, obtendremos la curva ROC.

En particular, si establecemos el umbral en 0, es decir, todos los resultados generados por el modelo son "sí", entonces TN = FN = 0, (FPR, TPR) = (1, 1); si establecemos el umbral en 1, es decir, todos los resultados generados por el modelo son "ninguno", es decir, TP = FP = 0, (FPR, TPR) = (0, 0). De esta forma sabemos que la curva ROC debe estar entre los dos puntos (0, 0) y (1, 1). Por ejemplo, la siguiente imagen:

La pendiente y la convexidad de la curva ROC reflejan el rendimiento de predicción del clasificador. Cuanto más cerca esté la curva ROC de la esquina superior izquierda, mejor será el rendimiento del clasificador. Además, el área bajo la curva ROC AUC (área bajo la curva ROC) también es un indicador de uso común. Cuanto mayor sea el valor AUC, mejor será el rendimiento de predicción del clasificador. Un valor AUC de 1 significa que la predicción del El clasificador es completamente preciso.

1,6 mAP (precisión media media)

Cómo traducirlo al chino. . . ¿Precisión promedio promedio?

Primero necesitamos presentar AP. Creamos otra curva de acuerdo con la idea de producción ROC anterior: su abscisa es Recall y la ordenada es Precision. Esta vez, el umbral que ajustamos ya no es la probabilidad de confianza, sino IoU (o el IoU en sí también puede contarse como una probabilidad de confianza, como se presentará a continuación).

Al ajustar el IoU de 0 a 1, obtenemos múltiples puntos de coordenadas (Recall, Precision) y los conectamos en secuencia para obtener la siguiente curva Precision-Recall:

Integrando esta curva es AP:

AP = \int_{0}^{1} p(r)dr

Si hay varios objetos que queremos identificar (Ultraman Tiga, Ultraman Taro, Ultraman Seven, etc.), entonces tendremos varios AP y el promedio de ellos es mAP.

La curva ROC se utiliza para evaluar el rendimiento del clasificador binario , mientras que mAP (precisión promedio media) es un indicador importante en la tarea de detección de objetivos y se utiliza para evaluar la precisión del modelo en la detección de múltiples categorías de objetivos .

2. Indicadores de rendimiento de la segmentación de imágenes.

Este tipo de indicador se utiliza para evaluar la precisión de la segmentación de imágenes: puede segmentar con precisión la imagen de destino y describir la diferencia entre la posición prevista del objeto y la posición real.

Pongamos también un ejemplo de Ultraman:

El cuadro azul A aquí es la verdadera ubicación de Ultraman, que ha sido marcada de antemano. El cuadro rojo B es el límite dividido por el modelo de Ultraman.

2.1 Intersección sobre Unión (IoU, Intersección sobre Unión)

IoU es la relación entre la intersección y unión del área predicha y el área real:

IoU = \frac{A\bigcap B}{A\bigcup B}

mIoU (Intersección media sobre unión) es el promedio del IoU de todas las categorías y se utiliza para evaluar el rendimiento de los modelos de segmentación de clases múltiples.

2.2 Puntuación de precisión, recuperación y F1

Estos tres indicadores tienen la misma idea de definición que el problema de clasificación anterior, por lo que juntos, su definición matemática es:

Precisión = \frac{A\bigcap B}{B}

Recuperar = \frac{A\bigcap B}{A}

Puntuación F1 = \frac{2\times Precisión\times Recuperación }{Precisión+Recuperación}

2.3 Coeficiente de dados

El coeficiente de Dice es la relación entre la intersección del área predicha y el área verdadera con la suma de los dos:

Dado = \frac{2A\bigcap B}{A+B}

Supongo que te gusta

Origin blog.csdn.net/m0_49963403/article/details/132866665
Recomendado
Clasificación