Evaluar el modelo de clasificación: Matriz de confusión e indicadores de evaluación.

Para un modelo de clasificación diseñado, se necesita una gran cantidad de conjuntos de datos para evaluar su desempeño, por lo que es muy importante comprender las métricas de evaluación.

El proceso específico para evaluar modelos de clasificación:
Por favor agregue la descripción de la imagen.

Matriz de confusión de clasificación uno y dos Matriz de confusión

Estrictamente hablando, para los problemas de clasificación binaria, no hay etiquetas, sólo ejemplos positivos y contraejemplos. La matriz de confusión para el problema de dos clasificaciones es la siguiente:
Por favor agregue la descripción de la imagen.

Fórmula de cálculo del índice de evaluación:

  • Precisión = TP + TNTP + TN + FP + FN Precisión =\frac{TP+TN}{TP+TN+FP+FN}Precisión _ _ _ _ _=TP + TN + FP + FNTP + TN
  • P recisión = TPTP + FP Precisión=\frac{TP}{TP+FP}Precisión _ _ _ _ _ _=TP + FPTP
  • R ecall = TPTP + FN Recall =\frac{TP}{TP+FN}Recordar todo _ _=TP + FNTP
  • F 1 − S núcleo = 2 1 P recisión + 1 R ecall = 2 × P recisión × R ecall P recisión + R ecall F1-Score=\frac{2}{\frac{1}{Precisión} + \frac{1 }{Recordar}}=\frac{2 \times Precisión \times Recall}{Precisión + Recordar}Q1 _Núcleo S=Precisión _ _ _ _ _ _1+Recordar todo _ _12=P rec i s i o n + R ec a l2 × Precisión × R ec a ll _ _ _ _ _ _
  • especificidad = TNFP + TN especificidad=\frac{TN}{FP+TN}especificidad _ _ _ _ _ _ _ _ _=FP + TNTN

Tomemos como ejemplo el problema de dos categorías de perros y gatos para analizar la matriz de confusión y sus indicadores de evaluación de la categoría de dos categorías:! [
Agregue una descripción de imagen] (https://img-blog.csdnimg.cn /8be2f9fec8d243e58689e969bbb75876.png#pic_center =500)

Como se muestra en la figura, en la clasificación de perros y gatos, el perro se utiliza como ejemplo positivo y el perro (gato) no se utiliza como contraejemplo. El lado superior es el valor previsto y el lado izquierdo es el valor real. La línea diagonal principal (roja) es el valor correcto previsto y la línea subdiagonal (verde) es el valor incorrecto previsto.

Supongamos que los gatos y los perros se clasifican de la siguiente manera:
Por favor agregue la descripción de la imagen.

en:

  • TP + FP TP + FPTP+FP es el número de perros en el conjunto de datos.
  • FP + TN FP+TNFP+TN es el número de gatos en el conjunto de datos.
  • TP+TN TP+TNTP+TN es el número de clasificaciones correctas del modelo.

1. Tasa de precisión

A precisión = número de clasificaciones correctas todos los datos = TP + TNTP + TN + F + FN Precisión=\frac{número de clasificaciones correctas}{todos los datos}=\frac{TP+TN}{TP+TN+F{+FN }}Precisión _ _ _ _ _=Toda la informaciónNúmero de clasificaciones correctas=TP+Tennesse+F + FNTP+TN

即,
Precisión = 45 + 35 45 + 35 + 5 + 35 = 0,8 Precisión =\frac{45 + 35}{45 + 35 + 5 + 35} = 0,8Precisión _ _ _ _ _=45+35+5+3545+35=0,8

2. Tasa de precisión

¿Cuántos de los datos predichos como perros son perros reales
P recisión = TP Número de perros predichos = TPTP + FP Precisión=\frac{TP}{Número de perros predichos}=\frac{TP}{TP+FP}Precisión _ _ _ _ _ _=Número previsto de perrosTP=TP+FPTP
即,
precisión = 45 45 + 15 = 0,75 precisión=\frac{45}{45 + 15} = 0,75precisión _ _ _ _ _ _=45+1545=0,75

3. Tasa de recuperación, tasa de recuperación, sensibilidad

¿Cuál es el verdadero número de perros detectados en los datos
? Recall = TP El número de perros reales = TPTP + FN Recall=\frac{TP}{El número de perros reales}=\frac{TP}{TP+FN }Recordar todo _ _=El número real de perros.TP=TP+FNTP
即,
R ecall = 45 45 + 5 = 0.9 Recordar =\frac{45}{45 + 5} = 0.9Recordar todo _ _=45+545=0,9

4、Puntuación F1

La puntuación F1 es la media armónica de precisión y recuperación, que refleja de manera integral la precisión y recuperación del clasificador. Es decir Precisino Precisino soloP rec i s en oR ecall RecordarTodo el registro es alto, pero F1-Score no es alto. (Se puede comparar con dos resistencias en paralelo, una con alta resistencia y otra con baja resistencia, pero el resultado aún es bajo)
F 1 − S core = 2 1 P recisión + 1 R ecall = 2 × P recision × R ecall P recisión + R ecall F1- Puntuación=\frac{2}{\frac{1}{Precisión} + \frac{1}{Recall}}=\frac{2 \times Precision \times Recall}{Precisión + Recall}Q1 _Núcleo S=Precisión _ _ _ _ _ _1+Recordar todo _ _12=Precisión _ _ _ _ _ _+Recordar todo _ _2×Precisión _ _ _ _ _ _×Recuérdalo todo _ _
即,
F 1 − S núcleo = 2 × 0,75 × 0,9 0,75 + 0,9 = 0,82 F1-Score=\frac{2 \times 0,75 \times 0,9}{0,75 + 0,9}=0,82Q1 _Núcleo S=0,75+0,92×0,75×0.9=0,82

5. Especificidad

¿Cuántos de los gatos verdaderos (ejemplos negativos) se seleccionan
especificidad = TN El número de gatos verdaderos = TNFP + TN especificidad=\frac{TN}{El número de gatos verdaderos}=\frac{TN}{FP+TN}especificidad _ _ _ _ _ _ _ _ _=número real de gatosTN=FP+TennesseTN
即,
especificidad = 35 15 + 35 = 0.7 especificidad=\frac{35}{15 + 35} = 0.7especificidad _ _ _ _ _ _ _ _ _=15+3535=0,7

2. Matriz de confusión multiclase Clasificadores multiclase

La matriz de confusión de clases múltiples es muy similar a la clasificación de dos clases, excepto que al calcular la precisión, la recuperación, etc., es necesario calcularla por separado para cada clase.

Por ejemplo:

Por favor agregue la descripción de la imagen.

  • Precisión = 15 + 12 + 22 15 + 2 + 3 + 6 + 12 + 4 + 22 = 0.7656 Precisión=\frac{15+12+22}{15+2+3+6+12+4+22}= 0,7656Precisión _ _ _ _ _=15 + 2 + 3 + 6 + 12 + 4 + 2215 + 12 + 22=0,7656

  • Bicicleta: P precisión = 15 15 + 6 = 0,71 Precisión=\frac{15}{15 + 6}=0,71Precisión _ _ _ _ _ _=15 + 615=0,71Rellamada = 15 15 + 2 + 3 = 0,75 Rellamada=\frac{15}{15 + 2 + 3}=0,75Recuérdalo todo _ _ _ _=15 + 2 + 315=0,75

  • Motocicleta: P precisión = 12 2 + 12 + 4 = 0,66 Precisión=\frac{12}{2 + 12 + 4}=0,66Precisión _ _ _ _ _ _=2 + 12 + 412=0,66Rellamada = 12 12 + 6 = 0,66 Rellamada=\frac{12}{12 + 6}=0,66Recuérdalo todo _ _ _ _=12 + 612=0,66

  • Coche: P precisión = 22 22 + 3 = 0,88 Precisión=\frac{22}{22 + 3}=0,88Precisión _ _ _ _ _ _=22 + 322=0,88Rellamada = 22 22 + 4 = 0,85 Rellamada=\frac{22}{22 + 4}=0,85Recuérdalo todo _ _ _ _=22 + 422=0,85

  • Ejemplo: P recisión = 0,71 + 0,66 + 0,88 3 = 0,75 Precisión=\frac{0,71+0,66+0,88}{3}=0,75Precisión _ _ _ _ _ _=30,71 + 0,66 + 0,88=0,75Recordar = 0,75 + 0,66 + 0,85 3 = 0,75 Recordar=\frac{0,75+0,66+0,85}{3}=0,75Recordar todo _ _=30,75 + 0,66 + 0,85=0,75

  • Puntuación F1: F 1 − S core = 2 × Precisión × R ecall P recisión × R ecall = 2 × 0,75 × 0,75 0,75 + 0,75 = 0,75 F1-Score=\frac{2 \times Precison \times Recall}{Precisión \ veces Recordar} = \frac{2 \times 0.75 \times 0.75}{0.75 + 0.75}=0.75Q1 _Núcleo S=P rec i s i ó n × R ec a l2 × Prec i so n × R ec a ll _=0,75 + 0,752 × 0,75 × 0,75=0,75

    La puntuación F1 de varias clases es el valor medio de la puntuación F1 para cada categoría.

En matrices de confusión de clases múltiples, la forma de mapa de calor es más común, como se muestra en la figura:

Por favor agregue la descripción de la imagen.

3. Curva ROC (Curva característica de funcionamiento del receptor) Curva característica de funcionamiento del receptor

FPR (tasa pseudopositiva): FPR = FPFP + TN FPR=\frac{FP}{FP+TN}FPR=FP + TNFP, es decir, la proporción de datos de clases negativas que se dividen en clases positivas

TPR (tasa de clase real): TPR = TPTP + FN TPR=\frac{TP}{TP+FN}TPR=TP + FNTP, es decir, la proporción de datos de clases positivas que se clasifican en clases positivas

1. Comprensión intuitiva de la curva ROC

La curva ROC se originó a partir del juicio de las señales de radar por parte de los soldados de radar durante la Segunda Guerra Mundial. La misión del soldado del radar es analizar la señal del radar, pero la señal del radar contiene ruido (como un pájaro grande), por lo que cada vez que aparece una señal en la pantalla del radar, el soldado del radar debe juzgarla. Algunos soldados del radar son más cautelosos (umbral bajo) y juzgan todas las señales como aviones enemigos; algunos soldados son más optimistas (umbral alto) y juzgan todas las señales como pájaros grandes. El siguiente es el resultado del juicio de un soldado de radar en un día:

Por favor agregue la descripción de la imagen.

en este momento:

  • TPR = TPTP + FN = 1 TPR=\frac{TP}{TP + FN} = 1TPR=TP + FNTP=1
  • FPR = FPFP + TN = 0,5 FPR=\frac{FP}{FP+TN}=0,5FPR=FP + TNFP=0,5

Para el sistema, esperamos que el TPR sea lo más alto posible, porque de esta manera se pueden detectar todos los aviones enemigos. Al mismo tiempo, esperamos que el FPR sea lo más bajo posible, porque esto puede reducir los errores de juicio, es decir, idealmente, TPR = 1 TPR=1TPR=1FPR = 0 FPR = 0FPR=0 . Sin embargo, para un sistema general, no se pueden tener ambas cosas: si se reduce el umbral de soldados, lo ideal es que todos los aviones enemigos sean juzgados, pero algunas aves inevitablemente serán juzgadas como aviones enemigos, lo que conducirá a TPR TPR.Alto TPR y FPR FPREl FPR también es alto; en consecuencia, si se aumenta el umbral de soldados, lo ideal es que todas las aves voladoras no sean juzgadas como aviones enemigos, pero algunos aviones enemigos inevitablemente serán juzgados como aves voladoras (esto causará un daño enorme a nuestros propios soldados). ) ), lo que resulta enFPR FPRTPR TPR cuando el FPR es bajoLa TPR también es baja. Por lo tanto, en general, la curva ROC es una función proporcional creciente, y cuandoy = xy=xy=por encima de la curva x .

2. Principio de dibujo de la curva ROC


Esta imagen está dibujada en http://www.navan.name/roc/ y se puede interactuar dinámicamente con ella en tiempo real. Los lectores pueden cambiar la configuración de la curva ROC mientras miran para profundizar su comprensión.

En la figura anterior, la curva azul representa ejemplos negativos, la roja representa ejemplos positivos y la línea vertical negra gruesa representa el umbral.

La parte superior izquierda y la superior derecha son desde la perspectiva del soldado (umbral), en este momento se determina el rendimiento del radar (clasificador). Es decir, la curva ROC es cierta y cambiar el umbral solo cambia el punto de coordenadas rojo en la curva ROC.

Como se muestra en la imagen de arriba a la izquierda: si el umbral se selecciona demasiado bajo, todos los ejemplos positivos se considerarán ejemplos positivos ( TPR = 1 TPR=1TPR=1 ), pero la mayoría de los ejemplos negativos también se juzgan como ejemplos positivos (FPR FPRFPR está cerca de 1) En este momento, el punto de coordenadas en la curva ROC está en la esquina superior derecha.

Como se muestra en la imagen de la derecha: si el umbral se selecciona demasiado alto, todos los ejemplos negativos se considerarán ejemplos negativos ( FPR = 0 FPR=0FPR=0 ), pero la mayoría de los ejemplos positivos se juzgan como ejemplos negativos (TPR TPRTPR está cerca de 0) y el punto de coordenadas en la curva ROC está en la esquina inferior izquierda.

Si el umbral se elige entre los ejemplos positivos y negativos, entonces TPR TPREl valor de TPR es relativamente alto,FPR FPREl valor de FPR es relativamente bajo, lo que es un estado relativamente ideal.

La parte inferior izquierda y la inferior derecha son desde la perspectiva del radar (clasificador).

Como se muestra en la imagen de abajo a la izquierda: si el rendimiento del clasificador es insuficiente, los ejemplos positivos y negativos se incluirán entre sí y la curva ROC se aproximará a y = xy=xy=función x (es decir, cuánto aumenta FPR y cuánto disminuye TPR).

Como se muestra en la imagen de abajo a la derecha, si el clasificador funciona muy bien, los ejemplos positivos y negativos estarán ampliamente "separados" y la curva ROC estará más cerca de un ángulo recto. Idealmente, los ejemplos positivos y los ejemplos negativos están completamente separados. Si el umbral se selecciona adecuadamente, se logrará TPR = 1 TPR = 1 .TPR=1FPR = 0 FPR = 0FPR=0 es la esquina superior izquierda del rectángulo de la curva ROC.

3. Curva AUC

AUC, (Área bajo la curva), es el área bajo la curva ROC. Obviamente, esta área es menor que 1, y debido a que la curva ROC generalmente está por encima de la línea y=x, el AUC generalmente está entre 0,5 y 1. El valor AUC puede cuantificar mejor el rendimiento del clasificador que la curva ROC.

El significado de AUC es, cuando se seleccionan aleatoriamente una muestra positiva y una muestra negativa, la probabilidad de que la muestra positiva se clasifique frente a la muestra negativa según la puntuación calculada por el clasificador actual.

Criterios para juzgar la calidad de un clasificador (modelo de predicción) de AUC:

  • AUC = 1 es un clasificador perfecto. Cuando se utiliza este modelo de predicción, existe al menos un umbral que puede producir predicciones perfectas. En la mayoría de situaciones de predicción, no existe un clasificador perfecto.
  • 0,5 < AUC < 1, mejor que adivinar al azar. Este clasificador (modelo) puede tener valor predictivo si el umbral se establece correctamente .
  • AUC = 0,5, que es lo mismo que una conjetura aleatoria (por ejemplo: perder monedas de cobre), y el modelo no tiene valor predictivo.
  • AUC < 0,5, que es peor que las conjeturas aleatorias; pero siempre que vaya siempre en contra de la predicción , es mejor que las conjeturas aleatorias.

4. Ventajas de la curva ROC

La curva ROC puede hacer frente al desequilibrio de muestras positivas y negativas.

La curva ROC tiene una muy buena característica: cuando cambia la distribución de muestras positivas y negativas en el conjunto de prueba, la curva ROC puede permanecer sin cambios. En los conjuntos de datos reales, a menudo ocurre un desequilibrio de clases, es decir, hay muchas más muestras negativas que positivas (o viceversa), y la distribución de muestras positivas y negativas en los datos de prueba también puede cambiar con el tiempo.

Esto se debe a que, en la fórmula de cálculo de la curva ROC, TPR TPRTPR solo se calcula para ejemplos positivos,FPR FPREl FPR se calcula sólo para ejemplos negativos. Por lo tanto, incluso si la proporción de muestras positivas y negativas está desequilibrada o la proporción de muestras positivas y negativas cambia con el tiempo, la curva ROC no cambiará significativamente.

Precisión PrecisiónA c u r a cyR ecall RecordarR ec a llP recisión PrecisiónLa fórmula de cálculo de precisión debe considerar ejemplos positivos y negativos. Cuando la proporción de ejemplos positivos y negativos cambia, su valor se verá muy afectado .

4. Indicadores de clasificación cuando las muestras positivas y negativas están desequilibradas

1. Conjunto de datos equilibrados de muestras positivas y negativas

S.NO. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
etiqueta real 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1
Pronóstico—Modelo 1 0.1 0.1 0.1 0.1 0.1 0.1 0,6 0,6 0,5 0,5 0,9 0,9 0,9 0,9 0,9
Pronóstico—Modelo 2 0,6 0,6 0,6 0,6 0,6 0,6 0,6 0,6 0,7 0,7 0,7 0,7 0,8 0,8 0,8
Umbral F1=0,5 El mejor escenario de F1 República de China-AUC Pérdida de registro
Modelo 1 0,88 0,88 0,94 0,28
Modelo 2 0,67 1 1 0,6

En términos de pérdida de entropía cruzada, M1 es mucho mejor que M2. Aunque M2 puede clasificar datos muy bien, la brecha entre 0,6 y 0 sigue siendo un poco grande, por lo que softmax se usa comúnmente en problemas de clasificación en lugar de regresión.

2. Hay muchas más muestras negativas que positivas.

S.NO. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
etiqueta real 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
Pronóstico—Modelo 1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0,9
Pronóstico—Modelo 2 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0,9 0,9 0,9
Umbral F1=0,5 República de China-AUC Pérdida de registro
Modelo 1 0,88 0,83 0,24
Modelo 2 0,96 0,96 0,24

En este conjunto de datos, el modelo 1 clasifica la muestra 14 como FN negativa y el modelo 2 clasifica la muestra 13 como FP positiva. Para situaciones donde el número de muestras positivas es pequeño, esperamos detectar todas las muestras positivas (Modelo 2) en lugar de "seguir a la multitud" (Modelo 1). Por lo tanto, el Modelo 2 es mejor que el Modelo 1. Esto está en F1 - Ambos Se pueden reflejar la puntuación y ROC-AUC.

3. El número de muestras positivas es mucho mayor que el número de muestras negativas.

S.NO. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
etiqueta real 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1
Pronóstico—Modelo 1 0.1 0.1 0,9 0,9 0,9 0,9 0,9 0,9 0,9 0,9 0,9 0,9 0,9 0,9 0,9
Pronóstico—Modelo 2 0.1 0.1 0.1 0.1 0,9 0,9 0,9 0,9 0,9 0,9 0,9 0,9 0,9 0,9 0,9
Umbral F1=0,5 República de China-AUC Pérdida de registro
Modelo 1 0.963 0,83 0,24
Modelo 2 0,96 0,96 0,24

Cuando el número de muestras positivas es mucho mayor que el número de muestras negativas, esperamos detectar las muestras negativas tanto como sea posible. En este momento, ROC-AUC es más adecuado.

4. Resumen

  • La pérdida logarítmica no es adecuada para indicadores de evaluación de clasificación cuando las muestras están desequilibradas
  • ROC-AUC se puede utilizar como índice de evaluación de clasificación cuando las muestras positivas y negativas están desequilibradas.
  • Si desea predecir correctamente una pequeña cantidad de casos, puede elegir ROC-AUC como índice de evaluación.

Supongo que te gusta

Origin blog.csdn.net/qq_44733706/article/details/130619062
Recomendado
Clasificación