Métricas de evaluación para el aprendizaje automático

Métricas de evaluación del modelo de regresión (MAE, MSE, RMSE, R², MAPE)

提示:回归模型简单理解就是:学习模型的因变量(y_predict)是一个连续值。

  1. Error Absoluto Medio (Mean Absolute Error, MAE): Es el valor promedio del error absoluto, que puede reflejar mejor la situación real del error del valor pronosticado.
    inserte la descripción de la imagen aquí
def MAE(Y_real,Y_pre):#计算MAE
    from sklearn.metrics import mean_absolute_error
    return mean_absolute_error(Y_real,Y_pre)#Y_real为实际值,Y_pre为预测值
  1. Error cuadrático medio (Mean Square Error, MSE): Es el cuadrado de la diferencia entre el valor real y el valor predicho, y luego el promedio de la sumatoria, que generalmente se usa para detectar la desviación entre el valor predicho del modelo y el valor real
    inserte la descripción de la imagen aquí
def MSE(Y_real,Y_pre):#计算MSE
    from sklearn.metrics import mean_squared_error
    return mean_squared_error(Y_real,Y_pre)#Y_real为实际值,Y_pre为预测值
  1. Error cuadrático medio (Root Mean Square Error, RMSE): es decir, la raíz cuadrada del error cuadrático medio y la desviación cuadrática media representa la desviación estándar de la muestra de la diferencia entre el valor predicho y el valor observado
    inserte la descripción de la imagen aquí
def RMSE(Y_real,Y_pre):#计算RMSE
    from sklearn.metrics import mean_squared_error
    return np.sqrt(mean_squared_error(Y_real,Y_pre))#Y_real为实际值,Y_pre为预测值
  1. R² (R cuadrado, coeficiente de determinación): el coeficiente de determinación refleja la precisión del modelo que se ajusta a los datos. Generalmente, el rango de R² es de 0 a 1. Cuanto más se acerque su valor a 1, mayor será el poder explicativo de las variables de la ecuación para y, y el modelo se ajustará mejor a los datos
    inserte la descripción de la imagen aquí
def R2(Y_real,Y_pre):#计算R²
    from sklearn.metrics import r2_score
    return r2_score(Y_real,Y_pre)#Y_real为实际值,Y_pre为预测值
  1. Error porcentual absoluto medio (MAPE): en teoría, cuanto menor sea el valor de MAPE, mejor será el efecto de ajuste del modelo de predicción y mayor precisión.
    inserte la descripción de la imagen aquí
def MAPE(Y_real,Y_pre):#计算mape
    from sklearn.metrics import mean_absolute_percentage_error
    return mean_absolute_percentage_error(Y_real,Y_pre)#Y_real为实际值,Y_pre为预测值

Indicadores de evaluación de uso común para los modelos de clasificación: Exactitud, Precisión, Recuperación, puntuación F1 y área gráfica AUC:

提示:分类模型简单理解就是:学习模型的因变量(y_predict)是一个离散值(结果只有n个类别),例如:n为3就是3分类问题。

例子:根据肿瘤的大小(自变量:Tumor Size)来预测肿瘤(因变量:Malignant)是恶性样本(negative examples)还是良性样本(positive examples)。(二分类问题)
inserte la descripción de la imagen aquí

  1. Indicadores básicos: tasa de error (la proporción de muestras mal clasificadas respecto al total de muestras)

  2. Indicadores básicos: tasa de precisión (la proporción de muestras correctamente clasificadas con respecto al total de muestras)

  3. Matriz de confusión (problema de dos categorías): En la tarea de clasificación, hay cuatro combinaciones diferentes entre el resultado previsto (Condición prevista) y la etiqueta correcta (Condición verdadera), formando una matriz de confusión
    inserte la descripción de la imagen aquí

  4. Tasa de precisión Precisión: la proporción de muestras positivas en las que el resultado de la predicción es positivo (también conocido como precisión)
    inserte la descripción de la imagen aquí

  5. Tasa de recuperación (tasa de recuperación) Recuperación: la proporción de los resultados predichos en las muestras que en realidad son muestras positivas (la recuperación es completa, la capacidad de distinguir muestras positivas)
    inserte la descripción de la imagen aquí

分类问题评测指标API:

#分类问题评测指标API
from sklearn.metrics import classification_report
#y_test为实际值,y_predict为预测值
#labels:指定类别对应的数字,target_names:⽬标类别名称
ret = classification_report(y_test, y_predict, labels=(2,4), target_names=("良性", "恶性"))
# 打印返回的ret:包括每个类别精确率(Precision)与召回率(Recall)
print(ret)

  1. Existen otros criterios de evaluación: F1-score (refleja la solidez del modelo)
    inserte la descripción de la imagen aquí

  2. TPR y FPR
    TPR es la Tasa de TP, FPR es la Tasa de FP

  3. Curva ROC e índice AOC
    inserte la descripción de la imagen aquí

  • Antecedentes: para evitar problemas de evaluación debido al desequilibrio de la muestra,
    1.例子:
    si 99 muestras son cancerosas y 1 muestra no cancerosa, pronosticaré directamente todos los casos positivos (el cáncer es el caso predeterminado), y la tasa de precisión es del 99 %,
    pero el El efecto no es bueno
    2.问题:
    Este modelo de predicción (un modelo que predice directamente todos los ejemplos positivos) tiene solo un 99 % de precisión con el conjunto de datos desequilibrado actual, y se desconocen los resultados con otros conjuntos de datos. En algunos negocios importantes, ese modelo no es universal en absoluto, lo cual es terrible.
    3.解决:
    Usa la curva ROC

  • Significado: El eje horizontal de la curva ROC es FPRate, y el eje vertical es TPRate.Cuando los dos son iguales, el significado es: para las muestras, independientemente de si la categoría real es 1 o 0, la probabilidad de que el clasificador prediga 1 es igual Cuando el AUC es 0.5.

  • Gráfico:
    inserte la descripción de la imagen aquí

  • Indicador AUC
    1. El significado de probabilidad de AUC es seleccionar aleatoriamente un par de muestras positivas y negativas, y la probabilidad de que la puntuación de la muestra positiva sea mayor que la puntuación de la muestra negativa 2. El rango
    de AUC está entre [0, 1], y cuanto más cerca de 1, mejor, más cerca 0.5 es adivinar aleatoriamente
    3. AUC=1, un clasificador perfecto, cuando se usa este modelo de predicción, no importa qué umbral se establezca, se puede obtener una predicción perfecta. Pero para la mayoría de las ocasiones de pronóstico, no existe un clasificador perfecto.
    4. Cuando 0.5<AUC<1, es mejor que adivinar al azar. Si el clasificador (modelo) establece correctamente el umbral apropiado, puede tener valor predictivo.

  • API de cálculo de AUC
    inserte la descripción de la imagen aquí

  1. Dibujo de la curva ROC
  • proceso de dibujo
    • 1. Construya un modelo y ordene los valores de probabilidad del modelo de mayor a menor
    • 2. Comience a tomar el valor desde el punto con la probabilidad más alta, realice el cálculo de tpr y fpr todo el tiempo y luego construya el modelo general para obtener el resultado.
    • 3. De hecho, es resolver la integral (área)
  • Antecedentes del caso
    Suponga que hay 6 muestras, dos de las cuales son muestras positivas, y se obtiene una secuencia de muestras (1:1, 2:0, 3:1, 4:0, 5:0, 6:0) y el el frente indica el número de serie, estos últimos representan muestras positivas (1) o muestras negativas (0).
    Luego, el modelo calcula la secuencia de probabilidad de las muestras positivas en estas 6 muestras.
  • tres condiciones
    • 1. Si la secuencia de probabilidad es (1:0.9, 2:0.7, 3:0.8, 4:0.6, 5:0.5, 6:0.4) junto con la secuencia
      original, obtén la secuencia (de mayor a menor probabilidad)
      inserte la descripción de la imagen aquí
      El dibujo Los pasos son:
      1) Ordenar la secuencia de probabilidad de mayor a menor para obtener la secuencia (1:0.9, 3:0.8, 2:0.7, 4:0.6, 5:0.5, 6:0.4); 2) Desde la probabilidad más alta
      Inicio para tomar un punto como clase positiva, tome el punto 1 y calcule TPR=0.5, FPR=0.0;
      3) Comience con la probabilidad más alta, luego tome otro punto como clase positiva, tome el punto 3 y calcule TPR= 1.0, FPR=0.0;
      4) Luego tome un punto del punto más grande como la clase positiva, tome el punto 2 y calcule TPR=1.0, FPR=0.25; 5
      ) Por analogía, se obtienen 6 pares de TPR y FPR.
      Entonces estos 6 pares de datos se componen de 6 puntos (0,0.5), (0,1.0), (0.25,1), (0.5,1), (0.75,1), (1.0,1.0).
      Estos 6 puntos se pueden dibujar en el sistema de coordenadas bidimensional.
      inserte la descripción de la imagen aquí
      Como se muestra en la figura es la curva ROC.

    • 2. Si la secuencia de probabilidad es (1:0.9, 2:0.8, 3:0.7, 4:0.6, 5:0.5, 6:0.4) junto con la secuencia
      original, obtén la secuencia (de mayor a menor probabilidad)
      inserte la descripción de la imagen aquí
      El dibujo Los pasos son:
      1) Ordenar la secuencia de probabilidad de mayor a menor para obtener la secuencia (1:0.9, 2:0.8, 3:0.7, 4:0.6, 5:0.5, 6:0.4); Comience a tomar un punto como
      el clase positiva, tome el punto 1 y calcule TPR=0.5, FPR=0.0;
      3) Comience con la probabilidad más alta, luego tome otro punto como clase positiva, tome el punto 2 y calcule TPR= 0.5, FPR=0.25; 4
      ) Luego tome un punto del máximo como clase positiva, tome el punto 3 y calcule TPR=1.0, FPR=0.25; 5) Por analogía, se
      obtienen 6 pares de TPR y FPR.
      Entonces estos 6 pares de datos se componen de 6 puntos (0,0.5), (0.25,0.5), (0.25,1), (0.5,1), (0.75,1), (1.0,1.0).
      Estos 6 puntos se pueden dibujar en el sistema de coordenadas bidimensional.
      inserte la descripción de la imagen aquí

    • 3. Si la secuencia de probabilidad es (1:0.4, 2:0.6, 3:0.5, 4:0.7, 5:0.8, 6:0.9) junto
      con la secuencia original, obtén la secuencia (de mayor a menor probabilidad)
      inserte la descripción de la imagen aquí
      El dibujo Los pasos son:
      1) Ordenar la secuencia de probabilidad de mayor a menor para obtener el orden (6:0.9,5:0.8,4:0.7,2:0.6,3:0.5,1:0.4);
      Comience a tomar un punto como el clase positiva, tome el punto 6 y calcule TPR=0.0, FPR=0.25;
      3) Comience con la probabilidad más alta, luego tome otro punto como clase positiva, tome el punto 5 y calcule TPR= 0.0, FPR=0.5; 4
      ) Luego tome un punto del punto más grande como la clase positiva, tome el punto 4 y calcule TPR=0.0, FPR=0.75;
      5) Por analogía, se obtienen 6 pares de TPR y FPR.
      Entonces estos 6 pares de datos se componen de 6 puntos (0.25,0.0), (0.5,0.0), (0.75,0.0), (1.0,0.0), (1.0,0.5), (1.0,1.0).
      Estos 6 puntos se pueden dibujar en el sistema de coordenadas bidimensional.
      inserte la descripción de la imagen aquí

  • interpretación del significado
    • Como se muestra en el ejemplo anterior, hay un total de puntos 6, muestras positivas 2 y muestras negativas 4. Hay situaciones 8 en las que se toma una muestra positiva y una muestra negativa.
    • Lo anterior 第⼀种情况se toma de arriba hacia abajo. No importa cómo elija, la probabilidad de muestras positivas siempre es mayor que la de muestras negativas, por lo que la probabilidad de emparejamiento es 1 y AUC = 1. Mira la curva ROC de nuevo, ¿cuál es su integral? También 1, la integral de la curva ROC es igual a la AUC.
    • En lo anterior 第⼆种情况, si se obtienen las muestras 2 y 3, la clasificación es incorrecta, y en otros casos la clasificación es correcta, por lo que la probabilidad de clasificación es 0,875, AUC=0,875. Mirando la curva ROC nuevamente, su integral también es 0.875, y la integral de la curva ROC es igual a AUC.
    • Lo anterior 第三种情况, no importa cómo elijas, es incorrecto, por lo que la probabilidad de acertar es 0, AUC=0.0. Mirando la curva ROC nuevamente, su integral también es 0.0, y la integral de la curva ROC es igual a AUC.
    • AUC significa - Área bajo la curva roc, es decir ROC曲线的积分, también está bajo la curva ROC ⾯积.
    • El dibujo ROC曲线的意义es obvio, y los posibles errores de clasificación se deducen constantemente. Cada vez que se toma una muestra negativa del punto con mayor probabilidad, hará que todas las muestras positivas debajo de él se clasifiquen incorrectamente. Por lo tanto, es necesario restar el número de muestras positivas debajo de él (1-TPR, la proporción de las muestras positivas restantes). Después de trazar la curva ROC general, se determina el AUC y también se puede calcular la probabilidad de emparejamiento.

Supongo que te gusta

Origin blog.csdn.net/qq_45973897/article/details/128359345
Recomendado
Clasificación