01 validación cruzada
Dividir los datos en conjuntos de entrenamiento y prueba, usar el conjunto de entrenamiento para construir un modelo y usar el conjunto de prueba para evaluar el modelo y sugerir cambios se conoce como validación cruzada.
02 problema de clasificación - matriz de confusión
Matriz de confusión para la clasificación binaria como ejemplo
Exactitud
Las predicciones son más precisas que todos los datos.
tasa de recuperación
El número de muestras positivas en el par de predicción es mayor que el número de muestras positivas en la muestra superior.
Importancia: encuentre ejemplos positivos tanto como sea posible
Exactitud
La relación entre el número de muestras positivas del par pronosticado y el número de todas las muestras positivas pronosticadas
Significado: la precisión cuando la predicción es positiva.
valor F
Resumen de preguntas y respuestas
P: Un modelo tiene una tasa de precisión del 90 %. ¿El rendimiento de este modelo es necesariamente bueno?
- incierto
- Suponiendo que la probabilidad de una determinada enfermedad es del 10 %, predecimos que todas las muestras no tienen la enfermedad y la precisión del modelo puede alcanzar el 90 %. Pero este modelo no sirve
- En este momento, es necesario considerar la tasa de recuperación y la tasa de precisión. Suponga que los casos positivos están enfermos. Entonces, la tasa de recuperación y la tasa de precisión de dicho modelo son iguales a 0, porque A=0.
- Por lo tanto, la tasa de precisión por sí sola no es suficiente para juzgar el rendimiento de un modelo. especialmente encontradodesequilibrio de datoscuando.
P: ¿Cuál es la relación entre recuerdo y precisión?
- Al identificar a una persona enferma, trate de encontrar a la persona enferma tanto como sea posible. En este momento, queremos que la tasa de recuperación sea lo más alta posible.
- Para lograr una tasa de recuperación del 100%, una forma es predecir todos los casos como enfermos. Es mejor matar por error que dejarlo ir, pero ¿crees que este modelo tiene un buen rendimiento?
- Por lo tanto, también es necesario tener en cuenta la tasa de precisión y hacer la menor cantidad posible de asesinatos incorrectos.
- La tasa de precisión y la tasa de recuperación no son indicadores contradictorios, sino énfasis diferentes.
P: ¿Qué tipo de escenarios dan prioridad a la tasa de precisión y luego consideran la tasa de recuperación?
- Escenario: Descubra los ejemplos reales positivos y sume puntos, y juzgue los ejemplos no positivos como ejemplos positivos para restar puntos.
curva ROC
El cambio relativo entre las dos cantidades de FPR y TPR.
Tasa de verdaderos positivos de TPR: la tasa de recuperación, cuanto más cerca de 1, mejor
tasa de falsos positivos de FPR: C/(C+D),
En ROC, el significado de varios puntos especiales
Cuanto más cerca esté el modelo de z1, mejor.
La curva ROC es el TPR y FPR del modelo comoUmbral de juiciocurvas cambiantes.
ABC
Por lo general, usamos el área de la esquina inferior derecha debajo de la curva ROC para evaluar. ¿Por qué el rango de valores del área es 0.5-1 y
no 0-1? Porque para un problema de clasificación binaria, un modelo con una tasa de precisión de 0 es una tasa de precisión de 1. Modelo.
La siguiente figura muestra que el área AUC (Area under couver) es 1, es decir, el punto z1.
código de aprendizaje scikit
índice | scikit-aprender |
---|---|
Precisión | de sklearn.metrics importar precision_score |
Recordar | de sklearn.metrics importar record_score |
F1 | de sklearn.metrics importar f1_score |
Matriz de confusión | de sklearn.metrics importar confusion_matrix |
República de China | desde sklearn.metrics importar roc_curve |
ABC | de sklearn.metrics importar auc |
03 problema de regresión
Los problemas de regresión requieren que el error sea lo más pequeño posible. Pero los errores no se pueden agregar directamente,Porque hay errores positivos y negativos., normalmente tomando el valor absoluto o el cuadrado del error.
error absoluto medio
Rango de valores: 0-infinito positivo
error medio cuadrado
Rango de valores: 0-infinito positivo
R2
TSS es el mse de un modelo que predice la media (1/m es opcional). Lo que significa R2 es que su modelo debe ser al menos mejor que un modelo simple (un modelo en el que todas las predicciones son la media).
Rango de valores R2 (infinito negativo ~ 1)
A continuación se explican algunos puntos especiales
- R2=0, el rendimiento de su modelo (RSS) es equivalente a un modelo que solo predice la media (TSS)
- R2=1, su modelo predice perfectamente.Cuanto más cerca de 1 mejor。
- R2<0, su modelo es muy pobre, no tan bueno como un modelo que predice la media.
- R2 = menos infinito, su modelo puede oscilar y no converger.
código de aprendizaje scikit
índice | scikit-aprender |
---|---|
MSE,RMSE | de sklearn.metrics importar mean_squared_error |
MAE | de sklearn.metrics importar mean_absolute_error |
R2 | de sklearn.metrics importar r2_score |