【Notas de estudio】Aprendizaje automático

Proceso de construcción del modelo de algoritmo de aprendizaje automático:
1. Obtener el conjunto de datos
2. Realizar el procesamiento de ingeniería de características en el conjunto de datos (como estandarización, valores atípicos, valores faltantes)
3. Dividir el conjunto de entrenamiento (Conjunto de entrenamiento), conjunto de prueba (Conjunto de prueba), verificación conjunto (conjunto de validación)
4. Utilice el conjunto de entrenamiento para entrenar el modelo
5. Utilice el conjunto de prueba para evaluar el efecto del modelo

Los parámetros proporcionados en el modelo se denominan "hiperparámetros". El ajuste de parámetros del modelo se refiere al ajuste de hiperparámetros
(el mismo conjunto de entrenamiento, diferentes hiperparámetros darán como resultado diferentes modelos)
selección del modelo: regresión logística, árbol de decisión

Conjunto de entrenamiento: utilizado para el entrenamiento del modelo
Conjunto de verificación: utilizado para ajustar hiperparámetros y seleccionar un conjunto de hiperparámetros con la puntuación más alta
Conjunto de prueba: observar el efecto del modelo

Proporción de conjunto de entrenamiento, conjunto de validación y conjunto de prueba:
70:15:15
80:10:10
60:20:20

Métricas de evaluación del modelo

Matriz de confusión (dos clasificación/n clasificación)

Verdadero Positivo verdadero negativo
Predecir positivo TP FP
Predecir negativo FN Tennesse

1. Precisión: (TP+TN)/(TP+FP+FN+TN)
2. Precisión: TP/(TP+FP)
3. Recuperación: TP/(TP +FN)
4. Valor F1 (combinando precisión y recuperación ): 2 * Precisión * Recuperación/(Precisión+Recuperación)
5. Curva ROC: (cuanto más cerca esté la curva ROC de la esquina superior izquierda, mejor)
Ordenada: TPR=TP/ (TP+FN)
Abscisa: FPR= FP /(FP+TN)
Los diferentes umbrales de clasificación (entre 0 y 1) tienen diferentes matrices de confusión, cada matriz de confusión corresponde a un punto (FPR, TPR), y estos puntos se conectan en una línea para formar una curva ROC

El área formada por la curva ROC y el eje x se expresa como un valor AUC (entre 0 y 1), cuanto mayor sea mejor (cuanto mayor sea el valor, más cerca de la esquina superior izquierda)
6. Curva PR: (La cuanto más cerca esté la curva PR de la esquina superior derecha, mejor) (Se usa cuando está más preocupado por los resultados de predicción positivos y las muestras están desequilibradas) coordenada
vertical: Precisión
coordenada horizontal: Recordar

Supongo que te gusta

Origin blog.csdn.net/qq_33218097/article/details/128523757
Recomendado
Clasificación