evaluación --Sklearn.metrics introducción y aplicación diversos ejemplos de máquina de aprendizaje Python sklearn

Python Sklearn.metrics Introducción y ejemplos de aplicación

Cuando se utiliza la variedad de Python algoritmo de aprendizaje automático, sklearn de uso frecuente (scikit-learn) Este módulo / biblioteca.

Si el uso de algoritmos de aprendizaje automático para la regresión, clasificación o agrupamiento, la evaluación , es decir, los indicadores cuantitativos modelo de prueba el efecto de aprendizaje automático, son un problema inevitable y muy importante. Por lo tanto, la combinación scikit-learn página de inicio introducción sobre, así como parte de la información en línea de terminar el dios de evaluación común y su puesta en práctica, la aplicación de una breve introducción.

A, scikit-learn instalación

, No repetirlos aquí, se pueden hacer muchos tutoriales en línea una referencia específica:
https://www.cnblogs.com/zhangqunshi/p/6646987.html
Además, si la instalación Anoconda, directamente desde Anoconda Navigator - Buscar Añadir medio ambiente interior.
pip instalar -U scikit-learn

Dos, scikit-learn.metrics importación y vocación

Hay dos formas de importar:

Una manera:

Evaluación de sklearn.metrics nombre de la función de importación

Por ejemplo:

from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

Llamar para: nombre de la función de llamada directa a
calcular el error cuadrado medio del error cuadrático medio

mse = mean_squared_error(y_test, y_pre)

Cálculo del coeficiente de regresión de determinación R2

R2 = r2_score(y_test,y_pre)
Segunda manera:

métricas de importación sklearn

Llamada tripartita: métricas nombre de la función de evaluación (parámetro).

Por ejemplo:
el cálculo de un error cuadrático medio del error cuadrático medio

mse = metrics.mean_squared_error(y_test, y_pre)

Cálculo del coeficiente de regresión de determinación R2

R2 = metrics.r2_score(y_test,y_pre)

Tres, scikit-learn.metrics en una variedad de indicadores Introducción

Ver breves:
https://www.cnblogs.com/mdevelopment/p/9456486.html
detalles ver:
https://www.cnblogs.com/harvey888/p/6964741.html
web oficial:
HTTPS: // scikit -learn.org/stable/modules/classes.html#module-sklearn.metrics

Transferir el contenido del primer eslabón, una introducción breve de la siguiente manera:

Índice de retorno

  1. explained_variance_score (y_true, y_pred, sample_weight = Ninguno, multiproductiva = 'uniform_average'): la varianza de la regresión (correlación entre la reacción de las variables independientes y dependientes)

  2. mean_absolute_error (y_true, y_pred, sample_weight = Ninguno,
    multiproductiva = 'uniform_average'):
    error absoluto medio

  3. mean_squared_error (y_true, y_pred, sample_weight = Ninguno, multiproductiva = 'uniform_average'): 均 方差

  4. median_absolute_error valor (y_true, y_pred) absoluta error

  5. r2_score (y_true, y_pred, sample_weight = Ninguno, multiproductiva = 'uniform_average'): R 平方 值

Índice de Categoría

  1. accuracy_score (y_true, y_pre): 精度

  2. El área bajo la curva ROC; AUC representan más grande mejor rendimiento: AUC (x, y, reordenar = Falso).

  3. average_precision_score (y_true, y_score, Media = 'macro', sample_weight = None): precisión de cálculo puntuación media de predicción (AP) de acuerdo con

  4. brier_score_loss (y_true, y_prob, sample_weight = Ninguno, pos_label = None): Cuanto menor sea el índice de Brier, mejor.

  5. confusion_matrix (y_true, y_pred, etiquetas = Ninguno, sample_weight = Ninguno): evaluados mediante el cálculo de una matriz de confusión devueltos a la clasificación matriz exactitud confusión

  6. f1_score (y_true, y_pred, etiquetas = Ninguno, pos_label = 1, Media = 'binario', sample_weight = None): F1值
      F1 = 2 * (precisión * recuerdo) / (precisión + recuerdo) de precisión (查准率) = TP / (TP + FP) de recordatorio (查全率) = TP / (TP + FN)

  7. log_loss (y_true, y_pred, eps = 1e-15, normalizar = True, sample_weight = Ninguno, etiquetas = None): número de pérdidas, también conocido como una pérdida de entropía cruzada lógico o pérdida

  8. precision_score (y_true, y_pred, etiquetas = Ninguno, pos_label = 1, Media = 'binario',): precisión o exactitud; Precision (precisión) = TP / (TP + FP)

  9. recall_score (y_true, y_pred, etiquetas = Ninguno, pos_label = 1, Media = 'binario', sample_weight = None): 查 全 率; recuerdo (查 全 率) = TP / (TP + FN)

  10. roc_auc_score (y_true, y_score, Media = 'macro', sample_weight = None): el área bajo la curva ROC se calcula el valor AUC, mayor es la mejor

  11. roc_curve (y_true, y_score, pos_label = Ninguno, sample_weight = Ninguno, drop_intermediate = True); valores calculados de la curva ROC de coordenadas horizontal y vertical, TPR, el FPR
      TPR = TP / (TP + FN) Recall = (tasa de verdaderos positivos, sensibilidad) FPR = FP / (FP + TN ) ( Ejemplo tasa de falsos positivos, 1-especificidad)

En cuarto lugar, un ejemplo de aplicación

Con el caso de la web oficial, utilizando sus propios datos, un ejemplo de implementación de la aplicación:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import ensemble
from sklearn import  metrics

##############################################################################
# Load data
data = pd.read_csv('Data for train_0.003D.csv')
y = data.iloc[:,0]
X = data.iloc[:,1:]
offset = int(X.shape[0] * 0.9)
X_train, y_train = X[:offset], y[:offset]
X_test, y_test = X[offset:], y[offset:]

##############################################################################
# Fit regression model
params = {'n_estimators': 500, 'max_depth': 4, 'min_samples_split': 2,
          'learning_rate': 0.01, 'loss': 'ls'}
clf = ensemble.GradientBoostingRegressor(**params)

clf.fit(X_train, y_train)
y_pre = clf.predict(X_test)

# Calculate metrics
mse = metrics.mean_squared_error(y_test, y_pre)
print("MSE: %.4f" % mse)

mae = metrics.mean_absolute_error(y_test, y_pre)
print("MAE: %.4f" % mae)

R2 = metrics.r2_score(y_test,y_pre)
print("R2: %.4f" % R2)

##############################################################################
# Plot training deviance

# compute test set deviance
test_score = np.zeros((params['n_estimators'],), dtype=np.float64)

for i, y_pred in enumerate(clf.staged_predict(X_test)):
    test_score[i] = clf.loss_(y_test, y_pred)

plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.title('Deviance')
plt.plot(np.arange(params['n_estimators']) + 1, clf.train_score_, 'b-',
         label='Training Set Deviance')
plt.plot(np.arange(params['n_estimators']) + 1, test_score, 'r-',
         label='Test Set Deviance')
plt.legend(loc='upper right')
plt.xlabel('Boosting Iterations')
plt.ylabel('Deviance')

##############################################################################
# Plot feature importance
feature_importance = clf.feature_importances_
# make importances relative to max importance
feature_importance = 100.0 * (feature_importance / feature_importance.max())
sorted_idx = np.argsort(feature_importance)
pos = np.arange(sorted_idx.shape[0]) + .5
plt.subplot(1, 2, 2)
plt.barh(pos, feature_importance[sorted_idx], align='center')
plt.yticks(pos, X.columns[sorted_idx])

plt.xlabel('Relative Importance')
plt.title('Variable Importance')
plt.show()

Los resultados finales de ejecución:
Aquí Insertar imagen Descripción

Liberadas nueve artículos originales · alabanza ganado 20 · vistas 7131

Supongo que te gusta

Origin blog.csdn.net/Yqq19950707/article/details/90169913
Recomendado
Clasificación