Python Sklearn.metrics Introducción y ejemplos de aplicación
Cuando se utiliza la variedad de Python algoritmo de aprendizaje automático, sklearn de uso frecuente (scikit-learn) Este módulo / biblioteca.
Si el uso de algoritmos de aprendizaje automático para la regresión, clasificación o agrupamiento, la evaluación , es decir, los indicadores cuantitativos modelo de prueba el efecto de aprendizaje automático, son un problema inevitable y muy importante. Por lo tanto, la combinación scikit-learn página de inicio introducción sobre, así como parte de la información en línea de terminar el dios de evaluación común y su puesta en práctica, la aplicación de una breve introducción.
A, scikit-learn instalación
, No repetirlos aquí, se pueden hacer muchos tutoriales en línea una referencia específica:
https://www.cnblogs.com/zhangqunshi/p/6646987.html
Además, si la instalación Anoconda, directamente desde Anoconda Navigator - Buscar Añadir medio ambiente interior.
pip instalar -U scikit-learn
Dos, scikit-learn.metrics importación y vocación
Hay dos formas de importar:
Una manera:
Evaluación de sklearn.metrics nombre de la función de importación
Por ejemplo:
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
Llamar para: nombre de la función de llamada directa a
calcular el error cuadrado medio del error cuadrático medio
mse = mean_squared_error(y_test, y_pre)
Cálculo del coeficiente de regresión de determinación R2
R2 = r2_score(y_test,y_pre)
Segunda manera:
métricas de importación sklearn
Llamada tripartita: métricas nombre de la función de evaluación (parámetro).
Por ejemplo:
el cálculo de un error cuadrático medio del error cuadrático medio
mse = metrics.mean_squared_error(y_test, y_pre)
Cálculo del coeficiente de regresión de determinación R2
R2 = metrics.r2_score(y_test,y_pre)
Tres, scikit-learn.metrics en una variedad de indicadores Introducción
Ver breves:
https://www.cnblogs.com/mdevelopment/p/9456486.html
detalles ver:
https://www.cnblogs.com/harvey888/p/6964741.html
web oficial:
HTTPS: // scikit -learn.org/stable/modules/classes.html#module-sklearn.metrics
Transferir el contenido del primer eslabón, una introducción breve de la siguiente manera:
Índice de retorno
-
explained_variance_score (y_true, y_pred, sample_weight = Ninguno, multiproductiva = 'uniform_average'): la varianza de la regresión (correlación entre la reacción de las variables independientes y dependientes)
-
mean_absolute_error (y_true, y_pred, sample_weight = Ninguno,
multiproductiva = 'uniform_average'):
error absoluto medio -
mean_squared_error (y_true, y_pred, sample_weight = Ninguno, multiproductiva = 'uniform_average'): 均 方差
-
median_absolute_error valor (y_true, y_pred) absoluta error
-
r2_score (y_true, y_pred, sample_weight = Ninguno, multiproductiva = 'uniform_average'): R 平方 值
Índice de Categoría
-
accuracy_score (y_true, y_pre): 精度
-
El área bajo la curva ROC; AUC representan más grande mejor rendimiento: AUC (x, y, reordenar = Falso).
-
average_precision_score (y_true, y_score, Media = 'macro', sample_weight = None): precisión de cálculo puntuación media de predicción (AP) de acuerdo con
-
brier_score_loss (y_true, y_prob, sample_weight = Ninguno, pos_label = None): Cuanto menor sea el índice de Brier, mejor.
-
confusion_matrix (y_true, y_pred, etiquetas = Ninguno, sample_weight = Ninguno): evaluados mediante el cálculo de una matriz de confusión devueltos a la clasificación matriz exactitud confusión
-
f1_score (y_true, y_pred, etiquetas = Ninguno, pos_label = 1, Media = 'binario', sample_weight = None): F1值
F1 = 2 * (precisión * recuerdo) / (precisión + recuerdo) de precisión (查准率) = TP / (TP + FP) de recordatorio (查全率) = TP / (TP + FN) -
log_loss (y_true, y_pred, eps = 1e-15, normalizar = True, sample_weight = Ninguno, etiquetas = None): número de pérdidas, también conocido como una pérdida de entropía cruzada lógico o pérdida
-
precision_score (y_true, y_pred, etiquetas = Ninguno, pos_label = 1, Media = 'binario',): precisión o exactitud; Precision (precisión) = TP / (TP + FP)
-
recall_score (y_true, y_pred, etiquetas = Ninguno, pos_label = 1, Media = 'binario', sample_weight = None): 查 全 率; recuerdo (查 全 率) = TP / (TP + FN)
-
roc_auc_score (y_true, y_score, Media = 'macro', sample_weight = None): el área bajo la curva ROC se calcula el valor AUC, mayor es la mejor
-
roc_curve (y_true, y_score, pos_label = Ninguno, sample_weight = Ninguno, drop_intermediate = True); valores calculados de la curva ROC de coordenadas horizontal y vertical, TPR, el FPR
TPR = TP / (TP + FN) Recall = (tasa de verdaderos positivos, sensibilidad) FPR = FP / (FP + TN ) ( Ejemplo tasa de falsos positivos, 1-especificidad)
En cuarto lugar, un ejemplo de aplicación
Con el caso de la web oficial, utilizando sus propios datos, un ejemplo de implementación de la aplicación:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import ensemble
from sklearn import metrics
##############################################################################
# Load data
data = pd.read_csv('Data for train_0.003D.csv')
y = data.iloc[:,0]
X = data.iloc[:,1:]
offset = int(X.shape[0] * 0.9)
X_train, y_train = X[:offset], y[:offset]
X_test, y_test = X[offset:], y[offset:]
##############################################################################
# Fit regression model
params = {'n_estimators': 500, 'max_depth': 4, 'min_samples_split': 2,
'learning_rate': 0.01, 'loss': 'ls'}
clf = ensemble.GradientBoostingRegressor(**params)
clf.fit(X_train, y_train)
y_pre = clf.predict(X_test)
# Calculate metrics
mse = metrics.mean_squared_error(y_test, y_pre)
print("MSE: %.4f" % mse)
mae = metrics.mean_absolute_error(y_test, y_pre)
print("MAE: %.4f" % mae)
R2 = metrics.r2_score(y_test,y_pre)
print("R2: %.4f" % R2)
##############################################################################
# Plot training deviance
# compute test set deviance
test_score = np.zeros((params['n_estimators'],), dtype=np.float64)
for i, y_pred in enumerate(clf.staged_predict(X_test)):
test_score[i] = clf.loss_(y_test, y_pred)
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.title('Deviance')
plt.plot(np.arange(params['n_estimators']) + 1, clf.train_score_, 'b-',
label='Training Set Deviance')
plt.plot(np.arange(params['n_estimators']) + 1, test_score, 'r-',
label='Test Set Deviance')
plt.legend(loc='upper right')
plt.xlabel('Boosting Iterations')
plt.ylabel('Deviance')
##############################################################################
# Plot feature importance
feature_importance = clf.feature_importances_
# make importances relative to max importance
feature_importance = 100.0 * (feature_importance / feature_importance.max())
sorted_idx = np.argsort(feature_importance)
pos = np.arange(sorted_idx.shape[0]) + .5
plt.subplot(1, 2, 2)
plt.barh(pos, feature_importance[sorted_idx], align='center')
plt.yticks(pos, X.columns[sorted_idx])
plt.xlabel('Relative Importance')
plt.title('Variable Importance')
plt.show()
Los resultados finales de ejecución: