总结

分类模型的评价指标

Accuracy = (TP+TN)/(TP+FN+FP+TN)
- 解释：(预测正确)/(预测对的和不对的所有结果)，简而言之就是预测正确的比例。
- 模型.score()方法返回的就是模型的准确率

Precision = TP/(TP+FP)
- 解释：预测结果为正例样本（TP+FP）中真实值为正例（TP）的比例。
  - 本来是猫预测也为猫 /（本来是猫预测也为猫+本来不是猫预测为猫）
API:accuracy_score

有时候我们需要综合精确率和召回率的指标，则需要使用f1-score
模型的精确率和召回率是有矛盾的，而F1分数（F1-score）是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛，常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数，最大为1，最小为0。
反应了模型的稳健性
它是精确率和召回率的调和平均数
是一个综合的评判标准
API：f1_score

AUC是一个模型评价指标，只能用于二分类模型的评价。该评价指标通常应用的比较多！
- 应用的比较多是原因是因为很多的机器学习的分类模型计算结果都是概率的形式（比如逻辑回归），那么对于概率而言，我们就需要去设定一个阈值来判定分类，那么这个阈值的设定就会对我们的正确率和准确率造成一定成都的影响。
  - 逻辑回归的默认阈值为0.5

AUC(Area under Curve)，表面上意思是曲线下边的面积，这么这条曲线是什么？

ROC曲线（receiver operating characteristic curve，接收者操作特征曲线）

真正例率TPR = TP / (TP + FN)

  - 预测为正例且实际为正例的样本占所有训练集中为正例样本的比例。
  - 将正例预测对的占正样本的比例（预测对的比例），这个比例越大越好

伪反例率FPR = FP / (FP + TN)

  - 预测为正例但实际为负例的样本占训练集中所有负例样本的比例
  - 将负例预测错的占负样本的比例（预测错的比例），这个比例越小越好

在理想情况下，最佳的分类器应该尽可能地处于左上角，这就意味着分类器在伪反例率（预测错的概率）很低的同时获得了很高的真正例率（预测对的概率）。也就是说ROC曲线围起来的面积越大越好，因为ROC曲线面积越大，则曲线上面的面积越小，则分类器越能停留在ROC曲线的左上角。
- AUC的的取值是固定在0-1之间。AUC的值越大越好。

AUC的API
- from sklearn.metrics import roc_auc_score
- y_pre = predict_proba(x_test)返回预测的概率
- auc=roc_auc_score(y_test,y_pre[:,1])