分类评估标准

分类评估指标：

混淆矩阵：每一列代表了预测类别，每一列的总数表示预测为该类别的数据的数目，每一行代表了数据的真实归属类别，每一行的数据总数表示该类别的数据实例的数目，每一列中的数值表示真实数据被预测为该类的数目

True positives(TP)：被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数（样本数）

False positives(FP)：被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数

False negatives(FN)：被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数

True negatives(TN)：被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的实例数

正确率（accuracy），accuracy=(TP+TN)/(P+N)即分类正确的数量除以样本总数量

错误率（error rate)：被分类器错分的比例，error rate = (FP+FN)/(P+N)，accuracy=1-error rate

准确率（precision），precision=TP/(TP+FP)即正确的分类为正例的数量除以分为正例的总数

召回率（recall），recall=TP/(TP+FN)=TP/P=sensitive即正确的分类为正例的数量除以实际为正例的总数

灵敏度（sensitive），sensitive = TP/P即所有正例中被分对的比例，衡量了分类器对正例的识别能力

特效度（specificity)，specificity = TN/N即所有负例中被分对的比例，衡量了分类器对负例的识别能力

准确率与召回率之间TradeOff相互制约，两者结合的评估指标F-Measure（F1-Score）：

F1=2/(1/precision+1/recall)=2precision*recall/(precision+recall)=TP/(TP+(FN+FP)/2)

ROC曲线：以FPR为横坐标TPR为纵坐标的曲线，曲线越趋近与(0,1)点模型分类越准确

TPR（True Positive Rate）：所有实际为正例的样本中被正确的分类为正例的比例，TPR=TP/(TP+FN)

FPR（False Positive Rate）：所有实际为负例的样本中被错误的分类为正例的比例，FPR=FP/(FP+TN)

AUC面积：以FPR为横坐标TPR为纵坐标的曲线与横坐标的面积