第五章-5.7计算成本

对于一个二类问题,可以分为正确的肯定(true positive)、正确的否定(true negative)、错误的肯定(false positive)和错误的否定(false negative)。

其误差率为:

                    

为了衡量预测结果和分类结果的之间的一致性,Kappa统计量被提出。通常kappa是落在 0~1 间,可分为五组来表示不同级别的一致性:0.0~0.20极低的一致性(slight)、0.21~0.40一般的一致性(fair)、0.41~0.60 中等的一致性(moderate)、0.61~0.80 高度的一致性(substantial)和0.81~1几乎完全一致(almost perfect)。其公式为:

                                                                

其中,

   
是每一类正确分类的样本数量之和除以总样本 数,是预测分类和实际分类之和除以总样本数平方。例如:

成本矩阵,选择期望成本最低的预测。例如,成本矩阵如下:


一个测试实例属于a,b,c三类的概率为A,B,C,则预测属于a的预测成本为1-A,同理属于b的为1-B,属于c的为1-C。

为了评估成本与分类器之间的那种更加合适,通常有以下集中图形来评估。

1,上升图,横轴为总数的百分比,竖轴为正确分类数量。越靠近左上方越好,如下:


2,ROC曲线,描述分类器的性能,约靠近左上方越好,横轴为错误分类百分比,竖轴为正确分类百分比:


3,成本曲线,二类问题反馈效果最佳,多类问题也可以转换为多个二类问题来表示。这个曲线用于判定在何时使用何种分类器。

猜你喜欢

转载自blog.csdn.net/lyn5284767/article/details/80225373