第五章-5.7计算成本

对于一个二类问题，可以分为正确的肯定（true positive）、正确的否定（true negative）、错误的肯定（false positive）和错误的否定（false negative）。

其误差率为：

为了衡量预测结果和分类结果的之间的一致性，Kappa统计量被提出。通常kappa是落在 0~1 间，可分为五组来表示不同级别的一致性：0.0~0.20极低的一致性(slight)、0.21~0.40一般的一致性(fair)、0.41~0.60 中等的一致性(moderate)、0.61~0.80 高度的一致性(substantial)和0.81~1几乎完全一致(almost perfect)。其公式为：

其中，

是每一类正确分类的样本数量之和除以总样本数，

是预测分类和实际分类之和除以总样本数平方。例如：

成本矩阵，选择期望成本最低的预测。例如，成本矩阵如下：

一个测试实例属于a,b,c三类的概率为A,B,C，则预测属于a的预测成本为1-A，同理属于b的为1-B，属于c的为1-C。

为了评估成本与分类器之间的那种更加合适，通常有以下集中图形来评估。

1，上升图，横轴为总数的百分比，竖轴为正确分类数量。越靠近左上方越好，如下：

2，ROC曲线，描述分类器的性能，约靠近左上方越好，横轴为错误分类百分比，竖轴为正确分类百分比：

3，成本曲线，二类问题反馈效果最佳，多类问题也可以转换为多个二类问题来表示。这个曲线用于判定在何时使用何种分类器。

第五章-5.7计算成本

猜你喜欢