性能测试中的准确率与召回率

1、两个最常见的衡量指标是“准确率（precision）”（你给出的结果有多少是正确的）和“召回率（recall）”（正确的结果有多少被你给出了）

这两个通常是此消彼长的（trade off），很难兼得。很多时候用参数来控制，通过修改参数则能得出一个准确率和召回率的曲线（ROC），这条曲线与x和y轴围成的面积就是AUC（ROC Area）。AUC可以综合衡量一个预测模型的好坏，这一个指标综合了precision和recall两个指标。

但AUC计算很麻烦，有人用简单的F-score来代替。F-score计算方法很简单：

F-score=(2precisionrecall)/(precision+recall)

即使不是算数平均，也不是几何平均。可以理解为几何平均的平方除以算术平均。
不妨举这样一个例子：某池塘有1400条鲤鱼，300只虾，300只鳖。现在以捕鲤鱼为目的。撒一大网，逮着了700条鲤鱼，200只虾，100只鳖。那么，这些指标分别如下：

正确率 = 700 / (700 + 200 + 100) = 70%

召回率 = 700 / 1400 = 50%

F值 = 70% * 50% * 2 / (70% + 50%) = 58.3%

不妨看看如果把池子里的所有的鲤鱼、虾和鳖都一网打尽，这些指标又有何变化：

正确率 = 1400 / (1400 + 300 + 300) = 70%

召回率 = 1400 / 1400 = 100%

F值 = 70% * 100% * 2 / (70% + 100%) = 82.35%

由此可见，正确率是评估捕获的成果中目标成果所占得比例；召回率，顾名思义，就是从关注领域中，召回目标类别的比例；而F值，则是综合这二者指标的评估指标，用于综合反映整体的指标。

当然希望检索结果Precision越高越好，同时Recall也越高越好，但事实上这两者在某些情况下有矛盾的。比如极端情况下，我们只搜索出了一个结果，且是准确的，那么Precision就是100%，但是Recall就很低；而如果我们把所有结果都返回，那么比如Recall是100%，但是Precision就会很低。因此在不同的场合中需要自己判断希望Precision比较高或是Recall比较高。如果是做实验研究，可以绘制Precision-Recall曲线来帮助分析。

性能测试中的准确率与召回率

猜你喜欢