第八章信息检索的评价

1. 无序检索结果集合的评价

如何度量系统的效果？信息检索中最常用的两个指标是正确率和召回率。

正确率(Precision,简记为P)：返回的结果中相关文档所占的比例
Precision=返回结果中相关文档的数目/返回结果的数目
召回率(Recall，简记为R) ：返回的相关文档占所有相关文档的比例
Recall=返回结果中相关文档的数目/所有相关文档的数目

即: P = tp / (tp + fp), R = tp / (tp + fn)

还有一个融合了正确率和召回率的指标是F值，它是正确率和召回率的调和平均值。
$F=\frac{1}{\alpha\frac{1}{P}+(1-\alpha)\frac{1}{R}}=\frac{(\beta^2+1)}{\beta^2P+R}$
当 $\beta=1$ 时，F计算公式可简化为
$F_{\beta=1}=\frac{2PR}{P+R}$ 。

2.有序检索结果的评价方法

正确率、准确率和F值都是针对无序的文档集合进行计算。但对于搜索引擎等有序检索结果时，需要其他评价指标。

1.MAP:全称mean average precision(平均准确率)。mAP是为解决P，R，F-measure的单点值局限性的，同时考虑了检索效果的排名情况。
为了得到一个能够反映全局性能的指标，可以看考察下图，其中两条曲线(方块点与圆点)分布对应了两个检索系统的准确率-召回率曲线。

可以看出，虽然两个系统的性能曲线有所交叠但是以圆点标示的系统的性能在绝大多数情况下要远好于用方块标示的系统。
从中我们可以发现一点，如果一个系统的性能较好，其曲线应当尽可能的向上突出。
更加具体的，曲线与坐标轴之间的面积应当越大。
最理想的系统，其包含的面积应当是1，而所有系统的包含的面积都应当大于0。这就是用以评价信息检索系统的最常用性能指标，平均准确率mAP其规范的定义如下:(其中P，R分别为准确率与召回率)
$mAP=\int_0^1P(R)dR$

MAP可粗略的认为是某个查询集合对应的多条正确率-召回率曲线下面积的平均值。

2.ROC和AUC
ROC和AUC是评价分类器的指标。ROC的全名叫做Receiver Operating Characteristic。

ROC关注两个指标:
True Positive Rate ( TPR ) = TP / ( TP + FN ) ，TPR代表能将正例分对的概率
False Positive Rate( FPR ) = FP / ( FP + TN ) ，FPR代表将负例错分为正例的概率

在ROC 空间中，每个点的横坐标是FPR，纵坐标是TPR，这也就描绘了分类器在TP（真正的正例）和FP（错误的正例）间的trade-off。ROC的主要分析工具是一个画在ROC空间的曲线——ROC curve。我们知道，对于二值分类问题，实例的值往往是连续值，我们通过设定一个阈值，将实例分类到正类或者负类（比如大于阈值划分为正类）。因此我们可以变化阈值，根据不同的阈值进行分类，根据分类结果计算得到ROC空间中相应的点，连接这些点就形成ROC curve。ROC curve经过（0,0）（1,1），实际上(0, 0)和(1, 1)连线形成的ROC curve实际上代表的是一个随机分类器。一般情况下，这个曲线都应该处于(0, 0)和(1, 1)连线的上方。如图所示。

3. 相关性判定

对于大规模文档集，通常是只对一部分文档子集进行相关性判定。最常规的做法是缓冲池法，即将一系列检测系统中每个系统所返回的前k篇文档合称一个文档子集，并对这个子集进行相关性判定。

4. 系统质量与用户效用

参考

信息检索（IR）的评价指标介绍- 准确率、召回率、F1、mAP、ROC、AUC

信息检索导论第八章-信息检索的评价

第八章信息检索的评价

1. 无序检索结果集合的评价

2.有序检索结果的评价方法

3. 相关性判定

4. 系统质量与用户效用

参考

猜你喜欢

信息检索导论第八章-信息检索的评价

第八章 信息检索的评价

1. 无序检索结果集合的评价

2.有序检索结果的评价方法

3. 相关性判定

4. 系统质量与用户效用

参考

猜你喜欢

第八章信息检索的评价