信息检索 DCG、NDCG、AUC、BM25

1、DCG

例子: 文章库内有4个文章 d 1 d 2 d 3 d 4 。针对查询Q,每个文档的打分分别为: d 1 = 0 d 2 = 1 d 3 = 2 d 4 = 2
查询Q在系统S中返回的结果顺序为: d 3 d 2 d 4 d 1

:DCG公式为: D C G R F = s c o r e i l o g 2 ( 1 + r a n k i )
查询的顺序与分数为: d 3 ( 2 ) d 2 ( 1 ) d 4 ( 2 ) d 1 ( 0 )
所以 D C G R F = 2 l o g 2 2 + 1 l o g 2 3 + 2 l o g 2 4 + 0 l o g 2 5 = 4.584

2、NDCG

例子(同上): 文章库内有4个文章 d 1 d 2 d 3 d 4 。针对查询Q,每个文档的打分分别为: d 1 = 0 d 2 = 1 d 3 = 2 d 4 = 2
查询Q在系统S中返回的结果顺序为: d 3 d 2 d 4 d 1

:NDCG公式为: N D C G = D C G R F I D C G
DCG公式为 D C G R F = s c o r e i l o g 2 ( 1 + r a n k i )
IDCG为Grund Truth即最理想的查询结果: I D C G = G T i l o g 2 ( 1 + r a n k i )
查询的顺序与分数为: d 3 ( 2 ) d 2 ( 1 ) d 4 ( 2 ) d 1 ( 0 )
所以 D C G R F = 2 l o g 2 2 + 1 l o g 2 3 + 2 l o g 2 4 + 0 l o g 2 5 = 4.584
I D C G = 2 l o g 2 2 + 2 l o g 2 3 + 1 l o g 2 4 + 0 l o g 2 5 = 7.170
综上: N D C G = D C G R F I D C G = 4.584 7.170 = 0.639

3、ROC与AUC

混淆矩阵

正确率 A c c u r a c y = T P + F N T P + T N + F P + F N

召回率 R e c a l l = T P T P + T N

精准度 P r e c i s i o n = T P T P + F P

假阳率(ROC曲线X轴) F P R = F P F P + T N

真阳率(ROC曲线Y轴) T P R = T P T P + F N

这里写图片描述
AUC就是曲线右下部分面积。

4、BM25

BM25公式 S c o r e ( Q , d ) = i n W i R ( Q i , d )

其中: Q是Query。 Q i 表示语素(切词后的语素,与词典库对应。如Q=保定驴肉火烧哪家强? Q 0 =保定, Q 1 =驴肉)。 W i 表示: 语素 Q i 的权重,通常与TF-IDF排序成正相关。

猜你喜欢

转载自blog.csdn.net/u012969412/article/details/81294609