ElasticSearch IDF BM25 函数图像

elasticSearch IDF BM25 函数图像

什么是IDF?

逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到

IDF函数图像

es 的idf公式:idf=log(1 + (docCount - docFreq + 0.5) / (docFreq + 0.5))
当docCount 既定时 docFreq 逐步增大
在这里插入图片描述
当docFreq 既定时docCount 逐步增大
在这里插入图片描述

什么是BM25

bm25 是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,再用简单的话来描述下bm25算法:我们有一个query和一批文档Ds,现在要计算query和每篇文档D之间的相关性分数,我们的做法是,先对query进行切分,得到单词 q i q_i qi,然后单词的分数由3部分组成:
单词 q i q_i qi和D之间的相关性
单词 q i q_i qi和D之间的相关性
每个单词的权重
最后对于每个单词的分数我们做一个求和,就得到了query和文档之间的分数。

BM25函数图像

ES的BM25算法公式 (freq * (k1 + 1)) / (freq + k1 * (1 - b + b * fieldLength / avgFieldLength))
当freq逐步增大
在这里插入图片描述
当调节因子k1逐步增大
在这里插入图片描述
当b逐步增大
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/sinat_25926481/article/details/97617657