Lucene的score打分策略的问题 - 代码天地

Lucene的score打分策略的问题

企业开发 2018-05-31 04:21:00 阅读次数: 0

    这段时间在项目中我们在使用lucene的时候发现一个问题，例如：
    有两个索引域的内容为：新浪微博spring、新浪微博，当我输入"新浪微博"进行搜索的时候，按照lucene的score计算公式，新浪微博的值应该要高，但是实际上两个值却是一样。通过分析源代码发现问题出现的原因是：
    lucene在计算lengNorm的时候本身没有错，但是它对lengNorm进行了编码，结果转码的时候会出现错误，比如计算出来的lengNorm为0.4472136，可是经过它内部的编码解码后值却变成了：0.4375，导致计算出来的score值出现误差，代码为NormsWriterPerField类中：

        if (fieldInfo.isIndexed && !fieldInfo.omitNorms) {
      if (docIDs.length <= upto) {
        assert docIDs.length == upto;
        docIDs = ArrayUtil.grow(docIDs, 1+upto);
        norms = ArrayUtil.grow(norms, 1+upto);
      }
      final float norm = docState.similarity.computeNorm(fieldInfo.name, fieldState);
      norms[upto] = Similarity.encodeNorm(norm);
      docIDs[upto] = docState.docID;
      upto++;
    }

编码解码代码为Similarity类中：

  /** Cache of decoded bytes. */
  private static final float[] NORM_TABLE = new float[256];

  static {
    for (int i = 0; i < 256; i++)
      NORM_TABLE[i] = SmallFloat.byte315ToFloat((byte)i);
  }
  /** Decodes a normalization factor stored in an index.
   * @see #encodeNorm(float)
   */
  public static float decodeNorm(byte b) {
    return NORM_TABLE[b & 0xFF];  // & 0xFF maps negative bytes to positive above 127
  }
  public static byte encodeNorm(float f) {
    return SmallFloat.floatToByte315(f);
  }

我想lucene的作者不会犯这种低级错误吧，应该是故意这样设计的吧，至于原因，目前还在分析中。。。。。
**********************************分界线×××××××××××××××××××××××
原因是因为作者将编码后的lengthNorm值转化成一个byte，而一个float是四个字节，导致了数据的准确性。作者这样设计估计是为了在保证不影响正常功能的情况下尽可能的提高性能吧。

猜你喜欢

转载自hufuli.iteye.com/blog/1477650

Lucene的score打分策略的问题

解析Elasticsearch/lucene打分策略

改进lucene的打分算法

solr——影响Lucene对文档打分的四种方式有关Lucene的问题(4):影响Lucene对文档打分的四种方式

Lucene打分公式的数学推导

Lucene打分公式详解(TFIDFSimilarity)

ElasticSearch之score打分机制原理

深入理解Lucene默认打分算法

Elasticsearch function_score 打分源代码跟踪

Lucene Similarity (Lucene 文档评分score机制详解)

Lucene 控制segments策略

【Lucene】查询term后加上'*'对打分的影响

(转)Lucene打分规则与Similarity模块详解

Lucene6.6 添加因子影响文档打分

lucene实战--打分算法没有那么难？

关于使用Filter降低Lucene tf idf打分计算的调研

向量空间模型与Lucene的打分机制以及影响打分的几种方式

Lucene 评分(score)机制--Document Boost和Field Boost

二 OOM打分因子、oom_adj以及oom_score

通过案例实战详解elasticsearch自定义打分function_score的使用

backtrader策略库：基于z-score的配对策略

Score

Lucene updateDocument注意问题

Lucene索引阶段设置Document Boost和Field Boost 实现合理打分

在Lucene或Solr中实现高亮的策略

Redis SortedSet 中 score 的精度问题

如何利用 lucene score机制来实现关键字竞价排名

我为什么没有用lucene的score来排序

lucene 和 IKAnalyzer 的版本问题

lucene关于中文分词的问题

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)