lucene的Similarity类 - 代码天地

lucene的Similarity类

编程语言 2018-05-14 12:49:55 阅读次数: 2

在优化搜索引擎结果时候，经常会重载Similarity类，或者重载的他/她的子类。

在处理长文档时候，lucene自带的评分机制对长文挡打分比较低，这个时候往往要重载Similarity的子类SweetSpotSimilarity类，在生成索引库时候，通过它的对象制定甜区的min/max范围和减少的系数。

这样子长文挡也可能得到一个高分数，排在靠前位置，否则长文挡往往排在后面

这是重载甜区类的代码

class SimilarityOne extends SweetSpotSimilarity {
    /**
	 * 
	 */
	private static final long serialVersionUID = 1L;
	//覆盖了父类的lengthNorm方法自己定义了排序的规则
	@Override
	 public float idf(int docFreq, int numDocs) {
	    return (float)6;
	  }

}

这是生成索引库时候调用上面的similarityone类：

IndexWriter index = new IndexWriter("test5index",new StandardAnalyzer(),true);
		//在制作索引的时候使用自定义的一个Similarity
		SimilarityOne sm = new SimilarityOne();
		sm.setLengthNormFactors(1, 50, 0.1f);
		index.setSimilarity(sm); ////用index生成所引
......................省略了

猜你喜欢

转载自vsc.iteye.com/blog/700315

lucene的Similarity类

Lucene Similarity (Lucene 文档评分score机制详解)

(转)Lucene打分规则与Similarity模块详解

lucene TokenFilter类学习

lucene TokenStream类学习

lucene的utils工具类

lucene 类介绍

Lucene常用类

lucene得到聚类的数量

lucene中PriorityQueue类的功能

Lucene源码解析--Field类

Lucene分析-Document类-Field类

wsm-lucene 一个简单的Lucene工具类

lucene Direction类和 term查询

Lucene中Field类很重要 (转)

【Lucene】建索引核心类介绍

lucene 索引过程的核心类

Lucene中Field类很重要

Lucene

Set Similarity

Sentence Similarity

String Similarity

similarity和clustering 相似性和聚类机器学习中的相似性度量

论文笔记·聚类：Joint Learning of Spectral Clustering Structure and Fuzzy Similarity Matrix of Data

Lucene4 入门(2)–Field类及辅助类说明

两张类图理解lucene的索引过程

Lucene之三（文件操作类2-FSDirectory）

lucene中的ListMerger类（多路归并算法的实现）

Lucene5学习之LuceneUtils工具类简单封装

Lucene之四（文件操作类3-FileSwitchDirectory）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)