14) 第二章索引：用Lucene索引数字 - 代码天地

14) 第二章索引：用Lucene索引数字

企业开发 2018-05-14 14:28:45 阅读次数: 2

索引数字的场景主要有两种：一是把它们当作字符串一样处理，比如“要是搁以前，术士能暴击10000多，有木有！”中的"10000"，它和其它的词没什么区别，你可以把它仅仅想成一个字符串；另一种场景则是某个域只索引数字，且可以搜索数字的范围等，比如设计了某个Field存储邮件的大小，现在要搜索大小在3M－10M的邮件。

对于第一种情况，你要做的仅仅是选一个不会对数字进行分词的分析器。这种分析器很多，比如之前我们用过的WhitespaceAnalyzer和StandardAnalyzer。当然WhitespaceAnalyzer分析器可能仅仅对英语之类的语言还有点用处。对于第二种情况，你不需要为这些专门设计用来存储数字的域进行分词，指定成Field.Index.NOT_ANALYZED就可以了。不过你必须清楚的是，Lucene内部处理的仍然只是String类型！即"10"是排在"2"前面的！若是想支持范围搜索，你需要为数字增加前置0, 即需要索引"02",这样"02"便排在"10"前面了！

public class IndexNumberTest extends TestCase{
	
	private Directory directory;
	
	protected void setUp() throws Exception {
		directory = new RAMDirectory();
		IndexWriter writer = getWriter(); 

		Document doc = new Document();
        doc.add(new Field("indexNumber",
        		"要是搁以前，术士能暴击10000多，有木有！",
                Field.Store.YES,
                Field.Index.ANALYZED));
        writer.addDocument(doc);
        writer.close();
	}

	public void testNumber() throws IOException, ParseException {
		IndexSearcher is = new IndexSearcher(directory);
		QueryParser parser = new QueryParser(Version.LUCENE_30, 
				"indexNumber", 
				new StandardAnalyzer(Version.LUCENE_30));
		Query query = parser.parse("10000");

		TopDocs topDocs = is.search(query, 1);
        assertEquals(1, topDocs.totalHits);
	}

	private IndexWriter getWriter() throws IOException {
		return new IndexWriter(directory, new StandardAnalyzer(Version.LUCENE_30),
				IndexWriter.MaxFieldLength.UNLIMITED);
	}

}

猜你喜欢

转载自bun-ny.iteye.com/blog/1084036

14) 第二章索引：用Lucene索引数字

6) 第二章索引：Lucene索引的文档模型

13) 第二章索引：用Lucene索引日期和时间

第二章索引

7) 第二章索引：理解Lucene索引过程

第二章教程14：管理器夺权

8) 第二章索引：基本索引操作

17) 第二章索引：优化索引(Optimizing)

Lucene In Action 第二章 2.3.1节向索引添加Document

第二章：数字类型

第二章数字类型

数字逻辑第二章笔记

16) 第二章索引：设置Field的截断

15) 第二章索引：设计用来排序的域

11) 第二章索引：文档优先策略(Boosting)

12) 第二章索引：规则(Norms)

9) 第二章索引：Field的设置

第二章创建高性能索引

Lucene In Action 第二章 2.4.1 Field options for indexing

路飞学城-Python14天集训营-第二章

数字逻辑第二章（逻辑代数基础）

Java编程语言基础第二章数字互换

数字逻辑——第二章组合逻辑(2)

【数字电路】第二章逻辑代数

数字图像处理第二章

数字图像处理第二章——空间滤波

数字图像处理第二章图像变换

第二章————用表组织数据

lucene初探（二）：创建索引，查询索引

Lucene系列二：反向索引及索引原理

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)