9) 第二章索引：Field的设置 - 代码天地

9) 第二章索引：Field的设置

企业开发 2018-05-14 15:06:37 阅读次数: 2

Field也许算是Lucene索引阶段最重要的类，它是存储被索引值的类。当创建Field时，Lucene为其提供了诸多选项供你选择。

1. 索引

索引选项(Field.Index.*)用来控制域中的文本如何通过反向索引搜索。共有如下选项：

1) Index.ANALYZED

最常用的设置，采用分词策略，将原文拆分成词元(通常用在正文、标题、摘要等域)

2) Index.NOT_ANALYZED

不采用分词策略，即把原文当作一整个词元对待(通常用在URL、文件路径、日期等域)

3) Index.ANALYZED_NO_NORMS

它是Index.ANALYZED的高级变种，在索引文件中不存储规则信息，比如一些优先策略

扫描二维码关注公众号，回复： 821044 查看本文章

4) Index.NOT_ANALYZED_NO_NORMS

类似上面，它是Index.NOT_ANALYZED的高级变种

5) Index.NO

指定为此选项的域将不能被搜索到

2. 存储

存储选项(Field.Store.*)用来决定是否将域值存储起来。共有如下选项：

1) Store.YES

2) Store.NO

标识为YES的域值将会被存储在index中，搜索阶段可以用IndexReader检索到它。此选项对于需要在查询结果中显示的域非常有用(如URL、标题等)。

Lucene中包含一个非常有用的工具类，CompressionTools，它提供了压缩和解压byte数组的方法。其内部调用了java的内置java.util.Zip包中的方法。在存储之前你可以利用它先将内容压缩，但是压缩会降低索引和搜索的效率，对于很小的域值，通常并不值得去压缩。

3. 检索词向量

这个稍微麻烦一些，不展开了。选项如下：

1) TermVector.YES

2) TermVector.WITH_POSITIONS

3) TermVector.WITH_OFFSETS

4) TermVector.WITH_POSITIONS_OFFSETS

5) TermVector.NO

需要注意的是，如果设置了Index.NO, 则必须是TermVector.NO. 即前四个选项必须建立在域值可索引的基础上。

4. Field的构造器

Field的构造器有很多：

5. 小结

组合以上选项，主要有如下用法：

Index	Store	TermVector	常见用处
NOT_ANALYZED	YES	NO	文件名、URL、电话、日期等
ANALYZED	YES	WITH_POSITIONS_OFFSETS	标题、摘要
ANALYZED	NO	WITH_POSITIONS_OFFSETS	正文
NO	YES	NO	分类、数据库主键等只用来在结果中显示的
NOT_ANALYZED	NO	NO	隐藏的关键字

猜你喜欢

转载自bun-ny.iteye.com/blog/1073237

9) 第二章索引：Field的设置

16) 第二章索引：设置Field的截断

第二章索引

（第二章）编写与设置Servlet

10) 第二章索引：Field中含多个值的问题

Lucene In Action 第二章 2.4.1 Field options for indexing

8) 第二章索引：基本索引操作

14) 第二章索引：用Lucene索引数字

6) 第二章索引：Lucene索引的文档模型

17) 第二章索引：优化索引(Optimizing)

15) 第二章索引：设计用来排序的域

11) 第二章索引：文档优先策略(Boosting)

12) 第二章索引：规则(Norms)

第二章创建高性能索引

第二章Linux基础之共享文件设置

架构探险-第二章:为Web应用添加业务功能(9)-完善视图层

第二章：快速跟踪OOP - 类和接口(java9 cookbook)

第二章 Vue快速入门--9 使用v-on指令定义Vue中的事件

DirectX9:第二章建立3D场景的几何描述

第二章第9节Java语言基础(变量的概述及格式)

《剑指Offer》第二章（一）题 9 -12

第二章第7~9节班次维护、制造参数、预测参数

第9章索引

13) 第二章索引：用Lucene索引日期和时间

7) 第二章索引：理解Lucene索引过程

原 java编程思想第二章（一切都是对象）练习 2.11 练习9

C语言实验指导第二章 Problem 4 P9 打印平方立方表

第二章线性表顺序表的两种实现方法及9种基本操作的实现

Lucene In Action 第二章 2.3.1节向索引添加Document

「云呐操作手册」第二章：首次登录设置引导

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)