Lucene4基础概念-Elasticsearch深入

学习Lucene是为了更深入搜索，学习Lucene4是为了弄懂ES中没有解释的疑问，等看完Lucene，才发现，搜索的核心原来都是Lucene，Elasticsearch只不过是包在Lucene外面的一层皮。

Lucene是一个搜索引擎包，它并非一个像tomcat一样的产品。它衍生出了solr和elasticsearch。当然，我学习的是后者。solr是apache孵化的一个搜索引擎。

马XX说过，学习是一个概念，判断，推理的过程，现在想想，老人家说的很多话，还真是那么回事。下面就是Lucene4中的一些基础核心概念。

索引(Index)

对应一个倒排表，一个检索的基本单位。在lucene中就对应一个目录。

段(Segment)

一个索引可以包含多个段，段与段之间是独立的，添加新文档可以生成新的段，不同的段可以合并。段是索引数据存储的单元。

文档(Document)

•文档是我们建索引的基本单位，不同的文档是保存在不同的段中的，一个段可以包含多篇文档。

•新添加的文档是单独保存在一个新生成的段中，随着段的合并，不同的文档合并到同一个段中。

域(Field)

•一篇文档包含不同类型的信息，可以分开索引，比如标题，时间，正文，作者等，都可以保存在不同的域里。

•不同域的索引方式可以不同。

词(Term)

词是索引的最小单位，是经过词法分析和语言处理后的字符串。

词相同，但域不同被认为是两个不同的词，也就是说词是词根和域名的一个组合。

词向量(Term Vector)

又称文档向量（document vector),由词文本和词频率组成。

语义树

语义树是构成搜索处理的一个中间结果，搜索时，会生成语义树，然后再进行搜索。

权重（Term Weight)

计算分值时使用的主要指标，指词(Term）在文档中的分值，脱离文档单独说某个词的权重是没有意义的。

Term Frequency (tf)：即此Term 在此文档中出现了多少次。tf 越大说明越重要。

Document Frequency (df)：即有多少文档包含次Term。df 越大说明越不重要。

Posting

一般情况下，将一个词条所索引的文档（一般用文档编号表示）称之为 Posting，那么一个词条索引的多个文档就称之为 Posting-list。这个词我们在看java api的时候会经常看到

Payload

即词条 (Term) 的元数据或称载荷， Lucene 支持用户在索引的过程中将词条的元数据添加的索引库中，同时也提供了在检索结果时读取 Payload 信息的功能。Payload 的诞生为用户提供了一种可灵活配置的高级索引技术，为支持更加丰富的搜索体验创造了条件。

倒排表（Inverted Indexing）

倒排表是Lucene索引采用的一套数据结构，这种结构以词为中心，能够快速找到包含该词根的文档。因为跟正常的遍历文档检索采用的方法相反，采用先匹配词，在去找包含词的文档，因此叫倒排表。倒排表是一种数据结构，lucene的数据文件一起构成了一张大的倒排表，而不是具体的某文件存储的倒排结构。

文档编号（Document Number)

Lucene内部通过文档编号索引文档。这个编号在一个段内部唯一，一个段的第一个文档的编号为0，依次递增。不过这个编号仅用于lucene内部使用，而且这个编号在段合并的时候会发生改变。如果需要在段外部使用，必须对这个编号进行唯一性重新编排，确保一个文档在更大的范围也是唯一的。重新编排的一个实现方法是，基数+段内序号的方法。比如有两个段，每个段里面都有5个文档，则第一个段的文档编号=0+段内编号，第二个段的文档编号=5+段内编号。

请支持原创：

http://donlianli.iteye.com/blog/1976024

更多elasticsearch，请参考：http://www.iteye.com/blogs/subjects/elasticsearch-tutor

对这类话题感兴趣？欢迎发送邮件至 [email protected]

关于我：邯郸人，擅长Java，Javascript，Extjs，oracle sql。

更多我之前的文章，可以访问我的空间

Lucene4基础概念-Elasticsearch深入

http://donlianli.iteye.com/blog/1976024

猜你喜欢