Elasticsearch之倒排索引

之前说到es搜索引擎中的核心就是倒排索引,每个字段都会维护自己的倒排索引(除非显式的关闭了),倒排索引的结构组成如下:

  • 单词词典(Term Dictionary):记录所有文档的单词,占用数据量比较大,记录了从单词到到排列表的关联信息,一般会采用B+Tree结构实现;
  • 倒排列表(Posting List):记录着单词词典对应的文档集合,它又由倒排索引项(Posting)构成,倒排索引项包括:
  1. 文档id,用于获取文档的原始数据信息
  2. 单词频率(TF,Term Frequency),记录了单词在文档中的出现次数,是相关性算分的依据之一
  3. 位置,记录了单词在原始文档数据中的分词位置,用于词语搜索
  4. 偏移量(Offset),记录了单词在原始文档数据中具体的开始和结束位置,比如可用于高亮显示某些查询结果


books 上一篇: ElasticSearch之索引和文档

books 下一篇: ElasticSearch之分词

发布了202 篇原创文章 · 获赞 571 · 访问量 147万+

猜你喜欢

转载自blog.csdn.net/fanrenxiang/article/details/85274287