Lucene 源码分析之倒排索引（一） - 代码天地

Lucene 源码分析之倒排索引（一）

其他 2018-05-25 13:51:46 阅读次数: 0

倒排索引是 Lucene 的核心数据结构，该系列文章将从源码层面（源码版本：Lucene-7.3.0）分析。该系列文章将以如下的思路展开。

什么是倒排索引？
如何定位 Lucene 中的倒排索引？
倒排索引是如何搜索的？
倒排索引是如何增删改的？

本文将介绍什么是倒排索引。

了解什么是倒排索引，其实是去了解为什么要有倒排索引。考虑这样一种场景，给你很多篇文档，现在要求找出包含指定单词的文档。第一种解决方案，遍历所有文档，自然能得到结果。第二种解决方案，遍历所有文档，得到结果后记录下来，下次再有这种请求时直接读取结果。如果把所有单词的结果都记录下来，之后的任何请求都能直接从结果中读取，这个结果的集合就叫做倒排索引。

以两个文档为例：

1.hello world!
2.hello china!

如何找出包含 china 的文档？一眼扫过去就知道是第 2 个文档（但在文档数量很多内容很大的情况下，可能需要很多眼）。

但如果将所有结果（即倒排索引）提前记录如下。

单词	文档
hello	1,2
world	1
china	2

让你找出包含 china 的文档。不需要再去扫文档，根据倒排索引可知是第 2 个文档（在文档数量很多内容很大的情况下，能极大地提升效率）。

有些同学会问，两种解决方案都要去遍历文档，为什么采用第二种解决方案？因为后者只需要遍历一次，以后每次查询的时候直接查询倒排索引即可。

有些同学会问，如果采用第二种解决方案，当增删改文档的时候，倒排索引文件就不对了，那还是得重新遍历一次？不需要，将增删改文档转换为增删改倒排索引即可。

有些同学会问，增删改倒排索引的性能会不会很差？这个答案会在后面的文章中给出。而这也成为 Lucene 不断优化的目标之一。

猜你喜欢

转载自www.cnblogs.com/studyhs/p/9088048.html

Lucene 源码分析之倒排索引（一）

Lucene 源码分析之倒排索引（三）

Lucene 源码分析之倒排索引（二）

lucene源码分析—倒排索引的写过程

Lucene倒排索引简述之倒排表

Lucene倒排索引简述之索引表

Lucene倒排索引原理

Lucene架构_倒排索引

lucene的倒排序索引

Lucene--倒排索引

全文搜索Lucene之倒排索引

solr调用lucene底层实现倒排索引源码解析 solr源码分析之数据导入DataImporter追溯 lucene-solr本地调试方法

solr调用lucene底层实现倒排索引全流程解析 solr源码分析之数据导入DataImporter追溯 lucene-solr本地调试方法

lucene索引

Lucene 索引

lucene 之创建索引

Lucene之查询索引

Lucene倒排索引简述番外篇

什么是全文检索、倒排索引和Lucene

Lucene倒排索引简述细说倒排索引构建

全文搜索Lucene——之倒排算法

Lucene索引优化之setUseCompoundFile

搜索引擎lucene-03,倒排索引与lucene创建索引

深入 Lucene 索引机制

Lucene检索索引

lucene 索引的操作

【Lucene】基本索引操作

Lucene建立索引

使用Lucene建立索引

lucene全文索引

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)