索引整体架构 - 代码天地

索引整体架构

其他 2018-05-07 10:47:55 阅读次数: 3

Lucene将索引文档的过程设计成两个阶段，写入内存阶段和写入硬盘阶段。在写入内存阶段，Lucene通过IndexChain把document分解并把相关信息存储到内存中,等到满足flush条件(内存容量或者文档个数积累到临界值),就通过IndexChain把内存中的数据写入硬盘。IndexChain是Lucene索引文档很重要的一部分，那么IndexChain是什么呢

Lucene形成索引的过程其实就是对document进行分解的过程。通过对document的分解，得到词典、倒排表等信息。IndexChain就是分解document的对象集合，或者说架构。索引链的结构如下图所示

上图中IndexChain的起点是DocFieldProcessor,它会分别调用DocInverter(倒排信息处理)和TowStoredFieldsConsumer(正向信息处理)。反向信息有四种：

信息种类	作用	处理组件
norm信息	用来消除长文本和短文本之间的差距	NormsConsumer
Freq信息	文档排序时的重要因子	FreqProxTermsWriter
Pos信息	位置信息，在PhraseQuery时会有用	FreqProxTermsWriter
TermVector	高亮处理需要记录的信息	TermVectorsConsumer

正向信息有两种：

信息种类	作用	处理组件
Fields	形成完整的一个doc	StoredFieldsProcessor
docValues	排序因子	DocValuesProcessor

猜你喜欢

转载自blog.csdn.net/asdfsadfasdfsa/article/details/80212864

索引整体架构

ElasticSearch 索引整体迁移

银行IT系统 -整体架构

tomcat 整体架构

openjdk 整体架构（概览）

tomcat整体架构浅析

Tomcat整体架构分析

Spring整体架构

【jdbc】jdbc 整体架构

银行系统整体架构

银行IT系统整体架构

项目-整体架构

Spring的整体架构

Dubbo框架——整体架构

【leveldb】整体架构

EOS整体架构分析

软件测试整体架构

linux内核整体架构

pixhawk 整体架构的认识

二、Spring的整体架构

Netty整体架构

直播平台整体架构

008 Rabbitmq的整体架构

RabbitMQ ——整体架构

Mybatis整体架构

Web技术整体架构

tomcat整体架构

支付系统的整体架构

Dubbo的整体架构

springcloud整体架构

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)