Elasticsearch的原理和架构 - 代码天地

Elasticsearch的原理和架构

其他 2018-08-30 12:11:17 阅读次数: 0

字典

实现字典可以采取以下的数据结构，他们个有优缺点

排序列表Array/List 使用二分法查找，不平衡
HashMap/TreeMap 性能高，内存消耗大，几乎是原始数据的三倍
Skip List 跳跃表，可快速查找词语，在lucene、redis、Hbase等均有实现。相对于TreeMap等结构，特别适合高并发场景（Skip List介绍）
Trie 适合英文词典，如果系统中存在大量字符串且这些字符串基本没有公共前缀，则相应的trie树将非常消耗内存（数据结构之trie树）
Double Array Trie 适合做中文词典，内存占用小，很多分词工具均采用此种算法（深入双数组Trie）
Ternary Search Tree 三叉树，每一个node有3个节点，兼具省空间和查询快的优点（Ternary Search Tree）
Finite State Transducers (FST) 一种有限状态转移机，Lucene 4有开源实现，并大量使用

FST的原理建议访问这个页面
http://examples.mikemccandless.com/fst.py?terms=mop%2F0%0D%0Amoth%2F1%0D%0Apop%2F2%0D%0Astar%2F3%0D%0Astop%2F4%0D%0Atop%2F5%0D%0Azzz%2F10%0D%0A&cmd=Build+it%21

mop/0（/为被索引项目）
moth/1
pop/2
star/3
stop/4
top/5
zzz/10
的构建结果是
这里写图片描述
通过FST，可以快速判断一个字符是否存在，并可以快速找到索引项。同时能充分利用前缀和后缀，节省存储空间。

Lucene

luncense的目的是建立一个全文检索的工具包。

显然上面针对一个个字母建立fst是不靠谱的（保存指针的空间你足够保存好几个字符了）。所以，上述的每一个字母在实际应用中是代表一个“词“。这就需要分词器。Lucene支持多种分词器。通过分词器，可以查找文件的若干词。

如果说一般的索引是指，“文章号”对“文章中所有关键词”。
那么倒排索引把这个关系倒过来，变成：“关键词”对“拥有该关键词的所有文章号”。所谓倒排索引，一般是通过FST和SkipLIst实现的。

ElasticSearch的原理

ElasticSearch的架构

猜你喜欢

转载自blog.csdn.net/define_us/article/details/81909374

Elasticsearch的原理和架构

Elasticsearch架构原理

ELK系列二：Elasticsearch的架构原理和配置优化

ElasticSearch原理（一）：实时架构

Elasticsearch架构原理解析

Elasticsearch简介和原理

Elasticsearch的分布式架构原理

Elasticsearch分布式架构原理

ElasticSearch集群架构及底层原理

Docker架构和原理

Hive的架构和原理

Dubbo——架构和原理

Nginx 原理和架构

Dubbo架构和原理

ELK 的原理和架构

glusterfs架构和原理

Elasticsearch架构和读写过程

深度解析ElasticSearch的分布式架构原理

四、初探[ElasticSearch]集群架构原理与搜索技术

Elasticsearch的架构

Elasticsearch架构

Hive架构和工作原理

Nginx 架构和基础原理

Elasticsearch全文本搜索和原理分析

Elasticsearch(一)：简介和搜索原理

Elasticsearch原理分析——节点的启动和关闭

Elasticsearch冷热分离原理和实践

Elasticsearch集群原理、安装和基本使用

Elasticsearch中的概念和集群的工作原理

Elasticsearch基本概念和索引原理

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)