ES教程汇总推荐阅读:https://blog.csdn.net/gwd1154978352/article/details/82781731
一、Elasticsearch简单介绍
1.1、什么是ES
是一个基于Lucence构建的开源、分布式、RESTful接口全文搜索引擎,也是一个分布式文档数据库,其中每个字段均是被索引的数据且可被搜索。
1.2、ES优势 / 作用
(1)横向可扩展性:只需要增加服务器做,做点配置,启动ES就可以并入集群;
(2)分片机制提供更好的分布式性:同一个索引分成多个分片,这点类似于HDFS的块机制;分而治之的方式可以提升处理效率;
(3)高可用:提供复制机制,一个分片可以设置多个复制,使得某台服务器在宕机的情况下,集群仍然可以照常运行,并且把服务器宕机丢失的数据信息复制恢复到其他可用节点上;
(4)使用简单:只需一条命令就可以下载文件,然后很快能搭建一个站内搜索引擎。
1.3、ES应用场景
(1)大型分布式日志分析系统ELK:ES(存储日志)+logstash(收集日志)+kibana(展示数据);
(2)大型电商搜索系统、网盘搜索引擎等。
1.4、ES存储结构
ES是文件存储,面向文档型数据库,一条数据在这里就是一个文档,用JSON作为文档序列化的格式:
{
"name" : "XXX",
"sex" : 0,
"age" : 25
}
关系数据库结构: ⇒ 数据库 ⇒ 表 ⇒ 行 ⇒ 列(Columns)
Elasticsearch结构: ⇒ 索引(Index) ⇒ 类型(type,类似于表结构) ⇒ 文档(Docments) ⇒ 字段(Fields)
1.5、ES版本控制
(1)为什么要进行版本控制
为了保证数据在多线程操作下的准确性
(2)什么是悲观锁和乐观锁
悲观锁:假设会发生并发冲突,屏蔽一切可能违反数据准确性等额操作;
乐观锁:假设不会发生并发冲突,只在提交操作时检查是否违反数据完整性。
(3)内部版本控制和外部版本控制
内部版本控制:_version自增长,修改一次_version会自动的加1;
外部版本控制:为了保持_version与外部版本控制的数值一致,使用version_type=external检查数据当前的
ES的版本控制:
通过乐观锁无锁机制,CAS,修改一次_version会自动的加1
二、原理分析
2.1、es 的分布式架构原理(es 是如何实现分布式的)
底层:基于 lucene 的。
核心思想:就是在多台机器上启动多个 es 进程实例,组成了一个 es 集群
基本单位:索引
2.2、es 写入数据的工作过程
- 客户端选择一个 node 发送请求过去,这个 node 就是 coordinating node(协调节点)。
- coordinating node (协调节点)对 document 进行路由,将请求转发给对应的 node(有 primary shard)。
- 实际的 node 上的primary shard 处理请求,然后将数据同步到 replica node。
- coordinating node(协调节点) 如果发现primary node 和所有 replica node 都搞定之后,就返回响应结果给客户端。
2.3、es 写入数据底层原理:
数据先写入内存 buffer,然后每隔 1s,将数据 refresh 到 os cache,到了 os cache 数据就能被搜索到(所以我们才说 es 从写入到能被搜索到,中间有 1s 的延迟)。每隔 5s,将数据写入 translog 文件(这样如果机器宕机,内存数据全没,最多会有 5s 的数据丢失),translog 大到一定程度,或者默认每隔 30mins,会触发 commit 操作,将缓冲区的数据都 flush 到 segment file 磁盘文件中,数据写入 segment file 之后,同时就建立好了倒排索引。如图:
2.4、es 读数据(过程)原理
可以通过 doc id 来查询,会根据 doc id 进行 hash,判断出来当时把 doc id 分配到了哪个 shard 上面去,从那个 shard 去查询
- 客户端发送请求到任意一个 node,成为 coordinate node(协调节点)。
- coordinate node(协调节点) 对 doc id进行哈希路由,将请求转发到对应的 node,此时会使用 round-robin 随机轮询算法,在 primary shard 以及其所有replica 中随机选择一个,让读请求负载均衡。
- 接收请求的 node 返回 document 给 coordinate node(协调节点)。
- coordinate node(协调节点) 返回 document 给客户端。
2.5、es删除/更新数据底层原理
(1)删除原理:如果是删除操作,commit 的时候会生成一个 .del 文件,里面将某个 doc 标识为 deleted 状态,那么搜索的时候根据 .del 文件就知道这个 doc 是否被删除了
(2)更新原理:如果是更新操作,就是将原来的 doc 标识为 deleted 状态,然后新写入一条数据。
buffer 每 refresh 一次,就会产生一个segment file,所以默认情况下是 1 秒钟一个 segment file,这样下来 segment file 会越来越多,此时会定期执行 merge。每次 merge 的时候,会将多个 segment file 合并成一个,同时这里会将标识为 deleted 的 doc 给物理删除掉,然后将新的 segment file 写入磁盘,这里会写一个 commit point,标识所有新的 segment file,然后打开 segment file 供搜索使用,同时删除旧的 segment file。
2.6、底层 lucene
lucene 就是一个 jar 包,里面包含了封装好的各种建立倒排索引的算法代码。我们用 Java 开发的时候,引入 lucene jar,然后基于 lucene 的 api 去开发就可以了。通过 lucene,我们可以将已有的数据建立索引,lucene 会在本地磁盘上面,给我们组织索引的数据结构
2.7、倒排索引
在搜索引擎中,每个文档都有一个对应的文档 ID,文档内容被表示为一系列关键词的集合。
例如,文档 1 经过分词,提取了 20 个关键词,每个关键词都会记录它在文档中出现的次数和出现位置。那么,倒排索引就是关键词到文档 ID 的映射,每个关键词都对应着一系列的文件,这些文件中都出现了关键词
- 倒排索引中的所有词项对应一个或多个文档
- 倒排索引中的词项根据字典顺序升序排列
正排索引是从文档到关键字的映射(已知文档求关键字),倒排索引是从关键字到文档的映射(已知关键字求文档)
案例:
文档内容:
序号 |
文档内容 |
1 |
小俊是一家科技公司创始人,开的汽车是奥迪a8l,加速爽。 |
2 |
小薇是一家科技公司的前台,开的汽车是保时捷911 |
3 |
小红买了小薇的保时捷911,加速爽。 |
4 |
小明是一家科技公司开发主管,开的汽车是奥迪a6l,加速爽。 |
5 |
小军是一家科技公司开发,开的汽车是比亚迪速锐,加速有点慢 |
倒排索引会对以上文档内容进行关键词分词,可以使用关键词直接定位到文档内容:
单词ID |
单词 |
倒排列表docId |
1 |
小 |
1,2,3,4,5 |
2 |
一家 |
1,2,4,5 |
3 |
科技公司 |
1,2,4,5 |
4 |
开发 |
4,5 |
5 |
汽车 |
1,2,4,5 |
6 |
奥迪 |
1,4 |
7 |
加速爽 |
1,3,4 |
8 |
保时捷 |
2,3 |
9 |
保时捷911 |
2 |
10 |
比亚迪 |
5 |
倒排索引的一些常见疑问:
(1)倒排索引为什么比常见数据库的B-Tree索引速度快?