ES教程汇总推荐阅读：https://blog.csdn.net/gwd1154978352/article/details/82781731

一、Elasticsearch简单介绍

1.1、什么是ES

是一个基于Lucence构建的开源、分布式、RESTful接口全文搜索引擎，也是一个分布式文档数据库，其中每个字段均是被索引的数据且可被搜索。

1.2、ES优势 / 作用

（1）横向可扩展性：只需要增加服务器做，做点配置，启动ES就可以并入集群；

（2）分片机制提供更好的分布式性：同一个索引分成多个分片，这点类似于HDFS的块机制；分而治之的方式可以提升处理效率；

（3）高可用：提供复制机制，一个分片可以设置多个复制，使得某台服务器在宕机的情况下，集群仍然可以照常运行，并且把服务器宕机丢失的数据信息复制恢复到其他可用节点上；

（4）使用简单：只需一条命令就可以下载文件，然后很快能搭建一个站内搜索引擎。

1.3、ES应用场景

（1）大型分布式日志分析系统ELK：ES（存储日志）+logstash（收集日志）+kibana（展示数据）；

（2）大型电商搜索系统、网盘搜索引擎等。

1.4、ES存储结构

ES是文件存储，面向文档型数据库，一条数据在这里就是一个文档，用JSON作为文档序列化的格式：

{
    "name" :     "XXX",
    "sex" :      0,
    "age" :      25
}

关系数据库结构： ⇒ 数据库 ⇒ 表 ⇒ 行 ⇒ 列(Columns)

Elasticsearch结构： ⇒ 索引(Index) ⇒ 类型(type，类似于表结构) ⇒ 文档(Docments) ⇒ 字段(Fields)

1.5、ES版本控制

（1）为什么要进行版本控制

为了保证数据在多线程操作下的准确性

（2）什么是悲观锁和乐观锁

悲观锁：假设会发生并发冲突，屏蔽一切可能违反数据准确性等额操作；

乐观锁：假设不会发生并发冲突，只在提交操作时检查是否违反数据完整性。

（3）内部版本控制和外部版本控制

内部版本控制：_version自增长，修改一次_version会自动的加1；

外部版本控制：为了保持_version与外部版本控制的数值一致，使用version_type=external检查数据当前的

ES的版本控制：

通过乐观锁无锁机制，CAS，修改一次_version会自动的加1

二、原理分析

2.1、es 的分布式架构原理（es 是如何实现分布式的）

底层：基于 lucene 的。
核心思想：就是在多台机器上启动多个 es 进程实例，组成了一个 es 集群
基本单位：索引

2.2、es 写入数据的工作过程

客户端选择一个 node 发送请求过去，这个 node 就是 coordinating node（协调节点）。
coordinating node （协调节点）对 document 进行路由，将请求转发给对应的 node（有 primary shard）。
实际的 node 上的primary shard 处理请求，然后将数据同步到 replica node。
coordinating node（协调节点）如果发现primary node 和所有 replica node 都搞定之后，就返回响应结果给客户端。

2.3、es 写入数据底层原理：

数据先写入内存 buffer，然后每隔 1s，将数据 refresh 到 os cache，到了 os cache 数据就能被搜索到（所以我们才说 es 从写入到能被搜索到，中间有 1s 的延迟）。每隔 5s，将数据写入 translog 文件（这样如果机器宕机，内存数据全没，最多会有 5s 的数据丢失），translog 大到一定程度，或者默认每隔 30mins，会触发 commit 操作，将缓冲区的数据都 flush 到 segment file 磁盘文件中，数据写入 segment file 之后，同时就建立好了倒排索引。如图：
在这里插入图片描述

2.4、es 读数据(过程)原理

可以通过 doc id 来查询，会根据 doc id 进行 hash，判断出来当时把 doc id 分配到了哪个 shard 上面去，从那个 shard 去查询

客户端发送请求到任意一个 node，成为 coordinate node（协调节点）。
coordinate node（协调节点）对 doc id进行哈希路由，将请求转发到对应的 node，此时会使用 round-robin 随机轮询算法，在 primary shard 以及其所有replica 中随机选择一个，让读请求负载均衡。
接收请求的 node 返回 document 给 coordinate node（协调节点）。
coordinate node（协调节点）返回 document 给客户端。

2.5、es删除/更新数据底层原理

(1)删除原理：如果是删除操作，commit 的时候会生成一个 .del 文件，里面将某个 doc 标识为 deleted 状态，那么搜索的时候根据 .del 文件就知道这个 doc 是否被删除了
(2)更新原理：如果是更新操作，就是将原来的 doc 标识为 deleted 状态，然后新写入一条数据。
buffer 每 refresh 一次，就会产生一个segment file，所以默认情况下是 1 秒钟一个 segment file，这样下来 segment file 会越来越多，此时会定期执行 merge。每次 merge 的时候，会将多个 segment file 合并成一个，同时这里会将标识为 deleted 的 doc 给物理删除掉，然后将新的 segment file 写入磁盘，这里会写一个 commit point，标识所有新的 segment file，然后打开 segment file 供搜索使用，同时删除旧的 segment file。

2.6、底层 lucene

lucene 就是一个 jar 包，里面包含了封装好的各种建立倒排索引的算法代码。我们用 Java 开发的时候，引入 lucene jar，然后基于 lucene 的 api 去开发就可以了。通过 lucene，我们可以将已有的数据建立索引，lucene 会在本地磁盘上面，给我们组织索引的数据结构

2.7、倒排索引

在搜索引擎中，每个文档都有一个对应的文档 ID，文档内容被表示为一系列关键词的集合。

例如，文档 1 经过分词，提取了 20 个关键词，每个关键词都会记录它在文档中出现的次数和出现位置。那么，倒排索引就是关键词到文档 ID 的映射，每个关键词都对应着一系列的文件，这些文件中都出现了关键词

倒排索引中的所有词项对应一个或多个文档
倒排索引中的词项根据字典顺序升序排列

正排索引是从文档到关键字的映射（已知文档求关键字），倒排索引是从关键字到文档的映射（已知关键字求文档）

案例：

文档内容:

序号	文档内容
1	小俊是一家科技公司创始人，开的汽车是奥迪a8l，加速爽。
2	小薇是一家科技公司的前台，开的汽车是保时捷911
3	小红买了小薇的保时捷911，加速爽。
4	小明是一家科技公司开发主管，开的汽车是奥迪a6l,加速爽。
5	小军是一家科技公司开发，开的汽车是比亚迪速锐，加速有点慢

倒排索引会对以上文档内容进行关键词分词，可以使用关键词直接定位到文档内容：

单词ID	单词	倒排列表docId
1	小	1,2,3,4,5
2	一家	1,2,4,5
3	科技公司	1,2,4,5
4	开发	4,5
5	汽车	1,2,4,5
6	奥迪	1,4
7	加速爽	1,3,4
8	保时捷	2,3
9	保时捷911	2
10	比亚迪	5

倒排索引的一些常见疑问：

（1）倒排索引为什么比常见数据库的B-Tree索引速度快？

V瑞

发布了52 篇原创文章 · 获赞 116 · 访问量 5万+

私信关注

elasticsearch学习（一）——es简介与原理分析