ElasticSearch核心概念讲解

1、es的前世今生

Lucene 是最先进的，功能最强大的搜索库，但是直接基于Lucene开发十分复杂，api非常复杂，体现在实现一个简单的功能要实现大量的代码，而且需要我们深入理解其底层原理，比如各种索引结构等；

ElasticSearch : 基于Lucene进行封装，一定程度上隐藏了复杂性，提供了简单的api接口，如Java Api restful Api等；

分布式文档存储引擎
分布式的搜索引擎和分析引擎
分布式，支持PB级别的数据近实时处理
开箱即用，优秀的默认参数，不需要任何额外的设置，完全开源

ElasticSearch的来源故事还是很有趣的，大家可以网上search一波。

2、es的核心概念

Near RealTime(NRT)：近实时；两个意思。第一：从写入数据到es到数据可以被搜索中间有一个小延迟，大致1秒。第二，基于es进行搜索或数据分析的时间级别大致在秒级别；
Cluster ：集群，包含多个es节点，每一个简单属于那个集群是通过配置的，集群名称默认是 elasticsearch ，对于中小型的企业，完全只部署一个es节点就可以，很正常的事情。
Node: 节点，集群中的一个节点，节点的名称是随机分配的，节点的名称很重要的，尤其是对于运维人员来说。默认节点会加入到名称为 elasticsearch 的集群，如果直接启动一个节点，那么他们会自动自称一个elasticsearch集群，当然，一个节点也可以组成一个集群。
Document : 文档，es中的最小的数据单元，一个document可以是一条数据，通常是Json格式表示的数据，每一个index的type中都可以存储多个document

Product document

{

“product_id ” :  1,

“product_name” : “牙膏”，

“product_desc” : “高效美白”

}

Index ：索引，包含一堆有相似结构的文档数据，比如可以是一个客户索引，商品分类索引等，一个索引会有一个索引名称。
Type：类型，每个索引下面包含一个或者多个的type，type是索引下面的一个逻辑数据分类，一个type下面的document，都有field，比如，博客系列，有一个索引，可以定义用户数据type，博客数据type，评论数据type等；
Shard：单台机器无法存储大数据，es可以将一个索引的数据切分成多个shard，分布在多台机器上存储，有了shard就可以横向扩展，存储更多的数据，让搜索和分析等操作分不到多台计算机上去执行，提升吞吐量和性能，每一个shard都是一个lucene index
Replica: 任何一台服务器都可能会随时宕机或者故障，此时shard可能会丢失数据，因此可以为每一个shard建立一个副本，也就是replica，它可以在shard发生故障的时候，提供备用服务，保证数据不丢失，多个replica还可以提升操作的性能与吞吐量。Primary shard 建立索引是一次设置，默认是5个，不能修改，replica shard 也就是所说的replica，可以随时修改数量，默认一个。默认的每一个索引10个shard，5个primary shard ，5个replica shard，最小的高可用配置是2台服务器。

比如1个index的数据有3T，那么，index可以拆分成3个shard，每一个shard上面可以存放1T的数据，散落在多台服务器上面。Shard的好处，横向扩展，比如说数据又增加了1T，现在是4T的数据，我们可以重新建立一个有4个shard的索引，将数据导入进去；数据分布在多台服务器上同时分布式的执行操作，提升了吞吐量和性能。比如所有的数据存放在一台服务器上面，所有的请求都会打在一台服务期上，如果一台服务器处理请求的效率是2000/s,分布式存储，每秒钟可以处理8000个请求，大大的提升了吞吐量。

另外，如果3T的数据，分布式存放在3个服务器上，结果一台服务器宕机，数据丢失，可能在生产环境会对企业造成重大的损失，严重的会流失大量的用户。这个时候，replica shard就起到了作用，它相当于一个副本，在shard（primary shard）数据丢失时，提供数据支持。

另外，对于一些replica shard ，一些数据的读请求，是可以处理请求的，这个时候，吞吐量有提升了一倍，1秒钟可以处理16000个读请求。

3、es与数据库的对比

最后比较一下es和数据库:

docement就相当于表中的一条数据，Type相当于是一个数据表，Index相当以一个数据库