ElasticSearch—基本概念

原文作者：阮一峰

原文地址：全文搜索引擎 Elasticsearch 入门教程

全文搜索属于最常见的需求，开源的 ElasticSearch （以下简称 Elastic）是目前全文搜索引擎的首选。

它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。

Elastic 的底层是开源库 Lucene。但是，你没法直接用 Lucene，必须自己写代码去调用它的接口。Elastic 是 Lucene 的封装，提供了 REST API 的操作接口，开箱即用。

1. 近实时查询(Near RealTime)

Elasticsearch 是一个能提供近实时查询的搜索服务引擎，这意味着从索引文档到真正可搜索之间会有一个轻微的延迟(大概在一秒内)。

2. Node 与 Cluster

Elastic 本质上是一个分布式数据库，允许多台服务器协同工作，每台服务器可以运行多个 Elastic 实例。单个 Elastic 实例称为一个节点（node）。一组节点构成一个集群（cluster）。

3. Index

Elastic 会索引所有字段，经过处理后写入一个反向索引（Inverted Index）。查找数据的时候，直接查找该索引。所以，Elastic 数据管理的顶层单位就叫做 Index（索引），它是单个数据库的同义词。每个 Index （即数据库）的名字必须是小写。

下面的命令可以查看当前节点的所有 Index：


$ curl -X GET 'http://localhost:9200/_cat/indices?v'3..4

4. Document

Index 里面单条的记录称为 Document（文档）。许多条 Document 构成了一个 Index。Document 使用 JSON 格式表示，下面是一个例子。


{
  "user": "张三",
  "title": "工程师",
  "desc": "数据库管理"
}

同一个 Index 里面的 Document，不要求有相同的结构（scheme），但是最好保持相同，这样有利于提高搜索效率。

5. Type

Document 可以分组，比如weather这个 Index 里面，可以按城市分组（北京和上海），也可以按气候分组（晴天和雨天）。这种分组就叫做 Type，它是虚拟的逻辑分组，用来过滤 Document。不同的 Type 应该有相似的结构（schema），举例来说，id字段不能在这个组是字符串，在另一个组是数值。这是与关系型数据库的表的一个区别。性质完全不同的数据（比如products和logs）应该存成两个 Index，而不是一个 Index 里面的两个 Type（虽然可以做到）。

下面的命令可以列出每个 Index 所包含的 Type。


$ curl 'localhost:9200/_mapping?pretty=true'

根据规划，Elastic 6.x 版只允许每个 Index 包含一个 Type，7.x 版将会彻底移除 Type。

6. 分片和复制理

理论上，索引可以存储尽可能多的数据，但是这种情况下性能往往不太乐观，或者常见的磁盘容量限制也不能允许。所以 Elasticsearch 提供了类似于 MongoDB 中的分片功能，该功能能将索引细分为多个分片。每个分片本身是一个功能完全和独立的“索引”，可以托管在集群中的任何节点上。

同样的，有分片技术来处理数据量增长快速的问题，就意味着需要复制技术来应对这种过程中数据安全的问题(其实不只是该过程，任何情况下都应该有安全意识)。Elasticsearch 允许您将索引分片的一个或多个副本转换为所谓的副本分片。复制技术为我们提供了数据的高可用性和搜索吞吐的扩展性。不过需要注意的是，副本分片从不分配在与从其复制的原始/主分片相同的节点上。

总而言之，每个索引可以拆分为多个分片。索引也可以复制为零(意味着没有副本)或更多次。一旦复制，每个索引将具有主分片(从索引复制的原始分片)和副本分片(主分片的副本)。开发者可以在创建索引时就为每个索引定义分片和副本的数量。创建索引后，可以随时动态更改副本数，但不能在此过程后随即更改分片数。