Elasticsearch学习之认识ES

一、介绍Elasticsearch
  Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful WEB接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。Elasticsearch用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。官方客户端在Java、.NET(C#)、PHP、Python、Apache Groovy、Ruby和许多其他语言都是可用的。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr,也是基于Lucene。
  Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性,能使数据在生产环境变得更有价值。Elasticsearch的实现原理主要分为以下几个步骤,首先用户将数据提交到Elasticsearch数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据库,当用户搜素数据时候,再根据权重将结果排名,打分,再将返回结果呈现给用户。
  Elasticsearch是与名为Logstash的数据收集和日志解析引擎以及名为Kibana的分析和可视化平台一起开发的。这三个产品被设计成一个集成解决方案,称为"Elastic Stack"(以前称为"ELK stack")。
  Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。Elasticsearch是分布式的,这意味着索引可以被分成分片,每个分片可以有0个或者多个副本。每个节点托管一个或多个分片,并充当协调器将操作委托给正确的分片。再平衡和路由是自动完成的。相关数据通常存储在同一个索引中,该索引由一个或多个主分片和零个或多个复制分片组成。一旦创建了索引,就不能更改主分片的数量。
  Elasticsearch使用Lucene,并试图通过JSON和Java API提供其所有特性。它支持facetting和percolating,如果新文档与注册查询匹配,这对于通知非常有用。另一个特性称为"网关",处理索引的长期持久性;例如,在服务器崩溃的情况下,可以从网关恢复索引。Elasticsearch支持实时GET请求,适合作为NoSQL数据存储,但是缺少分布式事务。

二、Elasticsearch的核心概念
  Cluster:代表一个集群,集群中有多个Elasticsearch节点,其中有一个作为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。ES的一个概念就是去中心化,就是无中心节点,这是对于集群外部来说的,因为从外部来看ES集群,再逻辑上是个整体,你与任何一个节点的通信和与整个ES集群通信是等价的。
  Shards:代表索引分片,ES可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定,并且索引创建后不能更改。
  Replicas:代表索引副本,ES可以设置多个索引的副本,副本的作用一是提高系统的容错性,当某个节点某个分片损坏或者丢失时可以从副本中恢复。二是提高ES的查询效率,ES会自动对搜索请求进行负载均衡。
  Recovery:代表数据恢复或叫数据重新分析,ES在有节点加入或退出时会根据机器的负载对索引分片进行重新分配,挂掉的节点重新启动时也会进行数据恢复。
  River:代表ES的一个数据源,也是其他存储方式(如:数据库)同步到ES的一个方法。它是以插件方式存在的一个ES服务,通过读取River中的数据并把它索引到ES中,官方的River有couchDB的,RabbitMQ的,Twitter的,Wikipedia的。
  Gateway:代表ES索引快照的存储方式,ES默认是先把索引存放到内存中,当内存满了时再持久化到本地硬盘。gateway对索引快照进行存储,当这个ES集群关闭再重新启动时就会从gateway中读取索引备份数据。ES支持多种类型的gateway,有本地文件系统(默认),分布式文件系统,Hadoop的HDFS和amazon的s3云存储服务。
  Discovery.zen:代表ES的自动发现节点机制,ES是一个基于p2p的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。
  Transport:代表ES内部节点或集群与客户端的交互方式,默认内部是使用TCP协议进行交互,同时也支持http协议(json格式)、thrift、servlet、memcached、zeroMQ等传输协议(通过插件方式集成)。

Elasticsear节点启动后,它会利用多播(multicast)(或者单薄,如果用户更改了配置) 寻找集群中的其他节点,并与之建立连接。
在这里插入图片描述

三、ES与MySQL的对比
在这里插入图片描述
1)关系型数据库中的数据库(Database),等价于ES中的索引(Index);
2)一个数据库下面有N张表(Table),等价于1个索引Index下面有N多类型(Type);
3)一个数据库表(Table)下的数据由多行(Row)和多列(Column,属性)组成,等价于1个Type由多个文档(Document)和多个Field组成。
4)在一个关系型数据库里面,schema定义了表、每个表的字段,还有表和字段之间的关系。与之对应的,再ES中:Mapping定义索引下的字段处理规则,即索引如何建立、索引类型、是否保存原始索引JSON文档、是否压缩原始JSON文档、是否需要分词处理、如何进行分词处理等。
5)在数据库中的增(insert)、删(delete)、改(update)、查(select)操作等价于ES中的增(POST/PUT)、删(Delete)、改(_update)、查(GET)。

发布了83 篇原创文章 · 获赞 6 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/Micky_Yang/article/details/103314265