elasticsearch开源搜索与分析

一、elasticsearch简介

Elasticsearch 是一个开源的分布式搜索分析引擎，建立在一个全文搜索引擎库 Apache Lucene基础之上。
Elasticsearch 不仅仅是 Lucene，并且也不仅仅只是一个全文搜索引擎：
一个分布式的实时文档存储，每个字段可以被索引与搜索
一个分布式实时分析搜索引擎
能胜任上百个服务节点的扩展，并支持 PB 级别的结构化或者非结构化数据

1.1 elasticsearch的应用场景

信息检索
日志分析
业务数据分析
数据库加速
运维指标监控

二、elasticsearch的安装与配置

Elasticsearch解决了Lucene使用时的复杂性，它使用 Java 编写，因此需要安装jdk，elasticsearch版本7以上自带jdk可以不用特别安装

rpm -ivh jdk-8u171-linux-x64.rpm
rpm -ivh elasticsearch-7.6.1.rpm

开启elasticsearch：

systemctl daemon-reload
systemctl enable elasticsearch

如果直接安装后启动，会出现很多问题，服务无法正常启动，首先我们需要修改配置文件：

vim /etc/elasticsearch/elasticsearch.yml
cluster.name: my-es			#集群名称
node.name: server3			#主机名需要解析
path.data: /var/lib/elasticsearch	#数据目录
path.logs: /var/log/elasticsearch	#日志目录
bootstrap.memory_lock: true	#锁定内存分配
network.host: 172.20.10.11		#主机ip
http.port: 9200			#http服务端口
cluster.initial_master_nodes: ["server3"]

其次需要修改系统安全限制文件：

vim /etc/security/limits.conf
elasticsearch soft memlock unlimited
elasticsearch hard memlock unlimited
elasticsearch 	   - 	nofile 	65536
elasticsearch	   -	nproc 	4096

在文件jvm.options中Xmx设置不超过物理RAM的50％，以确保有足够的物理RAM留给内核文件系统缓存。但不要超过32G。
在这里插入图片描述

vim jvm.options
-Xms1g
-Xmx1g

最后修改systemd启动文件:

vim /usr/lib/systemd/system/elasticsearch.service
[Service]		#在service语句块下添加
LimitMEMLOCK=infinity

当配置好并开启服务后可以通过curl命令访问主机的9200端口：
在这里插入图片描述

三、elasticsearch-head插件

当数据量以及集群数量变得很大时，管理起来就会变得很困难，需要有一个图形化的界面来集中并很直观管理我们的数据和集群，elasticsearch-head插件可以完成
elasticsearch-head插件是使用JavaScript开发的，依赖Node.js库，因此需要安装node
下载elasticsearch-head插件的网址：https://github.com/mobz/elasticsearch-head/archive/master.zip
解压：
unzip elasticsearch-head-master.zip
下载node的网址：https://mirrors.tuna.tsinghua.edu.cn/nodesource/rpm_9.x/el/7/x86_64/nodejs-9.11.2-1nodesource.x86_64.rpm
安装node：

rpm -ivh nodejs-9.11.2-1nodesource.x86_64.rpm

修改ES主机ip和端口：

vim _site/app.js
http://172.20.10.11:9200

更换npm源安装：（主机需要能够连接外网）

cd elasticsearch-head-master/
npm install  --registry=https://registry.npm.taobao.org

启动head插件并打入后台：

npm run start &

在这里插入图片描述
修改ES跨域主持：

vim /etc/elasticsearch/elasticsearch.yml
http.cors.enabled: true	# 是否支持跨域
http.cors.allow-origin: "*"	# *表示支持所有域名

重启ES服务：

systemctl restart elasticsearch.service

可以在浏览器上访问head插件了
在这里插入图片描述

四、elasticsearch分布式部署

以相同的方法再安装两个ES节点，可以不用配置elasticsearch-head插件
在server4主机上修改配置文件如下：

vim  /etc/elasticsearch/elasticsearch.yml 
cluster.name: my-es
node.name: server4
path.data: /var/lib/elasticsearch
path.logs: /var/log/elasticsearch
bootstrap.memory_lock: true
network.host: 172.20.10.14
http.port: 9200
discovery.seed_hosts: ["server3", "server4", "server5"]

elasticsearch节点角色：

Master：
主要负责集群中索引的创建、删除以及数据的Rebalance等操作。Master不负责数据的索引和检索，所以负载较轻。当Master节点失联或者挂掉的时候，ES集群会自动从其他Master节点选举出一个Leader。

Data Node：
主要负责集群中数据的索引和检索，一般压力比较大。

Coordinating Node：
原来的Client node的，主要功能是来分发请求和合并结果的。所有节点默认就是Coordinating node，且不能关闭该属性。

Ingest Node：
专门对索引的文档做预处理

elasticsearch节点优化：

在生产环境下，如果不修改elasticsearch节点的角色信息，在高数据量，高并发的场景下集群容易出现脑裂等问题。
默认情况下，elasticsearch集群中每个节点都有成为主节点的资格，也都存储数据，还可以提供查询服务。
节点角色是由以下属性控制：
node.master: false|true
node.data: true|false
node.ingest: true|false
search.remote.connect: true|false
默认情况下这些属性的值都是true
node.master：这个属性表示节点是否具有成为主节点的资格
注意：此属性的值为true，并不意味着这个节点就是主节点。因为真正的主节点，是由多个具有主节点资格的节点进行选举产生的。
node.data：这个属性表示节点是否存储数据。
node.ingest: 是否对文档进行预处理。
search.remote.connect：是否禁用跨集群查询。
elasticsearch节点优化：
第一种组合：（默认）
node.master: true
node.data: true
node.ingest: true
search.remote.connect: true
这种组合表示这个节点即有成为主节点的资格，又存储数据。
如果某个节点被选举成为了真正的主节点，那么他还要存储数据，这样对于这个节点的压力就比较大了。
测试环境下这样做没问题，但实际工作中不建议这样设置。

第二种组合：（Data node）
node.master: false
node.data: true
node.ingest: false
search.remote.connect: false
这种组合表示这个节点没有成为主节点的资格，也就不参与选举，只会存储数据。
这个节点称为data(数据)节点。在集群中需要单独设置几个这样的节点负责存储数据。后期提供存储和查询服务。

第三种组合：（master node）
node.master: true
node.data: false
node.ingest: false
search.remote.connect: false
这种组合表示这个节点不会存储数据，有成为主节点的资格，可以参与选举，有可能成为真正的主节点。
这个节点我们称为master节点。

第四种组合：（Coordinating Node）
node.master: false
node.data: false
node.ingest: false
search.remote.connect: false
这种组合表示这个节点即不会成为主节点，也不会存储数据，
这个节点的意义是作为一个协调节点，主要是针对海量请求的时候可以进行负载均衡。

第五种组合：（Ingest Node）
node.master: false
node.data: false
node.ingest: true
search.remote.connect: false
这种组合表示这个节点即不会成为主节点，也不会存储数据，
这个节点的意义是ingest节点，对索引的文档做预处理。

生产集群中elasticsearch节点优化：
生产集群中可以对这些节点的职责进行划分
建议集群中设置3台以上的节点作为master节点，这些节点只负责成为主节点，维护整个集群的状态。
再根据数据量设置一批data节点，这些节点只负责存储数据，后期提供建立索引和查询索引的服务，这样的话如果用户请求比较频繁，这些节点的压力也会比较大。
所以在集群中建议再设置一批协调节点，这些节点只负责处理用户请求，实现请求转发，负载均衡等功能。

节点需求：
master节点：普通服务器即可(CPU、内存消耗一般)
data节点：主要消耗磁盘、内存。
path.data: data1,data2,data3
这样的配置可能会导致数据写入不均匀，建议只指定一个数据路径，磁盘可以使用raid0阵列，而不需要成本高的ssd。
Coordinating节点：对cpu、memory要求较高。