elasticsearch搜索分析引擎

一.elasticsearch安装

1.Elasticsearch 是一个开源的分布式搜索分析引擎,建立在一个全文搜索引擎库 Apache Lucene基础之上。
2.Elasticsearch 不仅仅是 Lucene,并且也不仅仅只是一个全文搜索引擎:
一个分布式的实时文档存储,每个字段 可以被索引与搜索
一个分布式实时分析搜索引擎
能胜任上百个服务节点的扩展,并支持 PB 级别的结构化或者非结构化数据
3.基础模块
cluster:管理集群状态,维护集群层面的配置信息。
alloction:封装了分片分配相关的功能和策略。
discovery:发现集群中的节点,以及选举主节点。
gateway:对收到master广播下来的集群状态数据的持久化存储。
indices:管理全局级的索引设置。
http:允许通过JSON over HTTP的方式访问ES的API。
transport:用于集群内节点之间的内部通信。
engine:封装了对Lucene的操作及translog的调用
4.elasticsearch应用场景:信息检索 日志分析 业务数据分析 数据库加速 运维指标监控

es 7.6官方帮助
es rpm包下载

server1
rpm -ivh elasticsearch-7.6.1-x86_64.rpm  #7.6版本自带jdk,其他版本可能需要安装jdk
systemctl daemon-reload
systemctl enable elasticsearch
/var/lib/elasticsearch/nodes  #数据目录
/var/log/elasticsearch  #日志目录

在这里插入图片描述

修改配置文件
vim /etc/elasticsearch/elasticsearch.yml
cluster.name: my-es #集群名称
node.name: server1 #主机名需要解析
path.data: /var/lib/elasticsearch #数据目录
path.logs: /var/log/elasticsearch #日志目录
bootstrap.memory_lock: true #锁定内存分配
network.host: 0.0.0.0 #主机ip
http.port: 9200 #http服务端口
discovery.seed_hosts: ["server1", "server2","server3"]
cluster.initial_master_nodes: ["server1"]

修改systemd启动文件
vim /usr/lib/systemd/system/elasticsearch.service
[Service]		#在service语句块下添加
LimitMEMLOCK=infinity
systemctl daemon-reload

修改系统限制
vim /etc/security/limits.conf
elasticsearch soft memlock unlimited
elasticsearch hard memlock unlimited
elasticsearch 	   - 	nofile 	65536
elasticsearch	   -	nproc 	4096

vim /etc/elasticsearch/jvm.options
-Xms1g
-Xmx1g
Xmx设置不超过物理RAM的50%,以确保有足够的物理RAM留给内核文件系统缓存,但不要超过32G

systemctl restart elasticsearch.service

swapoff -a
vim /etc/fstab
curl localhost:9200

在这里插入图片描述

elasticsearch分布式部署
server1已经安装好,2 3保持一致
scp elasticsearch-7.6.1-x86_64.rpm server2:
scp /etc/elasticsearch/elasticsearch.yml server2:/etc/elasticsearch/elasticsearch.yml  #改一下节点
scp /etc/security/limits.conf server2:/etc/security/limits.conf
scp /usr/lib/systemd/system/elasticsearch.service server2:/usr/lib/systemd/system/elasticsearch.service

curl -X GET "localhost:9200/_cluster/health?wait_for_status=yellow&timeout=50s&pretty"

在这里插入图片描述

二.elasticsearch插件安装

elasticsearch-head
es集群只能通过api来控制,因此安装插件
下载软件
在这里插入图片描述
nodejs提取码: rhkq

集群内只需在一个节点安装
wget https://github.com/mobz/elasticsearch-head/archive/master.zip
yum install unzip -y
unzip elasticsearch-head-master.zip

head插件本质上是一个nodejs的工程,因此需要安装node
rpm -ivh nodejs-9.11.2-1nodesource.x86_64.rpm
node -v
npm -v

yum install bzip2 -y  
npm install -g cnpm --registry=https://registry.npm.taobao.org  #更换npm源安装,单次使用淘宝源
cd /root/elasticsearch-head-master
vim _site/app.js  #修改ES主机ip和端口

vim /etc/elasticsearch/elasticsearch.yml  #修改ES跨域主持
http.cors.enabled: true	# 是否支持跨域
http.cors.allow-origin: "*"	# *表示支持所有域名
cnpm install
cnpm run start &

vim /root/elasticsearch-head-master/Gruntfile.js  #监听端口
另一种安装nodejs,epel源
vim /etc/yum.repos.d/epel.repo
[epel]
name=aliyun epel
baseurl=https://mirrors.aliyun.com/epel/7/x86_64/
gpgcheck=0
yum install nodejs -y  #nodejs.x86_64 1:6.17.1-1.el7,版本有点低,导致cnpm安装不了
npm install -g n  #升级下nodejs
n stable
/usr/local/bin/npm -v  #可以写到环境变量
npm config set registry https://registry.npm.taobao.org  #永久使用
npm install -g cnpm
yum install unzip bzip2 -y  
cnpm install  #安装时会用到bzip2

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
查看ES集群状态,在server1上一个切片,server3副本
灰色标识没有副本
黄色代表没有主分片丢失
在这里插入图片描述

三.elasticsearch节点角色

Master
主要负责集群中索引的创建、删除以及数据的Rebalance等操作。Master不负责数据的索引和检索,所以负载较轻。当Master节点失联或者挂掉的时候,ES集群会自动从其他Master节点选举出一个Leader
Data Node
主要负责集群中数据的索引和检索,一般压力比较大
Coordinating Node
原来的Client node的,主要功能是来分发请求和合并结果的。所有节点默认就是Coordinating node,且不能关闭该属性
Ingest Node
专门对索引的文档做预处理

1.在生产环境下,如果不修改elasticsearch节点的角色信息,在高数据量,高并发的场景下集群容易出现脑裂等问题。
2.默认情况下,elasticsearch集群中每个节点都有成为主节点的资格,也都存储数据,还可以提供查询服务。
3.节点角色是由以下属性控制:
node.master: false|true 这个属性表示节点是否具有成为主节点的资格.注意:此属性的值为true,并不意味着这个节点就是主节点。因为真正的主节点,是由多个具有主节点资格的节点进行选举产生的
node.data: true|false 这个属性表示节点是否存储数据
node.ingest: true|false 是否对文档进行预处理
search.remote.connect: true|false 是否禁用跨集群查询
默认情况下这些属性的值都是true
在这里插入图片描述
这种组合表示这个节点即有成为主节点的资格,又存储数据。如果某个节点被选举成为了真正的主节点,那么他还要存储数据,这样对于这个节点的压力就比较大了。测试环境下这样做没问题,但实际工作中不建议这样设置

四.elasticsearch节点优化

1.不同的节点
第一种组合:(Data node)
node.master: false
node.data: true
node.ingest: false
search.remote.connect: false
这种组合表示这个节点没有成为主节点的资格,也就不参与选举,只会存储数据。
这个节点称为data(数据)节点。在集群中需要单独设置几个这样的节点负责存储数据。后期提供存储和查询服务
第二种组合:(master node)
node.master: true
node.data: false
node.ingest: false
search.remote.connect: false
这种组合表示这个节点不会存储数据,有成为主节点的资格,可以参与选举,有可能成为真正的主节点。
这个节点我们称为master节点
第三种组合:(Coordinating Node)
node.master: false
node.data: false
node.ingest: false
search.remote.connect: false
这种组合表示这个节点即不会成为主节点,也不会存储数据,
这个节点的意义是作为一个协调节点,主要是针对海量请求的时候可以进行负载均衡
第四种组合:(Ingest Node)
node.master: false
node.data: false
node.ingest: true
search.remote.connect: false
这种组合表示这个节点即不会成为主节点,也不会存储数据,
这个节点的意义是ingest节点,对索引的文档做预处理
2.生产集群中可以对这些节点的职责进行划分
建议集群中设置3台以上的节点作为master节点,这些节点只负责成为主节点,维护整个集群的状态。
再根据数据量设置一批data节点,这些节点只负责存储数据,后期提供建立索引和查询索引的服务,这样的话如果用户请求比较频繁,这些节点的压力也会比较大。
所以在集群中建议再设置一批协调节点,这些节点只负责处理用户请求,实现请求转发,负载均衡等功能
3.节点需求
master节点:普通服务器即可(CPU、内存 消耗一般)
data节点:主要消耗磁盘、内存。
path.data: data1,data2,data3
这样的配置可能会导致数据写入不均匀,建议只指定一个数据路径,磁盘可以使用raid0阵列,而不需要成本高的ssd。
Coordinating节点:对cpu、memory要求较高

猜你喜欢

转载自blog.csdn.net/qq_49564346/article/details/114578360
今日推荐