ElasticSearch(下)

一，Elasticsearch核心概念

1.cluster

代表一个集群，集群有多个节点，其中一个是主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个重要概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看，es集群，在逻辑上是个整体，你和任何一个节点的通信和整个es集群通信是等价的。

主节点的职责是负责管理集群状态，包括管理分片的状态和副本的状态，以及节点的发现和删除。

只需要在同一个网段之内启动多个es节点，就可以自动的组成一个集群。

默认情况下es自动发现同一个网段内的节点，自动组成集群。

集群状态查看

http://192.168.1.191:9200/_cluster/health?pretty

2.shards

代表索引分片，es可以把一个完整的索引分成多个切片，这样的好处是可以把一个大的索引拆分成多个，分布在多个节点上。构成分布式搜索。分片的数量只能在索引创建前指定，并且索引创建后不能更改。默认是一个索引库5个切片。

设置索引库的分片

curl -XPUT 'localhost:9200/test1/' -d'{"settings":{"number_of_shards":3}}'

3.replicas

代表索引副本，es可以给索引设置副本，副本的作用是加强集群的容错性，当某个节点某个分片损坏或丢失后可以从副本中恢复，而是提高es的查询效率，es会自动对搜索请求进行负载均衡。索引的副本个数默认是1个(总共2份)。

创建索引库时指定副本的个数

 curl -XPUT 'localhost:9200/test2/' -d'{"settings":{"number_of_replicas":0}}'

4.recovery

代表数据恢复或叫数据重新分布，es在有节点加入或退出时根据机器的负载对索引分片进行重新分配，挂掉的节点重新启动时也会进行数据恢复。

5.gateway

代表es索引的持久化存储方式，es模式是把索引存放到内存中，当内存满了之后再持久化到磁盘。当这个es集群关闭再重新启动时就会从gateway中读取数据。es吃吃多种类型的gateway，有本地文件系统(默认)，分布式文件系统，HDFS和amazon的s3云存储服务。

如果需要将数据落地到HDFS上，需要先安装插件 elasticsearch/elasticsearch-hadoop

6.discovery.zen

代表es的自动发现节点机制，es是一个基于p2p的系统，它先通过广播寻找存在的节点，再通过多播协议来进行节点之间的通信，同时也支持点对点的交互。

如果是不同网段的节点如何组成集群?

– 禁用自动发现机制

discovery.zen.ping.multicast.enabled:false

– 设置新节点被启动时能够发现的主节点列表

discovery.zen.ping.unicast.hosts:[“192.168.1.191”, “192.168.1.192”]

7.Transport

代表es内部节点或集群和客户端的交互方式，默认内部是使用tcp协议进行交互，同时它支持http协议(json格式)，thrift,servlet,memcached,zeroMQ等的传输协议(通过插件方式集成)。

二，ES中的setting和mapping

settings修改索引库的默认配置

– 例如：分片数量，副本数量

curl -XGET http://localhost:9200/wcb/_settings?pretty  ##查看settings相关设置

curl -XPUT http://localhost:9200/helloword/ -d '{
	"settings":
		{
			"number_of_shards":3,  ## 设置分片数量为3个
			"number_of_replicas":2 #设置索引库副本数量为2个
		}
}'

mapping就是对索引库中索引的字段名称及其数据类型进行定义，类似于关系数据库中表建立时要定义字段名及其数据类型，不过ES中的mapping比数据库灵活很多，它可以动态添加字段。一般不需要指定mapping都可以，因为es会自动根据数据格式定义它的类型，如果你需要对某些字段添加特殊属性(如：定义其它分词器，是否分词，是否存储等)，这个时候，就必须手动添加mapping

查询索引库的mapping信息

curl -XGET http://localhost:9200/wcb/employee/_mapping?pretty

• mappings修改字段相关属性

– 例如：字段类型，使用哪种分词工具

三，Elasticsearch的 Java Api

Java Api操作ES通过 TransportClient这个接口，我们可以不启动节点就可以和es集群进行通信，它需要制定es集群中其中一台或多台机器的ip地址和端口。

package com.shsxt.es.demo;

import java.io.IOException;
import java.net.InetAddress;
import java.net.UnknownHostException;
import java.util.Date;
import java.util.HashMap;
import java.util.Map;

import org.apache.lucene.analysis.util.CharArrayMap.EntrySet;
import org.elasticsearch.action.admin.indices.exists.indices.IndicesExistsResponse;
import org.elasticsearch.action.bulk.BulkRequestBuilder;
import org.elasticsearch.action.bulk.BulkResponse;
import org.elasticsearch.action.delete.DeleteResponse;
import org.elasticsearch.action.get.GetResponse;
import org.elasticsearch.action.index.IndexRequest;
import org.elasticsearch.action.index.IndexResponse;
import org.elasticsearch.action.search.SearchRequestBuilder;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.action.update.UpdateRequest;
import org.elasticsearch.client.IndicesAdminClient;
import org.elasticsearch.client.transport.TransportClient;
import org.elasticsearch.common.settings.Settings;
import org.elasticsearch.common.settings.Settings.Builder;
import org.elasticsearch.common.transport.InetSocketTransportAddress;
import org.elasticsearch.common.xcontent.XContentFactory;
import org.elasticsearch.index.query.QueryBuilder;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.search.SearchHit;
import org.elasticsearch.search.SearchHits;
import org.elasticsearch.search.sort.SortOrder;
import org.junit.Before;
import org.junit.Test;

public class ESDemo {
    
	//通过TransportClient接口通信
	private TransportClient client;
	
	
	/**
	 * 初始化，创建client
	 * @throws Exception 
	 */
	@Before
	public void init() throws Exception{
		Map<String, String> map = new HashMap<String, String>();
        //设置ES集群的名称
		map.put("cluster.name", "wcbcluster");
		//配置集群的相关信息
		Settings.Builder settings = Settings.builder().put(map);
        //通过指定节点ip,和通信端口获取实例对象
		client = TransportClient.builder().settings(settings).build();
		
		client.addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName("node01"),9300));
		client.addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName("node02"),9300));
		client.addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName("node03"),9300));
	}
	
	/**
	 * 创建索引库
	 */
	@Test
	public void createIndexBase(){
		 IndicesExistsResponse actionGet =  client.admin().indices().
				 prepareExists("test").execute().actionGet();
		 if (actionGet.isExists()) {
			System.out.println("test索引库已存在。。删除.....");
			
			client.admin().indices().prepareDelete("test").execute();
		}
		
		Map<String, String> map = new HashMap<>();
		map.put("number_of_replicas", "0");
		map.put("number_of_shards", "2");
		
		client.admin().indices().prepareCreate("test").setSettings(map).execute();
		System.out.println("创建完成..............");
	}
	
	/**
	 * 添加索引
	 */
	@Test
	public void addIndex(){
		HashMap<String, String> map = new HashMap<>();
		map.put("name", "bin");
		map.put("age", "20");
		map.put("gender", "male");
		map.put("describe", "zg is good");
		
		//IndexResponse response =  client.prepareIndex("test", "employee").setSource(map).
		//	execute().actionGet();
		
		IndexResponse response01 =  client.prepareIndex("test", "employee","79").setSource(map).
				execute().actionGet();
		
		System.out.println(response01.getId());
	}
	
	/**
	 * 获取索引 文档内容
	 */
	@Test
	public void getIndex(){
		GetResponse getResponse = client.prepareGet("test", "employee", "79").execute().actionGet();
		System.out.println(getResponse.getVersion());
		
		Map<String, Object> source = getResponse.getSource();
		
		for (String key : source.keySet()) {
			System.out.println(key+"--->"+source.get(key));
		}
		
		
	}
	
	/**
	 * 搜索
	 */
	@Test
	public void search(){
		//指定从 test 和ik 索引库中查找
		SearchRequestBuilder builder =  client.prepareSearch("test","ik");
		//指定从employee，ikType,blog这三个类型中找
		builder.setTypes("employee","ikType","blog");
		//设置分页,设置从第几页开始，每页显示的个数
		builder.setFrom(0);
		builder.setSize(3);
		
		String key = "bin";
		//设置从name 和 content字段中去查询和 key值匹配的文档
		builder.setQuery(QueryBuilders.multiMatchQuery(key, "name","content"));
		//根据年龄倒叙排序，默认是按照相关性打分
		builder.addSort("age",SortOrder.DESC);
		
		//开始查询
		SearchResponse searchResponse =  builder.get();
		
		//获取查询的返回信息
		SearchHits hits =  searchResponse.getHits();
		
		//一共有多少个符合条件的查询结果
		System.out.println("总共查询到了："+hits.getTotalHits());
		
		//获取查询到的结果数组
		SearchHit [] hits2 =  hits.getHits();
		
		for (SearchHit searchHit : hits2) {
			System.out.println("分数:"+searchHit.getScore());
			
			Map<String, Object> map = searchHit.getSource();
			System.out.println("id-->"+searchHit.getId());
			System.out.println("index-->"+searchHit.getIndex());
			
			for(String mapKey: map.keySet()){
				System.out.println(mapKey+"---->"+map.get(mapKey));
			}
			
			System.out.println("======================");
			
		}
	}
	
	/**
	 * 更新文档  对已有的字段更新，没有的新增
	 */
	@Test
	public void update(){
		UpdateRequest updateRequest = new UpdateRequest();
		updateRequest.index("test");
		updateRequest.type("employee");
		updateRequest.id("79");
		
		Map<String, String> map = new HashMap<>();
		map.put("age", "25");
		map.put("date", "2018-01-01");
		updateRequest.doc(map);
		
		client.update(updateRequest);
		
	}
	
	/**
	 * 如果document不存在，则创建，存在就执行更新
	 * @throws IOException 
	 */
	@Test
	public void upsert() throws IOException{
		IndexRequest indexRequest = new IndexRequest("test", "employee", "80")
				.source(XContentFactory.jsonBuilder()
						.startObject().field("name","lyp")
						.field("age","26").field("haha","xixi")
						.endObject());
		
		UpdateRequest updateRequest = new UpdateRequest("test","employee", "80")
				.doc(XContentFactory.jsonBuilder()
						.startObject().field("city","beijing")
						.field("describe","beijing is good").endObject());
		
		updateRequest.upsert(indexRequest);
		
		client.update(updateRequest);
		
	}
	
	/**
	 * 删除文档操作
	 */
	@Test
	public void delete(){
		
		DeleteResponse response = client.prepareDelete("test","employee", "79").execute().actionGet();
		
		System.out.println(response.isFound());
	}
	
	/**
	 * 批量操作
	 * @throws IOException 
	 */
	@Test
	public void bulk() throws IOException{
		BulkRequestBuilder builder = client.prepareBulk();
		
		IndexRequest indexRequest = new IndexRequest("test","employee","333").source(
				XContentFactory.jsonBuilder().startObject()
				.field("user","kiadfa").field("postData",new Date())
				.field("message","trying out ElasticSearch").endObject());
		
		//添加一个插入数据操作
		builder.add(indexRequest);
		
		//添加一个删除文档操作
		builder.add(client.prepareDelete("test", "employee", "80"));
		
		BulkResponse bulkResponse = builder.get();
		
		System.out.println(bulkResponse.hasFailures());
	}
}

四，ES的查询

4.1 query and fetch(速度最快)

返回N倍数据量

向索引的所有分片都发出查询请求，个分片返回的时候把元素文档和计算后的排名信息一起返回。这种搜索方式是最快的，因为相比下面的集中搜索方式，这种查询方法只需要去shard查询一次，但是各个shard返回的结果的数量之和可能是用户要求的size的N倍。

4.2 query and fetch(default)

如果你搜索时，没指定搜索方式，就是用的这种搜索方式。这种搜索方式方式：大概分为两个步骤，第一步：先向所有的shard发出请求，各分片只返回排序和排名相关的信息(注意：不包括文档document)，然后按照个分片返回的分数进行重新排序和排名，取前size个文档。然后进行第二步，去相关的shard取document。这种方式返回的document与用户要求的size是相等的

4.3 DFS query fetch

可以更精确控制搜素打分和排名

这种方式比第一种多了一个初始化散发(initial scatter)步骤，有这一步可以更精确控制搜索打分和排名

4.4 DFS query then fetch(最慢)

初始化散发其实就是在进行真正的查询之前，先把各个分片的频率和文档频率收集一下，然后进行词搜索的时候，各分片依据全局的词频率和文档频率进行搜索和排名。显然如果使用DFS_QUERY_THEN_FETCH这种查询方式，效率是最低的，因为一个搜索，可能要请求3次分片。但使用DFS方法，搜索精度应该是最高的。频率和文档频率收集一下，然后进行词搜索的时候，各分片依据全局的词频率和文档频率进行搜索和排名。显然如果使用DFS_QUERY_THEN_FETCH这种查询方式，效率是最低的，因为一个搜索，可能要请求3次分片。但使用DFS方法，搜索精度应该是最高的。

从性能考虑QUERY_AND_FETCH是最快的， DFS_QUERY_THEN_FETCH是最慢的。从搜索的准确度来说，DFS要比非DFS的准确度更高。

• 查询:query – builder.setQuery(QueryBuilders.matchQuery(“name”, “test”))

• 分页:from/size – builder.setFrom(0).setSize(1)

• 排序:sort – builder.addSort(“age”, SortOrder.DESC)

• 过滤:filter – builder.setPostFilter(QueryBuilders.rangeQuery(“age”).from(1).to(19))

• 高亮:highlight

• 统计:facet(已废弃)使用aggregations 替代

– 根据字段进行分组统计

– 根据字段分组，统计其他字段的值

– size设置为0，会获取所有数据，否则，只会返回10条

五，ES的分页

ES使用的是 from 和 size 两个参数

– size 每次返回多少个结果默认是10个

– from 从哪条结果开始，默认值为0

假设每页显示5条结果，那么1至3页的请求就是：

GET /_search?size=5
GET /_search?size=5&from=5
GET /_search?size=5&from=10

注意：不要一次请求过多或者页码过大的结果，这么会对服务器造成很大的压力。因为它们会在返回前排序。一个请求会经过多个分片。每个分片都会生成自己的排序结果。然后再进行集中整理，以确保最终结果的正确性。

• timed_out告诉了我们查询是否超时

• curl -XGET http://localhost:9200/_search?timeout=10ms

– es会在10ms之内返回查询内容

• 注意：timeout并不会终止查询，它只是会在你指定的时间内返回当时已经查询到的数据，然后关闭连接。在后台，其他的查询可能会依旧继续，尽管查询结果已经被返回了。

六，ES分片查询

默认是randomize across shards

随机选取，表示随机的从分片中取数据

_local : 指查询操作会优先在本地节点有的分片中查询，没有的再去其它节点查询

_primary_first : 指查询会先在主分片中查询，如果主分片中找不到(挂了)，就会在副本中查询。

_primary : 只在主分片中查询

_only_node : 指在指定id的节点里面进行查询，如果该节点只有查询索引的部分分片，就只在这部分分片中查找，所以查询结果可能不完整。

_prefer_node:nodeid 优先在指定的节点上执行查询

_shards: 0,1,2,3,4 查询指定分片的数据

七，ES中脑裂问题

脑裂问题：类似于精神分裂，就是同一个集群中的不同节点，对于集群的状态有了不一样的理解。discovery.zen.minimum_master_nodes 用于控制选举行为发生的最小集群节点数量。推荐设为大于1的数值，因为只有在2个以上的节点的集群中，主节点才是有意义的。

正常情况下，集群中的所有的节点，应该对集群中master的选择是一致的，这样获得的状态信息也应该是一致的，不一致的状态信息，说明不同的节点对maste节点的选择出现了异常——也就是所谓的脑裂问题。这样的脑裂状态直接让节点失去了集群的正确状态，导致集群不能正常工作。

Elasticsearch中脑裂产生的原因

网络：由于是内网通信，网络通信问题造成某些节点认为 master死掉，而另选master的可能性较小
节点负载：由于master节点与data节点都是混合在一起的，所以当工作节点的负载较大时，导致对应的ES实例停止响应，而这台服务器如果正充当着master节点的身份，那么一部分节点就会认为这个master节点失效了，故重新选举新的节点，这时就出现了脑裂；同时由于data节点上ES进程占用的内存较大，较大规模的内存回收操作也能造成ES进程失去响应。

ES中脑裂解决

主节点：

node.master: true

node.date: false

从节点:

node.master : false

node.date : true

所有节点：

discovery.zen.ping.multicast.enabled: false

discovery.zen.ping.unicast.hosts: [“slave1”, “master” , “slave2"]

八，ES的优化

调大系统的"最大打开文件数"，建议32k甚至64k

– ulimit -a (查看)

– ulimit -n 32000(设置)

修改配置文件调整ES的JVM内存大小

修改bin/elasticsearch.in.sh 中ES_MIN_MEM 和 ES_MAX_MEM的大小，建议设置一样大，避免频繁的分配内存，根据服务器内存大小，一般分配60%左右(默认256M)

设置mlockall来锁定进程的物理内存地址

避免交换(swapped)来提高性能

修改文件 conf/elasticsearch.vml

bootstrap.mlockall:true

分片多的话，可以提升建立索引的能力，5-20个比较合适

如果分片数过少或过多，都会导致检索比较慢。分片数过多会导致检索时打开比较对的文件，另外也会导致多台服务器之间通讯。而分片数过少会导致单个分片索引过大，所以检索速度慢。建议单个分片最多存储20G总有的索引数据，所以，分片数量=数据总量/20G(每个分片大小在20G-30G较为合适).

副本设置

副本多的话，可以提升搜索的能力，但是如果设置很多副本的话也会对服务器造成额外的压力，因为需要同步数据。所以建议设置2-3个较为合适。

删除文档

在Lucene中删除文档，数据不会立马删除，而是在lucene索引中产生一个.del文件，而在检索过程中这部分数据也会参与检索，lucene在检索过程会判断是否删除，如果删除了再过滤掉。这样也会降低查询效率，所以可以执行清除删除文档

curl -XPOST 'http://localhost:9200/elasticsearch/_optimize?only_expunge_deletes=true' 

– client.admin().indices().prepareOptimize("elasticsearch ").setOnlyExpungeDeletes(true).get();

导入数据时副本设置

如果在项目开始的时候需要批量入库大量数据的话，建议将副本数设置为0，因为es在索引数据的时候，如果有副本存在，数据也会立马同步同步副本中，这样也对es增加压力。待索引完成后将副本按需要改回来，这样可以提高索引效率

去掉mapping中_all域

ES默认为每个被索引的文档都定义了一个特殊的域：_all 它自动包含被索引文档中一个或者多个域中的内容，在进行搜索时，如果不指明要搜索的文档的域，ES则会去搜索_all域。——all带来搜索方便，其代价是增加了系统在索引阶段对CPU和存储空间资源的开销。

可以使用“_all”:{“enabled”:false} 开关禁用它

定时对索引进行优化

不然segment越多，查询的性能就越差

– 索引量不是很大的情况下可以将 segment设置为 1

curl -XPOST 'http://localhost:9200/test/_optimize?max_num_segments=1'

java代码设置

client.admin().indices().prepareOptimize(“test").setMaxNumSegments(1).get();

九，注意点

在使用java代码操作es集群的时候要保证本地使用的es的版本和集群上es 的版本保持一致。

• 保证集群中每个节点的JDK版本和es配置一致

Elasticsearch的分片规则

• elasticsearch在建立索引时，根据id或id，类型进行hash，得到hash值与该索引库的分片数量取余，取余的值即为存入的分片ID。

– 具体源码为：根据OperationRouting类generateShardId方法进行分片