ElasticSearch最佳入门实践(二十八)剖析document数据路由原理

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_33746789/article/details/83715710

1、document路由到shard上是什么意思?

我们这段,一个index的数据会被分为多片,每个片都在一个shard中,所以说,一个document存在于一个shard中
当客户端创建的时候,es此时就需要决定说,这个document存在于那个shard上。
这个过程就称之为 document routing ,数据路由。

2、路由算法:shard = hash(routing) % number_of_primary_shards

举个例子,一个index有3个primary shard,P0,P1,P2
每次增删改查一个document的时候,都会带过来一个routing number,默认就是这个document的_id(可能是手动指定,也可能是自动生成)
routing = _id,假设_id=1
会将这个routing值,传入一个hash函数中,产出一个routing值的hash值,hash(routing) = 21
然后将hash函数产出的值对这个index的primary shard的数量求余数,21 % 3 = 0
就决定了,这个document就放在P0上。

决定一个document在哪个shard上,最重要的一个值就是routing值,默认是_id,也可以手动指定,相同的routing值,每次过来,从hash函数中,产出的hash值一定是相同的

无论hash值是几,无论是什么数字,对number_of_primary_shards求余数,结果一定是在0~(number_of_primary_shards-1)之间这个范围内的。0,1,2。

3、_id or custom routing value

默认的routing就是_id
也可以在发送请求的时候,手动指定一个routing value,比如说put /index/type/id?routing=user_id
手动指定routing value是很有用的,可以保证说,某一类document一定被路由到一个shard上去,那么在后续进行应用级别的负载均衡,以及提升批量读取的性能的时候,是很有帮助的

4、primary shard数量不可变的谜底

原先有3个shard ,PO、P1、P2。现在想新增一个 P3
我现在要获取 get/index/type/1
根据路由公式
routing = _id,假设_id=1
会将这个routing值,传入一个hash函数中,产出一个routing值的hash值,hash(routing) = 21
然后将hash函数产出的值对这个index的primary shard的数量求余数,21 % 4 = 1
这个时候根据公式算出来的结果会跑到 P1 shard上去
结果发现没有找到。就会导致数据丢失

猜你喜欢

转载自blog.csdn.net/qq_33746789/article/details/83715710