ElasticSearch最佳入门实践（二十八）剖析document数据路由原理 - 代码天地

ElasticSearch最佳入门实践（二十八）剖析document数据路由原理

其他 2018-11-07 14:42:24 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_33746789/article/details/83715710

1、document路由到shard上是什么意思？

我们这段，一个index的数据会被分为多片，每个片都在一个shard中，所以说，一个document存在于一个shard中
当客户端创建的时候，es此时就需要决定说，这个document存在于那个shard上。
这个过程就称之为 document routing ，数据路由。

2、路由算法：shard = hash(routing) % number_of_primary_shards

举个例子，一个index有3个primary shard，P0，P1，P2
每次增删改查一个document的时候，都会带过来一个routing number，默认就是这个document的_id（可能是手动指定，也可能是自动生成）
routing = _id，假设_id=1
会将这个routing值，传入一个hash函数中，产出一个routing值的hash值，hash(routing) = 21
然后将hash函数产出的值对这个index的primary shard的数量求余数，21 % 3 = 0
就决定了，这个document就放在P0上。

决定一个document在哪个shard上，最重要的一个值就是routing值，默认是_id，也可以手动指定，相同的routing值，每次过来，从hash函数中，产出的hash值一定是相同的

无论hash值是几，无论是什么数字，对number_of_primary_shards求余数，结果一定是在0~（number_of_primary_shards-1）之间这个范围内的。0,1,2。

3、_id or custom routing value

默认的routing就是_id
也可以在发送请求的时候，手动指定一个routing value，比如说put /index/type/id?routing=user_id
手动指定routing value是很有用的，可以保证说，某一类document一定被路由到一个shard上去，那么在后续进行应用级别的负载均衡，以及提升批量读取的性能的时候，是很有帮助的

4、primary shard数量不可变的谜底

原先有3个shard ，PO、P1、P2。现在想新增一个 P3
我现在要获取 get/index/type/1
根据路由公式
routing = _id，假设_id=1
会将这个routing值，传入一个hash函数中，产出一个routing值的hash值，hash(routing) = 21
然后将hash函数产出的值对这个index的primary shard的数量求余数，21 % 4 = 1
这个时候根据公式算出来的结果会跑到 P1 shard上去
结果发现没有找到。就会导致数据丢失

猜你喜欢

转载自blog.csdn.net/qq_33746789/article/details/83715710

ElasticSearch最佳入门实践（二十八）剖析document数据路由原理

ElasticSearch最佳入门实践（二十九）document增删改内部原理揭秘

Elasticsearch-深度剖析document数据路由原理（学习笔记）

ElasticSearch最佳入门实践（二十七）总结以及什么是distributed document store

剖析document数据路由原理和document的增删改原理

ElasticSearch最佳入门实践（六十七）document写入原理（buffer，segment，commit）

ElasticSearch最佳入门实践（三十一）document查询内部原理揭秘

[WebGL入门]二十八，纹理参数

（二十八）pytest的数据驱动

第九篇 elasticsearch的document数据路由原理

ElasticSearch最佳入门实践（三十）写一致性原理以及quorum机制深入剖析

ElasticSearch学习笔记之二十八细说Pipeline Aggregations

ElasticSearch最佳入门实践（二十四）partial update乐观锁并发控制原理以及相关操作

（二十八） HashTable

随笔（二十八）

（二十八）socketserver

elasticsearch 笔记九：document路由原理

Inno Setup入门（二十八）——使用dll（2）

Spring Boot入门教程(二十八): 校验

tensorflow入门教程(二十八)人脸识别(下)

SEO入门到精通的二十八点详解

Reflex WMS入门系列二十八：空白标签打印

ElasticSearch最佳入门实践（三十八）精确匹配与全文搜索的对比分析

ElasticSearch最佳入门实践（四十八）_filter与query深入对比解密：相关度，性能

【实战】十一、看板页面及任务组页面开发（六） —— React17+React Hook+TS4 最佳实践，仿 Jira 企业级项目（二十八）

(二十八)JdbcTemplate连接数据库

C++数据结构之堆(二十八)

Flutter(二十八)——SQLite数据库

数据结构（二十八）：哈希表

算法二十八：前缀

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)