elasticsearch中index的shard规划原则

数据分布均匀

  • 对于数据量较小(100GB以下)的index,往往写入压力查询压力相对较低,一般设置3~5个shard,numberofreplicas设置为1即可(也就是一主一从,共两副本) 。

  • 对于数据量较大(100GB以上)的index:

    • 一般把单个shard的数据量控制在(20GB~50GB)

    • 让index压力分摊至多个节点:可通过index.routing.allocation.totalshardsper_node参数,强制限定一个节点上该index的shard数量,让shard尽量分配到不同节点上

    • 综合考虑整个index的shard数量,如果shard数量(不包括副本)超过50个,就很可能引发拒绝率上升的问题,此时可考虑把该index拆分为多个独立的index,分摊数据量,同时配合routing使用,降低每个查询需要访问的shard数量。

数据分布不均匀

        数据分布不均匀可能会造成某些shard的数据量过大,某些shard的数据量过小,在此种情况下与上面的差别就是需要考虑shrink相关的操作,由于shrink操作新索引的分片数必须是源索引分片数的质数,所以新建index时,索引的个数最好是类似于4,8,12,24之类的数字,否则shrink操作后新索引的分片只能是1,剩下的逻辑按照数据分布均匀时的原则进行即可

猜你喜欢

转载自blog.csdn.net/microGP/article/details/106528419