【HBase】HBase的RK设计、避免热点

其他 2019-12-28 20:17:29 阅读次数: 0

一、HBase的RK设计

HBase读写数据大多数是通过RK，MemStore/HFile存储也是按照字典顺序排列的RK存储，所以要关注RK。

RowKey设计原则：

1）长度原则：

RowKey不应该超过16字节，因为若是过长再以KV形式存储，对于HFile和MemStore来说会极大的占用存储空间。

2）唯一原则：

保证RowKey的唯一性，若向HBase中同一张表插入相同RowKey的数据，则原先存在的数据会被新的数据覆盖

3）排序原则：

RowKey是按照字典序排序的。HBase中的数据永远是根据RowKey的字典排序来排序的。

4）散列原则：

设计的RowKey应均匀的分布在各个HBase节点上。能将 RegionServer的负载均衡，否则容易产生所有新数据都在一个 RegionServer 上堆积的现象。

二、HBase如何避免热点

HBase表的数据是按照RowKey来分散到不同的Region，不合理的RowKey设计会导致热点问题，热点问题是大量的客户端直接访问集群中的一个或极少数的节点，而集群中的其他节点却处于相对空闲的状态，从而影响对HBase的读写性能。

1、加盐

在RK前面加添加固定长度的随机数前缀。可以让数据分散在不同的Regin上。

缺点：增加了读的开销。

2、hash

使用将hash(rk)的全部或者只取hash值的长度前4位+rk组成新的RowKey，这里说的hash包含MD5，sha1,sha256,sha512等算法，并不是仅限于Java的Hash值计算。

缺点：同样不利于读。

3、reverse反转

4、时间戳反转

字段的选择：

一定取决于你的最大的需求，结合具体的查询条件，高频率的尽可能的放到RK里面，现有如下两列数据以及四种需求，如何设计RowKey？

userid orderno skuname skuprice skunum skusum ordercretime
jepson 0001 西瓜 10 5 50 2019-07-07 12:00:00
jepson 0002 南瓜 10 50 500 2019-07-08 12:00:00

# 需求
1)根据用户查询订单最新记录
where userid=jepson order by ordercretime desc limit 1

2)
where userid=jepson and (ordercretime>='xxx' and ordercretime<='xxxx')

3)根据时间段查询订单记录
where (ordercretime>='xxx' and ordercretime<='xxxx')

4)根据用户买了西瓜的订单记录
where userid=jepson and skuname='西瓜'

根据以上原则及其方法和综上所述，RowKey=hash(userid).substring(0, 4)+userid+ (Long.Max_Value - timestamp)，但是要注意 (Long.Max_Value - timestamp)要固定长度用0补齐。

例子：

最终的rowkey=hash(UserId).substring(0, 4)+UserId+Long.Max_Value - timestamp

调优（region个数）：
1个region memstore额外的开销为hbase.hregion.memstore.mslab.chunksize=2m，如果你的一张表有20个region，那么额外开销为40M，一百张表就是100 * 40M = 4G。所以建议小表region个数为1，中表region个数为5，大表为20，1台rs节点的region 是100-200个。

猜你喜欢

转载自www.cnblogs.com/huomei/p/12112794.html

【HBase】HBase的RK设计、避免热点

Hbase 表的Rowkey设计避免数据热点

Hbase的表结构中rowkey的设计---避免热点问题

hbase rowkey 设计（避免热点问题） || 经典案例---------wordount结合HBase使用

深度研究hbase的热点问题，和hbase 表rk的设计和手动分区region

Hbase热点问题以及避免热点问题的办法

hbase热点

【HBase】HBase 数据倾斜、热点问题以及RowKey设计

HBase(6)：热点与表的设计原则

Hbase热点问题

hbase系列-Hbase热点问题、数据倾斜和rowkey的散列设计

Hbase--热点问题

HBase:HBase的rowKey设计技巧

hbase MemStore避免内存碎片

3.4.2 HBase 简介,数据模型,架构,安装,shell操作,原理深入(读写流程),机制(刷写,合并,拆分,),API操作,协处理器,RK设计原则,热点,二级索引,布隆过滤器

How to avoid HBase Hotspotting（解决HBase热点问题）

HBASE

【Hbase】

hbase热点问题(数据倾斜)解决方案---rowkey散列和预分区设计

Hbase热点问题、数据倾斜和rowkey的散列设计

HBase 热点问题——rowkey散列和预分区设计

HBase的热点问题及解决思路

Hbase热点现象与二级索引

HBASE部分：HBASE中的表设计

HBase入门--HBase概念及表格设计

HBase实战 | HBase Rowkey 设计指南

HBase应用（三）：HBase表设计实践

HBase学习——3.HBase表设计

【Hbase】（十一）详解 HBase 表的设计原则

Hbase的预分区与Hbase的rowKey的设计原则

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)