HBase的优化策略和RowKey设计

HBase优化策略

解决热点效应

HBase数据热点问题原因：
用户大量的读写请求访问HBase集群的一台或者某几台RegionServer，导致RegionServer负载压力激增，可能会引起RegionServer性能下降，更严重者导致服务挂掉；

预分区在创建表时，不按照默认的策略，为表只创建一个Region,而是根据需要，为一张表创建多个Region,从而避免热点效应

预分区的依据基于Rowkey进行预分区

语法：
3.1 create ‘t1’, ‘f1’, SPLITS => [‘10’, ‘20’, ‘30’, ‘40’]
3.2 create ‘t1’, ‘f1’, SPLITS_FILE => ‘splits.txt’
splits.txt
10
20
30
40
3.3 create ‘t2’, ‘f1’, {NUMREGIONS => 15, SPLITALGO => ‘HexStringSplit’}

根本上解决热点问题需要注意如下几点

预分区

rowkey设置综上2者尽量解决热点问题。

提高检索效率

rowkey 相对连续那么检索效率一定高（顺序查询 scan操作）

设置Memstore大小， Block Cache大小 hbase-site.xml 设置
hbase.hregion.memstore.flush.size 128M 每一个memstore达到128M flush hbase.regionserver.global.memstore.size 0.4 堆空间的40%
（regionserver占用JVM 对空间）

让数据尽可能多的放置在内存中，提高检索效率

避免flush memstore 阻塞client操作 hbase.regionserver.global.memstore.size.lower.limit 当全局flush到
memstore用量达95%不在flush
hfile.block.cache.size 0.4

hbase内部的块数据索引，布隆过滤器

JVM参数配置

JVM Java进程

JVM (堆空间) HBase 新生代 1/3 老年代 2/3 永久代（静态，常量） eden survivor(from) survivor(to)
8 1 1 ParNewGC ConcMarkSweepGC ”-Xmx8g -Xms8G -Xmn128m -XX:UseParNewGC
-XX:UseConcMarkSweepGC - XX:CMSInitiatingOccupancyFraction=70 -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:$ HBASE_HOME/logs/gc-${hostname}-hbase.log”

hbase-env.sh export HBASE_REGIONSERVER_OPTS=”-Xmx8g -Xms8G
-Xmn128m -XX:UseParNewGC -XX:UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:$ HBASE_HOME/logs/gc-${hostname}-hbase.log”

mslab

防止内存碎片，内存碎片过多，内存泄露，发生FullGC,导致STW. hbase.hregion.memstore.mslab.enabled true 是否启用MSLAB，默认true
hbase.hregion.memstore.mslab.chunksize 2M --> 4,5M 6M
Chunk的尺寸，默认2MB

自动化处理的功能变成手工处理

结合定时，shell脚本完成处理 hbase tools 手工操作 compact split

RowKey设计

设计原则：唯一、有序、长度、散列

唯一原则

RowKey是HBase一行数据的唯一标识，必须保证唯一不重复；

有序原则

RowKey会自动按照字典顺序排序；比如：直播弹幕，可以设计直播间ID:timestamp

长度原则

Rowkey最大允许64字节，建议设置为16个字节以内；

50字节* 1亿记录 ≈ 4GB

会造成内存资源浪费
影响MemStore有效存储空间

散列原则

将数据分散存放到多个HBase RegionServer中存储；避免数据热点问题；

区域查询多，建议 rowkey 连续（有序原则）
区域查询少，散列 hash —> 加密、UUID

DigestUtils.md5Hex(rowkey); 加密
String rowkey = “yxx_male_151”;
uuid=UUID.randomUUID().toString()
String newRowKey=rowkey+" "+uuid.subString() 取几位即可

A Mr Yang

发布了24 篇原创文章 · 获赞 1 · 访问量 497

私信关注