HBase优化策略
- 解决热点效应
HBase数据热点问题原因:
用户大量的读写请求访问HBase集群的一台或者某几台RegionServer,导致RegionServer负载压力激增,可能会引起RegionServer性能下降,更严重者导致服务挂掉;
- 预分区 在创建表时,不按照默认的策略,为表只创建一个Region,而是根据需要,为一张表创建多个Region,从而避免热点效应
- 预分区的依据 基于Rowkey进行预分区
- 语法:
3.1 create ‘t1’, ‘f1’, SPLITS => [‘10’, ‘20’, ‘30’, ‘40’]
3.2 create ‘t1’, ‘f1’, SPLITS_FILE => ‘splits.txt’
splits.txt
10
20
30
40
3.3 create ‘t2’, ‘f1’, {NUMREGIONS => 15, SPLITALGO => ‘HexStringSplit’}- 根本上解决热点问题需要注意如下几点
- 预分区
- rowkey设置 综上2者尽量解决热点问题。
- 提高检索效率
- rowkey 相对连续 那么检索效率一定高 (顺序查询 scan操作)
- 设置Memstore大小 , Block Cache大小 hbase-site.xml 设置
hbase.hregion.memstore.flush.size 128M 每一个memstore达到128M flush hbase.regionserver.global.memstore.size 0.4 堆空间的40%
(regionserver占用JVM 对空间)
- 让数据尽可能多的放置在内存中,提高检索效率
- 避免flush memstore 阻塞client操作 hbase.regionserver.global.memstore.size.lower.limit 当全局flush到
memstore用量达95%不在flush
hfile.block.cache.size 0.4- hbase内部的块数据索引,布隆过滤器
- JVM参数配置
JVM Java进程
JVM (堆空间) HBase 新生代 1/3 老年代 2/3 永久代(静态,常量) eden survivor(from) survivor(to)
8 1 1 ParNewGC ConcMarkSweepGC ”-Xmx8g -Xms8G -Xmn128m -XX:UseParNewGC
-XX:UseConcMarkSweepGC - XX:CMSInitiatingOccupancyFraction=70 -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:$ HBASE_HOME/logs/gc-${hostname}-hbase.log”hbase-env.sh export HBASE_REGIONSERVER_OPTS=”-Xmx8g -Xms8G
-Xmn128m -XX:UseParNewGC -XX:UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:$ HBASE_HOME/logs/gc-${hostname}-hbase.log”
- mslab
- 防止内存碎片,内存碎片过多,内存泄露,发生FullGC,导致STW. hbase.hregion.memstore.mslab.enabled true 是否启用MSLAB,默认true
hbase.hregion.memstore.mslab.chunksize 2M --> 4,5M 6M
Chunk的尺寸,默认2MB
- 自动化处理的功能变成手工处理
结合定时,shell脚本 完成处理 hbase tools 手工操作 compact split
RowKey设计
设计原则: 唯一、有序、长度、散列
唯一原则
RowKey是HBase一行数据的唯一标识,必须保证唯一不重复;
有序原则
RowKey会自动按照字典顺序排序;比如:直播弹幕 ,可以设计直播间ID:timestamp
长度原则
Rowkey最大允许64字节,建议设置为16个字节以内;
50字节* 1亿记录 ≈ 4GB
- 会造成内存资源浪费
- 影响MemStore有效存储空间
散列原则
将数据分散存放到多个HBase RegionServer中存储; 避免数据热点问题;
- 区域查询多,建议 rowkey 连续 (有序原则)
- 区域查询少,散列 hash —> 加密、UUID
DigestUtils.md5Hex(rowkey); 加密
String rowkey = “yxx_male_151”;
uuid=UUID.randomUUID().toString()
String newRowKey=rowkey+" "+uuid.subString() 取几位即可