HBase的优化策略和RowKey设计

HBase优化策略

  • 解决热点效应

HBase数据热点问题原因:
用户大量的读写请求访问HBase集群的一台或者某几台RegionServer,导致RegionServer负载压力激增,可能会引起RegionServer性能下降,更严重者导致服务挂掉;

  1. 预分区 在创建表时,不按照默认的策略,为表只创建一个Region,而是根据需要,为一张表创建多个Region,从而避免热点效应
  2. 预分区的依据 基于Rowkey进行预分区
  3. 语法:
    3.1 create ‘t1’, ‘f1’, SPLITS => [‘10’, ‘20’, ‘30’, ‘40’]
    3.2 create ‘t1’, ‘f1’, SPLITS_FILE => ‘splits.txt’
    splits.txt
    10
    20
    30
    40
    3.3 create ‘t2’, ‘f1’, {NUMREGIONS => 15, SPLITALGO => ‘HexStringSplit’}
  4. 根本上解决热点问题需要注意如下几点
    1. 预分区
    2. rowkey设置 综上2者尽量解决热点问题。
  • 提高检索效率
  1. rowkey 相对连续 那么检索效率一定高 (顺序查询 scan操作)
  2. 设置Memstore大小 , Block Cache大小 hbase-site.xml 设置
    hbase.hregion.memstore.flush.size 128M 每一个memstore达到128M flush hbase.regionserver.global.memstore.size 0.4 堆空间的40%
    (regionserver占用JVM 对空间)
    1. 让数据尽可能多的放置在内存中,提高检索效率
    2. 避免flush memstore 阻塞client操作 hbase.regionserver.global.memstore.size.lower.limit 当全局flush到
      memstore用量达95%不在flush
      hfile.block.cache.size 0.4
  3. hbase内部的块数据索引,布隆过滤器
  • JVM参数配置
  1. JVM Java进程

  2. JVM (堆空间) HBase 新生代 1/3 老年代 2/3 永久代(静态,常量) eden survivor(from) survivor(to)
    8 1 1 ParNewGC ConcMarkSweepGC ”-Xmx8g -Xms8G -Xmn128m -XX:UseParNewGC
    -XX:UseConcMarkSweepGC - XX:CMSInitiatingOccupancyFraction=70 -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:$ HBASE_HOME/logs/gc-${hostname}-hbase.log”

    hbase-env.sh export HBASE_REGIONSERVER_OPTS=”-Xmx8g -Xms8G
    -Xmn128m -XX:UseParNewGC -XX:UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:$ HBASE_HOME/logs/gc-${hostname}-hbase.log”

  • mslab
  1. 防止内存碎片,内存碎片过多,内存泄露,发生FullGC,导致STW. hbase.hregion.memstore.mslab.enabled true 是否启用MSLAB,默认true
    hbase.hregion.memstore.mslab.chunksize 2M --> 4,5M 6M
    Chunk的尺寸,默认2MB
  • 自动化处理的功能变成手工处理

结合定时,shell脚本 完成处理 hbase tools 手工操作 compact split

RowKey设计

设计原则: 唯一、有序、长度、散列

唯一原则

RowKey是HBase一行数据的唯一标识,必须保证唯一不重复;

有序原则

RowKey会自动按照字典顺序排序;比如:直播弹幕 ,可以设计直播间ID:timestamp

长度原则

Rowkey最大允许64字节,建议设置为16个字节以内;

50字节* 1亿记录 ≈ 4GB

  • 会造成内存资源浪费
  • 影响MemStore有效存储空间

散列原则

将数据分散存放到多个HBase RegionServer中存储; 避免数据热点问题;

  • 区域查询多,建议 rowkey 连续 (有序原则)
  • 区域查询少,散列 hash —> 加密、UUID

DigestUtils.md5Hex(rowkey); 加密
String rowkey = “yxx_male_151”;
uuid=UUID.randomUUID().toString()
String newRowKey=rowkey+" "+uuid.subString() 取几位即可

发布了24 篇原创文章 · 获赞 1 · 访问量 497

猜你喜欢

转载自blog.csdn.net/Mr_YXX/article/details/105025205
今日推荐