1、现象及原因

某一时间内，大量读写请求都集中在某个region或者某台regionserver中，导致这台regionserver的负载非常高，其他regionserver非常的空闲
本质：Hbase的请求负载不均衡
原因1：一张表只有一个region，没有构成分布式:
- 导致对于这张表所有的请求都写入一个region，请求了一台regionserver
- 解决
  - 在创建表时候，指定这张表有多个region
原因2：rowkey设计的不合理
- 解决
  - 根据rowkey的值来划分每个分区的范围
  - 让数据均匀的分布在多个分区中
    - 我们使用序列来写入
      - 0开头：1万条
        
        00000 - 09999
      - 1开头：1万条
        
        10000 - 19999
      - 2开头：1万条
        
        20000 - 29999
    - 这种方式也不行，在写入每个1万条时，还是热点
    - 一定要构建随机或者轮询的方式来写入不同的分区

2、预分区

create 'ns1:t1', 'f1', SPLITS => ['10', '20', '30', '40']

create 'tbsplit1','info',SPLITS => ['10', '20', '30', '40','50','60','70','80','90']

在这里插入图片描述

create 't1', 'f1', SPLITS_FILE => '/export/datas/splits.txt'
create 'tbsplit2', 'info', SPLITS_FILE => '/export/datas/splits.txt'

JavaAPI
admin.createTable(HTableDescripor desc ,byte[][]  splitKeys);

注意：预分区必须根据rowkey的值来设计，先设计rowkey，然后再预分区
- 如果实现预分区，但是分区的范围与rowkey对应的值的分布不匹配
- 依旧会产生热点
- 一定要根据rowkey的前缀来设计预分区
如何在Linux的命令行中执行Hbase的命令？
如何封装Hbase的自动化脚本？

hbase shell  file_path
hbase shell /export/datas/command.hbase

所有数据的存储都是根据rowkey来实现读写对应的分区
rowkey要实现唯一性、进行排序
rowkey是整个Hbase中的唯一索引
- 数据查询时，如果不走索引就走全表扫描
- 在工作中要尽量让查询走索引
- get：肯定走索引，必须指定rowkey
- scan：rowkey查询符合前缀匹配
rowkey的前缀是什么，就决定了可以按照什么来走索引查询
- rowkey：20200101_001
- 按照日期走索引查询
  - 查询2020年所有的数据
  - scan ‘tbname’,{STARTROW=>‘2020’ STOPROW=>‘2021’}
- 按照日期和用户id走索引查询
  - 查询2020年1月1号用户001的数据
  - get ‘tbname’,‘20200101_001’
- 什么情况下不走索引？
  - 想查询001的数据
    - 全表扫描
  - 想查询1月1号的数据
    - 全表扫描

有别于传统数据库的设计
- 主键：只要有一列能区分每一行的唯一性，就可以作为主键
  - 自增int类型
  - 学生id
  - 学生身份证号码
  - 准考证号码
Hbase的rowkey不仅仅只有唯一性，还要考虑业务
- 用什么作为rowkey的前缀，就可以走索引查询
- 将最常用的查询条件作为前缀
- 例如：经常按照日期查询这张表，就用日期作为rowkey前缀

scan.set(new PrefiexFilter("水果"))

scan.set(new PrefiexFilter("水果_001"))