Hbase 表设计和高级属性

1、compression

　　默认值是 NONE 即不使用压缩，这个参数意思是该列族是否采用压缩，采用什么压缩算法

　　方法: create 'table',{NAME=>'info',COMPRESSION=>'SNAPPY'}

建议采用 SNAPPY 压缩算法， HBase 中，在 Snappy 发布之前（ Google 2011 年对外发布 Snappy），采用的 LZO 算法，目标是达到尽可能快的压缩和解压速度，同时减少对 CPU 的消耗；

HBase修改压缩格式，需要一个列族一个列族的修改 alter 'test', NAME => 'f', COMPRESSION => 'snappy'。

而且这个地方要小心，别将列族名字写错，或者大小写错误。因为这个地方任何错误，都会创建一个新的列族，且压缩格式为snappy（修改之前需要先disable，修改完之后需要enable，然后 major_compact 'test'）

2、TTL (time to live)

设置方法和versions类似

3、disable_all enable_all drop_all：支持正则表达式，并列出当前匹配的表，之后给出确认提示。

4、Hbase 预分区

　　HBase表在刚刚被创建时，只有1个分区（region），当一个region过大（达到hbase.hregion.max.filesize属性中定义的阈值，默认10GB）时，表将会进行split，分裂为2个分区。表在进行split的时候，会耗费大量的资源，频繁的分区对HBase的性能有巨大的影响。HBase提供了预分区功能，即用户可以在创建表的时候对表按照一定的规则分区。分区是针对表级，不是列族级，因为region是根据rowkey来划分的。

　　目的：减少由于region split带来的资源消耗。从而提高HBase的性能。

方案1：Hbase shell 创建，16010端口可以查看具体region