HBase的模式Schema设计的一些概念和原则




1)模式的创建与更新

可以使用HBase Shell或HBase Admin来创建和编辑HBase的模式。

在0.90.x 版本,只能先禁用表,再修改列族,而0.92.x版本以后,支持在线修改。


而且表和列族修改后,如size, region, block size等,在下次 主紧缩 或 存储文件时 起作用。


2)列族的数量

-列族数量越少越好,即使同时有两个列族,查询的时候总是访问其中一个列族,不会同时访问。

-当一个表存在多个列族,当基数差距很大时,如A族有100万行,B族10亿行,A族可能会被分散到很多区域region,导致扫描A的效率降低。

-另外,多个列族在flush和compaction时,会造成很多I/O负担。


3)行键设计RowKey

a. 不要将RowKey设计成有序的形式,因为这样容易阻塞并行性,将负载压都在一台机器上

b. 定位一个单元,需要行,列名和时间戳。如果一个单元格的坐标很大,会占用内存,索引用光。所以,解决方法:列族名尽量小,如一个字符a,短属性名,而行键长度可读即可(行键长度对数据访问无太大影响),将数字字符转换为数字字节模式(节省空间)。

c. 倒序时间戳有助于找到找到最近版本值

d. 行键是在列族范围内有效,不同列族中可以拥有同样的行键

e. 行键永远不能变


4)HBase支持所有能转换为字节数组的东西,如字符串、数字、复杂对象、计数器、甚至图像。

5)列族可以设置存活时间TTL,超时后,HBase自动删除数据

6)第二索引和查询: 这里面有很多东西,需要查看对应版本官方的文档更好些。

猜你喜欢

转载自blog.csdn.net/wyqwilliam/article/details/81063584