Hbase必备基础知识

目录

1.说明

2.Hbase简介

3.Hbase的几个重要概念

4.Hbase存储模型

5.Hbase架构


1.说明

主要是整理下在实际开发过程中使用Hbase时需要具备的最基础的知识,参考了下述文章。

Hbase 技术细节笔记(上)

Hbase 技术细节笔记(下)

2.Hbase简介

Hbase是Hadoop Database的简称,是根据Google的Bigtable论文设计的。

Hbase是分布式、面向列的开源数据库(其实准确的说是面向列族)。HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hbase提供高性能的计算能力,Zookeeper为Hbase提供稳定服务和Failover机制,因此我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案。

Hbase有如下特点:

海量存储

Hbase适合存储PB级别的海量数据,能在几十到百毫秒内返回数据。

列式存储

这里的列式存储其实说的是列族存储,Hbase是根据列族来存储数据的。列族下面可以有非常多的列,列族在创建表的时候就必须指定。

极易扩展

 通过横向添加RegionSever的机器,进行水平扩展,提升Hbase上层的处理能力,提升Hbsae服务更多Region的能力。

高并发

这里说的高并发,主要是在并发的情况下,Hbase的单个IO延迟下降并不多。能获得高并发、低延迟的服务。

稀疏

稀疏主要是针对Hbase列的灵活性,在列族中,你可以指定任意多的列,在列数据为空的情况下,是不会占用存储空间的。

3.Hbase的几个重要概念

1)Column Family的概念

Column Family又叫列族,Hbase通过列族划分数据的存储,列族下面可以包含任意多的列,实现灵活的数据存取。

Hbase表的创建的时候就必须指定列族。就像关系型数据库创建的时候必须指定具体的列是一样的。

Hbase的列族不是越多越好,官方推荐的是列族最好小于或者等于3。我们使用的场景一般是1个列族。

2)Rowkey的概念

Rowkey的概念和mysql中的主键是完全一样的,Hbase使用Rowkey来唯一的区分某一行的数据。

由于Hbase只支持3中查询方式:

  • 基于Rowkey的单行查询
  • 基于Rowkey的范围扫描
  • 全表扫描

因此,Rowkey对Hbase的性能影响非常大,Rowkey的设计就显得尤为的重要。

3)Region的概念

Region的概念和关系型数据库的分区或者分片差不多。 Hbase会将一个大表的数据基于Rowkey的不同范围分配到不通的Region中,每个Region负责一定范围的数据访问和存储。这样即使是一张巨大的表,由于被切割到不通的region,访问起来的时延也很低。

4)TimeStamp的概念

在Hbase中使用不同的timestame来标识相同rowkey行对应的不通版本的数据。在写入数据的时候,如果用户没有指定对应的timestamp,Hbase会自动添加一个timestamp。 在Hbase中,相同rowkey的数据按照timestamp倒序排列。默认查询的是最新的版本,用户可同指定timestamp的值来读取旧版本的数据。

4.Hbase存储模型

5.Hbase架构

猜你喜欢

转载自blog.csdn.net/hanhan122655904/article/details/114385658