HBase是Apache Hadoop的数据库，能够对大型数据提供随机、实时的读写访问，是Google的BigTable的开源实现。HBase的目标是存储并处理大型的数据，更具体地说仅用普通的硬件配置，能够处理成千上万的行和列所组成的大型数据库。

HBase是一个开源的、分布式的、多版本的、面向列的存储模型。可以直接使用本地文件系统也可使用Hadoop的HDFS文件存储系统。为了提高数据的可靠性和系统的健壮性，并且发挥HBase处理大型数据的能力，还是使用HDFS作为文件存储系统更佳。另外，HBase存储的是松散型数据，具体来说，HBase存储的数据介于映射（key/value）和关系型数据之间。如下图所示，HBase存储的数据从逻辑上看就是一张很大的表，并且它的数据列可以根据需要动态增加。每一个cell中的数据又可以有多个版本（通过时间戳来区别）

一、HBase与关系型数据库的对比

	HBase	RDBMS
数据类型	只有字符串	丰富的数据类型
数据操作	简单的增删改查	各种各样的函数，表连接
存储模式	基于列存储	基于表格结构和行存储
数据保护	更新后旧版本仍然会保留	替换
可伸缩性	轻易的进行增加节点，兼容性高	需要中间层，牺牲功能

二、分布式数据库 HBase 的特点和优势

1、高可扩展性

HBase 是真正意义上的线性水平扩展。数据量累计到一定程度(可配置)，HBase系统会自动对数据进行水平切分，并分配不同的服务器来管理这些数据。这些数据可以被扩散到上千个普通服务器上。这样一方面可以由大量普通服务器组成大规模集群，来存放海量数据(从几个 TB 到几十 PB 的数据)。另一方面，当数据峰值接近系统设计容量时，可以简单通过增加服务器的方式来扩大容量。这个动态扩容过程无需停机，HBase系统可以照常运行并提供读写服务，完全实现动态无缝无宕机扩容。

2、高性能

HBase 的设计目的之一是支持高并发用户数的高速读写访问。这是通过两方面来实现的。首先数据行被水平切分并分布到多台服务器上，在大量用户访问时，访问请求也被分散到了不同的服务器上，虽然每个服务器的服务能力有限，但是数千台服务器汇总后可以提供极高性能的访问能力。其次，HBase 设计了高效的缓存机制，有效提高了访问的命中率，提高了访问性能。

3、高可用性

HBase 建立在 HDFS 之上。HDFS 提供了数据自动复制和容错的功能。HBase 的日志和数据都存放在 HDFS 上，即使在读写过程中当前服务器出现故障(硬盘、内存、网络等故障)，日志也不会丢失，数据都可以从日志中自动恢复。HBase 系统会自动分配其他服务器接管并恢复这些数据。因此一旦成功写入数据，这些数据就保证被持久化并被冗余复制，整个系统的高可用性得到保证。

三、数据模型及其特点

HBase 是一个面向列的、稀疏的、分布式的、持久化存储的多维排序映射表(Map)。表的索引是行关键字、列簇名(Column Family)、列关键字以及时间戳;表中的每个值都是一个未经解析的字节数组。

1、面向列：指的是同一个列簇里所有数据都存放在一个文件中，从而在读写时有效降低磁盘I/O的开销，并且由于类似数据存放在一起，提高了压缩比。经过压缩后的数据容量通常达到原来的 1/3 到 1/5, 极大节省了存储空间。

2、多维表：这是对传统二维关系表的极大扩充。传统二维表有两维：行和列。列在设计表结构时必须预先固定，而行可以动态增加，也就是说有一个维度可动态改变。HBase的多维表有四维，列簇需要在设计表结构时事先确定，而行、列、时间维都可以动态增加。也就是说有三个维度可动态改变。这种结构非常适合用来表述有嵌套关系的数据。另外，动态增删列的能力也给很多业务带来便利，特别是这些业务在不停的演化，需要的列字段也在不停的增加，多维表结构可以随时进行改变以适应业务发展需求。

3、稀疏表：由于多维表的列可以动态增加，必然导致不同行相同列的数据大部分为空，也就是说这个表是稀疏的。不像传统关系型数据库，HBase 不存放空值，只存放有内容的表格单元(cell)，因此可以支持超大稀疏表，而不会带来任何开销。这对传统的表结构设计也带来了观念上的大改变。

四、表结构

HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族/列簇(column family)。

ROWKEY	CF1:column1	CF1:column2	CF2:column1	CF2:column2	CF2:column3	CF3:column1
key1	t1:ab t2:dx
key2			t1:ab t2:dx
key3
Key4

如上图所示，key1、key2、key3、key4是四条记录的唯一的row key值，column-family1、column-family2、column-family3是三个列族，每个列族下又包括几列，比如column-family1这个列族下包括两列，名字是column1和column2。t1:ab ,t2:dx是由row key1和column-family1—column1唯一确定的一个单元cell。这个cell中有两个数据，ab和dx。两个值的时间戳不一样，分别是t1,t2，hbase会返回最新时间的值给请求者。

名词定义：

1）Row Key

与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行，只有三种方式：

单个row key访问

通过row key的range

全表扫描

Row key可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)，在hbase内部，row key保存为字节数组。

存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，将经常一起读取的行存储放到一起。(位置相关性)

2）列族 column family

hbase表中的每个列，都归属与某个列族。列族是表的schema的一部分(而列不是)，必须在使用表之前定义。列名都以列族作为前缀。例如courses:history ， courses:math 都属于 courses 这个列族。

3）单元 Cell

HBase中通过row和columns确定的为一个存贮单元称为cell。由{row key, column( =<family> + <label>), version} 唯一确定的单元。cell中的数据是没有类型的，全部是字节码形式存储。

4）时间戳 timestamp

每个cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由hbase(在数据写入时自动 )赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。每个cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。

为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担，hbase提供了两种数据版本回收方式。一是保存数据的最后n个版本，二是保存最近一段时间内的版本（比如最近七天）。用户可以针对每个列族进行设置。

HBase简介

一、HBase与关系型数据库的对比

二、分布式数据库 HBase 的特点和优势

三、数据模型及其特点

四、表结构

猜你喜欢