一、Hbase 基本介绍

在这里插入图片描述

简介

hbase是bigtable的开源java版本。是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。
它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。
主要用来存储结构化和半结构化的松散数据。
Hbase查询数据功能很简单，不支持join等复杂操作，不支持复杂的事务（行级的事务）
Hbase中支持的数据类型：byte[]
与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。
HBase中的表一般有这样的特点：

大：一个表可以有上十亿行，上百万列
面向列:面向列(族)的存储和权限控制，列(族)独立检索。
稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。

HBase的发展历程

HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储。
官方网站：http://hbase.apache.org

2006年Google发表BigTable白皮书
2006年开始开发HBase
2008 HBase成为了 Hadoop的子项目
2010年HBase成为Apache顶级项目

二、HBase与Hadoop的关系

1、HDFS

为分布式存储提供文件系统
针对存储大尺寸的文件进行优化，不适用对HDFS上的文件进行随机读写
直接使用文件
数据模型不灵活
使用文件系统和处理框架
优化一次写入，多次读取的方式

2、HBase

提供表状的面向列的数据存储
针对表状数据的随机读写进行优化
使用key-value操作数据
提供灵活的数据模型
使用表状存储，支持MapReduce，依赖HDFS
优化了多次读，以及多次写

三、RDBMS与HBase的对比

1、关系型数据库

结构：

数据库以表的形式存在
支持FAT、NTFS、EXT、文件系统
使用Commit log存储日志
参考系统是坐标系统
使用主键（PK）
支持分区
使用行、列、单元格

功能：

支持向上扩展
使用SQL查询
面向行，即每一行都是一个连续单元
数据总量依赖于服务器配置
具有ACID支持
适合结构化数据
传统关系型数据库一般都是中心化的
支持事务
支持Join

2、HBase

结构：

数据库以region的形式存在
支持HDFS文件系统
使用WAL（Write-Ahead Logs）存储日志
参考系统是Zookeeper
使用行键（row key）
支持分片
使用行、列、列族和单元格

功能：

支持向外扩展
使用API和MapReduce来访问HBase表数据
面向列，即每一列都是一个连续的单元
数据总量不依赖具体某台机器，而取决于机器数量
HBase不支持ACID（Atomicity、Consistency、Isolation、Durability）
适合结构化数据和非结构化数据
一般都是分布式的
HBase不支持事务
不支持SQL
不支持Join

四、HBase特征简要

1）海量存储

Hbase适合存储PB级别的海量数据，在PB级别的数据以及采用廉价PC存储的情况下，能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性，才为海量数据的存储提供了便利。

2）列式存储

这里的列式存储其实说的是列族存储，Hbase是根据列族来存储数据的。列族下面可以有非常多的列，列族在创建表的时候就必须指定。

3）极易扩展

Hbase的扩展性主要体现在两个方面，一个是基于上层处理能力（RegionServer）的扩展，一个是基于存储的扩展（HDFS）。
通过横向添加RegionSever的机器，进行水平扩展，提升Hbase上层的处理能力，提升Hbsae服务更多Region的能力。
备注：RegionServer的作用是管理region、承接业务的访问，这个后面会详细的介绍通过横向添加Datanode的机器，进行存储层扩容，提升Hbase的数据存储能力和提升后端存储的读写能力。

4）高并发

由于目前大部分使用Hbase的架构，都是采用的廉价PC，因此单个IO的延迟其实并不小，一般在几十到上百ms之间。这里说的高并发，主要是在并发的情况下，Hbase的单个IO延迟下降并不多。能获得高并发、低延迟的服务。

5）稀疏

稀疏主要是针对Hbase列的灵活性，在列族中，你可以指定任意多的列，在列数据为空的情况下，是不会占用存储空间的。

五、HBase的基础架构

在这里插入图片描述

1、HMaster

功能：

监控RegionServer
处理RegionServer故障转移
处理元数据的变更
处理region的分配或移除
在空闲时间进行数据的负载均衡
通过Zookeeper发布自己的位置给客户端

2、RegionServer

功能：

负责存储HBase的实际数据
处理分配给它的Region
刷新缓存到HDFS
维护HLog
执行压缩
负责处理Region分片

六、HABSE底层原理

系统架构

在这里插入图片描述

组件：

Client：

访问hbase底层数据的入口，含访问hbase的API接口,维护着一些cache来加快对hbase的访问

Zookeeper：

1、 zk的选举机制保证任何时候，集群中只有一个master
2、实时监控Region Server的状态，将Region server的上线和下线信息实时通知给Master
3、存贮所有Region的寻址入口
4 、存储Hbase的schema,包括有哪些table，每个table有哪些column family

Master职责

1、为Region server分配region
2、负责region server的负载均衡
3、发现失效的region server并重新分配其上的region
4、处理schema更新请求

Region Server职责

1、Region server维护Master分配给它的region，处理对这些region的IO请求
2 、Region server负责切分在运行过程中变得过大的region
可以看到，client访问hbase上数据的过程并不需要master参与（寻址访问zookeeper和region server，数据读写访问regione server），master仅仅维护者table和region的元数据信息，负载很低。

HBase的表数据模型

在这里插入图片描述

Row Key(hbase最重要的设计）)

1、访问hbase数据的方式（作用在rowkey） 1 通过单个row key访问、
2、通过row key的start key， endkey
3、全表扫描 rowkey 的要求：最大长度是 64KB
Hbase会对表中的数据按照rowkey排序（字典顺序）

列族Column Family

列族是表的schema（表名称-列族）的一部分，而列不是。
每个列，都归属与某个列族
列Column
列族下面的具体列，属于某一个ColumnFamily

时间戳

时间戳可以由hbase(在数据写入时自动 )赋值，工程师也可以自己设置时间戳。
不同版本的数据按照时间倒序排序。
hbase提供了两种数据版本回收方式：
1 保存数据的最后n个版本
2 保存最近一段时间内的版本
hbase确定一个数据
{row key, column( = + ), version} 唯一确定的单元。

hbase物理存储结构整体结构

在这里插入图片描述
一个regionserver内可以存储多个表的region
一个表内的region,只属于这个表。但是这个表的region,可能分配到不同的节点（regionserver）上。

region 的拆分

region按大小分割的(默认10G)，每个表一开始只有一个region，当数据量达到阈值（10G）时，会将一个region 等分成两个region.
region是Hbase中分布式存储和负载均衡的最小单元,
regionserver与region是一对多的关系。一个region是能属于一个regionserver.一个regioserver可以存储多个 region

rgion内部细分

HRegion由一个或者多个Store组成，每个store保存一个column family。每个Strore又由一个memStore和0 至多个StoreFile组成
数据查询时，客户端检索数据时，先在memstore找，找不到再找storefile。
在这里插入图片描述

Hlog（WAL）

每个Region Server维护一个Hlog,而不是每个Region一个.
作用：数据在写入内存之前优先写入Hlog, 防止数据丢失。防止数据写入内存后，没有flush之前，断电导致内存内的数据丢失。
弊端：数据的写入速度相对较慢，慢的原因是数据写操作执行两次。
Hlog日志可以关闭，关闭后写入速度能够加快，但是存在数据丢失的风险。
Hlog日志的拆分
1、放数据写入日之后，如果发生异常，那么就会关闭当前日志文件， 2、日志人间大小维度：当日志文件大小达到一定的量时，就会关当前日志，生成新的日志。
日志的大小是HDFS数据块大小的0.95倍。
3、时间维度：默认的时间为1小时，即一个小时生成一个日志文件

站内首发文章

尹少博客

发布了77 篇原创文章 · 获赞 153 · 访问量 6万+

私信关注

HBase的概述、底层原理

一、Hbase 基本介绍

简介

HBase的发展历程

二、HBase与Hadoop的关系

1、HDFS

2、HBase

三、RDBMS与HBase的对比

1、关系型数据库

结构：

功能：

2、HBase

结构：

功能：

四、HBase特征简要

1）海量存储

2）列式存储

3）极易扩展

4）高并发

5）稀疏

五、HBase的基础架构

1、HMaster

功能：

2、RegionServer

功能：

六、HABSE底层原理

系统架构

组件：

Client：

Zookeeper：

Master职责

Region Server职责

HBase的表数据模型

Row Key(hbase最重要的设计）)

列族Column Family

时间戳

hbase物理存储结构 整体结构

region 的拆分

rgion内部细分

Hlog（WAL）

猜你喜欢

hbase物理存储结构整体结构