良いプログラマビッグデータ学習ルートHBaseのクイックスタートHBaseのプロフィール

良いプログラマビッグデータ学習ルート HBaseのクイックスタートのHBase のプロフィール

1.Hbase 何ですか

ApacheのHBaseのHadoopのデータベースは、分散、スケーラブルな大規模なデータストレージです。

あなたが大規模なランダムなデータを必要とする場合には、リアルタイムの読み取り /書き込みアクセスは、ApacheのHBaseのを使用する場合。百万の行の列数十億-プロジェクトの目的は、コモディティハードウェア・クラスタ上でホストされている非常に大きなテーブルです。分散ファイルシステムファイルシステムのGoogleのBigtableの使用が提供するように、構造化データを分散ストレージシステム:ApacheのHBaseのは、GoogleのBigtableのを模倣し、オープンソースの分散、バージョン管理、非リレーショナルデータベースであり、同様に、ApacheのHBaseのは、HadoopのHDFSとの類似した機能のBigtableを提供します

1).Hbaseが特徴

大:表には百万に数十億行することができ;

いいえモード:各ラインは、一次ソートキーを有し、任意の数の列、必要に応じて動的に列がテーブル内の異なる行に、増加させることができるが、別個の列を有することができます。

列指向性:指向カラム(群)およびメモリアクセス制御、カラム(群)の独立した検索。

スパース:空(のために、カラムはnull)と収納スペースを取らない、あなたが見ることができるデザインが非常に希薄です。

データの複数のバージョン:複数のバージョンを有することができ、各セルのデータは、バージョン番号が自動的にデフォルトで割り当てられ、タイムスタンプがセルに挿入されます。

シングルデータタイプ:データHBaseのは、文字列、ないタイプです。

2).Hbase リレーショナルデータベースと比較


伝統的な線データベース:

データが列に格納されます

多数使用して索引付けされていないクエリの I / Oを

インデックスとマテリアライズド・ビューは、時間とリソースの多くを費やす必要が

クエリの需要は、データベースは多数の性能要件を満たすために拡張する必要があります

柱状データベース

データは列に格納されている -各列は別々に格納され

これは、インデックスデータであります

アクセスがクエリに含ま列を参照システムの大幅な削減I / O -

各列は、処理するための手がかりで構成され、同時クエリを処理します-

 同様の特性のデータ型と一致して、データ -効率的な圧縮

3).Hbase HDFSのコントラスト


どちらも、それは数百のノードに拡張することができ、優れた耐障害性と拡張性を持っています。

バッチシーンのHDFS

データがランダムでサポートしていない検索

増分データを扱うには適していません

これは、データの更新をサポートしていません。

2.Hbase アーキテクチャ


1).Client

 HBaseのクライアント使用のHBase のRPC機構HMASTERHRegionServerの通信、操作のための管理クラス、データのクラスは読み出し動作と書き込み、RPCのクライアントHRegionServer、RPCを用いて行わクライアントHMASTERを。

2).Zookeeper

 格納することに加えて、飼育係クォーラム-ROOT-アドレステーブルとHMASTERのアドレスは、 HRegionServerはで自分自身を置くエフェメラルに登録  HMASTERはいつでも各HRegionServerの健康状態を把握することができる作り、飼育係。また、飼育係HMASTERも、一点の問題を回避します。

3).Hmaster
  • 管理用户对Table的增、删、改、查操作;

  • 管理HRegion Server的负载均衡,调整Region分布;

  • Region Split后,负责新Region的分配;

  • HRegion Server停机后,负责失效HRegion Server 上的Regions迁移。

4).Region


 当表的大小超过设置值的时候,HBase会自动地将表划分为不同的区域,每个区域包含所有行的一个子集。对用户来说,每个表是一堆数据的集合,靠主键来区分。从物理上来说,一张表被拆分成了多块,每一块就是一个Region。我们用表名+开始/结束主键,来区分每一个Region,一个Region会保存一个表里面某段连续的数据,从开始主键到结束主键,一张完整的表格是保存在多个Region上面。

5).HRegion Server

 所有的数据库数据一般是保存在Hadoop HDFS分布式文件系统上面,用户通过一系列HRegion Server获取这些数据,一台机器上面一般只运行一个HRegion Server,且每一个区段的HRegion也只会被一个HRegion Server维护。下面是HRegion Server数据存储关系图。


 HRegion Server主要负责响应用户I/O请求,向HDFS文件系统中读写数据,是HBase中最核心的模块。

 HRegion Server内部管理了一系列HRegion对象,每个HRegion对应了Table中的一个RegionRegion中由多个Store组成。每个Store对应了Table中的一个Column Family的存储,可以看出每个Column Family其实就是一个集中的存储单元,因此最好将具备共同IO特性的column放在一个Column Family中,这样最高效。

  Store存储是HBase存储的核心了,其中由两部分组成,一部分是MemStore,一部分是StoreFilesMemStoreSorted Memory Buffer,用户写入的数据首先会放入MemStore,当MemStore满了以后会Flush成一个StoreFile(底层实现是HFile), StoreFile文件数量增长到一定阈值,会触发Compact合并操作,将多个StoreFiles合并成一个StoreFile,合并过程中会进行版本合并和数据删除,因此可以看出HBase其实只有增加数据,所有的更新和删除操作都是在后续的compact过程中进行的,这使得用户的写操作只要进入内存中就可以立即返回,保证了HBase I/O的高性能。当StoreFiles Compact后,会逐步形成越来越大的StoreFile,当单个StoreFile大小超过一定阈值后,会触发Split操作,同时把当前Region Split2Region,父Region会下线,新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer 上,使得原先1个Region的压力得以分流到2个Region上。下图描述了Compaction和Split的过程。


    Compaction和Split的过程

 在理解了上述HStore的基本原理后,还必须了解一下HLog的功能,因为上述的HStore在系统正常工作的前提下是没有问题的,但是在分布式系统环境中,无法避免系统出错或者宕机,因此一旦HRegion Server意外退出,MemStore中的内存数据将会丢失,这就需要引入HLog了。每个HRegion Server中都有一个HLog对象,HLog是一个实现Write Ahead Log的类,在每次用户操作写入MemStore的同时,也会写一份数据到HLog文件中(HLog文件格式见后续),HLog文件定期会滚动出新的,并删除旧的文件(已持久化到StoreFile中的数据)。当HRegion Server意外终止后,HMaster会通过Zookeeper感知到,HMaster首先会处理遗留的 HLog文件,将其中不同RegionLog数据进行拆分,分别放到相应region的目录下,然后再将失效的region重新分配,领取到这些region的HRegion Server在Load Region的过程中,会发现有历史HLog需要处理,因此会Replay HLog中的数据到MemStore中,然后flush到StoreFiles,完成数据恢复。

6).Hbase的存储格式

 HBase中的所有数据文件都存储在Hadoop HDFS文件系统上为例,主要包括上述提出的两种文件类型:HFile, HBase中KeyValue数据的存储格式,HFile是Hadoop的二进制格式文件,实际上StoreFile就是对HFile做了轻量级包装,即StoreFile底层就是HFile。HLog File,HBase中WAL(Write Ahead Log) 的存储格式,物理上是Hadoop的Sequence File。

7).ROOT表和META

 用户表的Regions元数据被存储在.META.表中,随着Region的增多,.META.表中的数据也会增大,并分裂成多个Regions。为了定位.META.表中各个Regions的位置,把.META.表中所有Regions的元数据保存在-ROOT-表中,最后由ZooKeeper记录-ROOT-表的位置信息。所有客户端访问用户数据前,需要首先访问ZooKeeper获得-ROOT-的位置,然后访问-ROOT-表获得.META.表的位置,最后根据.META.表中的信息确定用户数据存放的位置,如下图所示。


 -ROOT-表永远不会被分割,它只有一个Region,这样可以保证最多需要三次跳转就可以定位任意一个Region。为了加快访问速度,.META.表的Regions全部保存在内存中。客户端会将查询过的位置信息缓存起来,且缓存不会主动失效。如果客户端根据缓存信息还访问不到数据,则询问只有相关.META.表的Region服务器,试图获取数据的位置,如果还是失败,则询问-ROOT-表相关的.META.表在哪里。最后,如果前面的信息全部失效,则通过ZooKeeper重新定位Region的信息。所以如果客户端上的缓存全部是失效,则需要进行6次网络来回,才能定位到正确的Region。


8).MapReduce On HBase

 HBase系统上运行批处理运算,最方便和实用的模型依然是MapReduce,如下图:


 HBase Table和Region的关系,比较类似HDFS File和Block的关系,HBase提供了配套的TableInputFormat和TableOutputFormat API,可以方便的将HBase Table作为Hadoop MapReduce的Source和Sink,对于MapReduce Job应用开发人员来说,基本不需要关注HBase系统自身的细节。

3.HBase数据模型


 以关系型数据的思维下会感觉,上面的表格是一个5列4行的数据表格,但是在HBase中这种理解是错误的,其实在HBase中上面的表格只是一行数据;

1).Row Key:

 – 决定一行数据的唯一标识

 – RowKey是按照字典顺序排序的。

 – Row key最多只能存储64k的字节数据。

2).Column Family列族(CF1CF2CF3) & qualifier列:

 – HBase表中的每个列都归属于某个列族,列族必须作为表模式(schema) 定义的一部分预先给出。如create ‘test’, ‘course’;

 – 列名以列族作为前缀,每个“列族”都可以有多个列成员(column,每个列族中可以存放几千~上千万个列);如 CF1:q1, CF2:qw,

 新的列族成员(列)可以随后按需、动态加入,Family下面可以有多个Qualifier,所以可以简单的理解为,HBase中的列是二级列,

 也就是说Family是第一级列,Qualifier是第二级列。两个是父子关系。

 – 权限控制、存储以及调优都是在列族层面进行的;

 – HBase把同一列族里面的数据存储在同一目录下,由几个文件保存。

 – 目前为止HBase的列族能能够很好处理最多不超过3个列族。

3).Timestamp时间戳:

 – 在HBase每个cell存储单元对同一份数据有多个版本,根据唯一的时间 戳来区分每个版本之间的差异,不同版本的数据按照时间倒序排序,

 最新的数据版本排在最前面。

 – 时间戳的类型是64位整型。

 – 时间戳可以由HBase(在数据写入时自动)赋值,此时时间戳是精确到毫 秒的当前系统时间。

 – 时间戳也可以由客户显式赋值,如果应用程序要避免数据版本冲突, 就必须自己生成具有唯一性的时间戳。

4).Cell单元格:

 – 由行和列的坐标交叉决定;

 – 单元格是有版本的(由时间戳来作为版本);

 – 单元格的内容是未解析的字节数组(Byte[]),cell中的数据是没有类型的,全部是字节码形式存贮。

 • 由{row key,column(= +),version}唯一确定的单元。

4.Hbase应用介绍

  • –列族结构经常调整

  • –高并发写入

  • –结构化数据、半结构化数据存储

  • –Key-Value存储

  • –有序存储

  • –固定集合(多版本)

  • –定时删除记录(TTL)


おすすめ

転載: blog.51cto.com/14256902/2424603