Hadoop之HBase架构原理及集群部署总览

一、概要

HBase 是基于GoogleBigTable模型开发的,是一个构建在HDFS上的分布式列存储系统,是一个典型的key/value开源数据库;主要用于海量结构化数据存储;与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。从逻辑上讲,HBase将数据按照表、行和列进行存储。适用于需要实时读写、随机访问超大规模数据集的场景中。
在这里插入图片描述

HBase( Hadoop Database)是Apache的Hadoop项目的子项目,具备高可靠性、高性能、面向列、可伸缩、分布式特性,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase不同于一般的关系数据库,它是一个适合于非结构化数据和半结构化的松散数据(列存NoSQL数据库)存储的数据库。HBase上的数据是以StoreFile(HFile)二进制流的形式存储在HDFS上block块儿中。但是HDFS并不知道的hbase存的是什么,它只把存储文件是为二进制文件,也就是说,hbase的存储数据对于HDFS文件系统是透明的。HDFS不支持随机修改,查询效率低,对小文件支持不友好。

另外,HBase基于列的而不是基于行的模式。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Big

猜你喜欢

转载自blog.csdn.net/ximenjianxue/article/details/122980959