Hadoop大数据平台实战:Linux实战安装HBase,并保存数据

Apache HBase开源免费的Hadoop数据库,使用Java开发的,是一个分布式,可扩展的NoSQL数据库。本文会详细介绍HBase原理、架构、新特性、Linux环境下的安装,安装模式,表创建,简单的CRUD操作。

1、HBase数据库介绍

HBase是开源NoSQL数据库,主要用于大数据平台。受启发于谷歌在2006年发表了一篇关于Big Table的论文。当我们需要对大数据进行随机,实时读/写访问时,可以使用Apache HBase。 HBase可以托管非常大的表 - 数十亿行X百万列,存储大规模不规则的数据集 。 

Apache HBase是一个开源的,分布式的,版本化的NoSQL非关系数据库,模仿Google的Bigtable数据库:Chang等人的结构化数据分布式存储系统。 正如Bigtable利用Google文件系统提供的分布式数据存储一样,Apache HBase在Hadoop和HDFS之上提供类似Bigtable的功能。

如果你准备入行大数据,关于2019大数据目前的

【发展前景】戳我阅读

【就业岗位】戳我阅读

【大数据薪资待遇】戳我阅读

【完整的学习线路】戳我阅读

关注微信公众号itdaima获取大数据全套开发工具以及入门学习资料

2、HBase新特性

1)线性和模块化可扩展性。

2)严格一致的读写操作。

3)自动分区,分表的自动和可配置分片

4)RegionServers之间的自动故障转移支持。

5)方便的基类,用于使用Apache HBase表支持Hadoop MapReduce作业。

6)易于使用的Java API,用于客户端访问。

7)阻止缓存和布隆过滤器以进行实时查询。

8)查询谓词通过服务器端过滤器下推

9)Thrift网关和REST-ful Web服务,支持XML,Protobuf和二进制数据编码选项

10)可扩展的基于jruby(JIRB)的Shell客户端

11)支持通过Hadoop指标子系统将指标导出到文件或Ganglia; 或通过JMX

3、HBase发展历史

谷歌在2006年发表了一篇关于Big Table的论文,

HBase最初是由Powerset公司开展的一个项目,因为需要处理大量数据以用于自然语言搜索。 并在2006年底开始了HBase的开发。

2007年创建的HBase原型为Hadoop contrib,第一个可用的HBase在2007年发布。 

2008年,Hadoop成为Apache顶级项目,HBase成为其子项目。 

此外,HBase 0.18,0.19于2008年10月发布。

2010年,HBase成为Apache顶级项目。 

HBase 0.92于2011年发布。最新版本为0.96。

Facebook于2010年11月选择使用HBase实施其新的消息传递平台,但在2018年从HBase迁移出来。

截至2017年2月,1.2.x系列是目前的稳定版本。

2019年目前最新的版本是2.1.4版本。

4、HBase架构

HBase采用分布式架构,底层使用HDFS存储数据,支持区域RegionServer机制,自动分区扩展集群,支持大数据扩展。存储数据采用列族ColumnFamily模式。在HBase中,表被分成区域并由区域服务器提供不同的存储服务。 区域按列族垂直划分为“存储区”。 存储区在HDFS中保存为独立的文件。 下面显示的是HBase的分布式存储架构。

5、HBase下载安装

下面会详细介绍单节点独立HBase的设置。 独立实例具有所有HBase守护程序 - Master,RegionServers和ZooKeeper - 在单个JVM中运行,持久保存到本地文件系统。

HBase的安装通常分为3种模式:单机、伪分布式集群、完全分布式集群:

Standalone mode

Pseudo Distributed mode

Fully Distributed mode

HBase安装要求先安装JDK,我们使用JDK8版本。推荐使用Open JDK。

6、安装JDK8

安装开源的JDK8,免费,不会引起收费问题。

sudo apt installdefault-jdk

查看安装版本 Java -version

7、安装SSH

测试登录,不需要密码:

ssh localhost

8、安装HBase数据库

下载地址,我们选择当前的稳定版本1.2.11版本。http://hbase.apache.org/downloads.html。我们选择清华大学的国内服务器镜像。

等待下载完毕,解压,并且移动到安装目录,命令如下:

tar zxvf hbase-1.2.11-bin.tar.gztar xvzf hbase-1.2.11-bin.tar.gzsudo mv hbase-1.2.11/usr/local/hbase/

9、配置HBase环境变量

安装完毕以后,可以配置HBase的环境变量。

使用vim ~/.bashrc编辑配置文件,然后插入HBase环境变量

使其生效,source ~/.bashrc

10、HBase编辑配置文件

为了单节点可以编辑配置文件,路径conf/hbase-site.xml,我们可以插入如下的参考配置:我们可以在配置文件里指定HBase和ZooKeeper存储位置,也可以使用默认设置。

11、启动HBase数据库

使用./start-hbase.sh启动HBase数据库。使用JPS命令检查是否正常运行。

这里已经正常启动HBase数据库。

也可以使用status version whoami三个命令 查看状态、版本和账号信息

12、测试HBase数据库,创建表,并保存数据

创建一个表test,列族cf,并且保存3条数据。

读取所有数据

scan 'test'

scan 'users'

获取单个值

get 'test', 'row1'

后续我们在讲解Hadoop集群架构,HBase底层原理与算法,存储模型,集群搭建。



 

猜你喜欢

转载自blog.csdn.net/huasdsadsa/article/details/94210612