Wu Yuxiong - natural born HADOOP performing experiments study notes: hbase the shell application v2.0

 

 

 

 

HRegion
  size exceeds the set value when the table when, HBase table automatically divided into different regions, each region comprising a subset of all rows. For users, each table is a collection of a bunch of data, distinguished by the primary key. Physically, a table is split into pieces, each piece is a HRegion. We use the table name + start / end of the main keys to distinguish each HRegion, a HRegion will save a certain period of continuous data table, from the beginning to the end of the primary key primary keys, a full table is stored in multiple HRegion above.

  HMaster

Management HRegionServer, to achieve its load balancing.

Management and distribution HRegion, such as assigning new HRegion when HRegion split; migration when HRegionServer exit HRegion therein to other HRegionServer.

Implement DDL operations (Data Definition Language, namespace and deletions to the table, column familiy CRUD etc.).

Management namespace and metadata table (actually stored on HDFS).

Access control ( ACL).

  HRegionServer

Store and manage local HRegion.

Write HDFS, the management data in the Table.

Client directly read by HRegionServer data (metadata acquired from HMaster, find where after RowKey HRegion / HRegionServer).

  ZooKeeper cluster coordination system

Hold the entire HBase cluster metadata and cluster status information.

实现HMaster主从节点的failover。

  另外还有一些需要注意

HBase Client通过RPC方式和HMaster、HRegionServer通信;

一个HRegionServer可以存放1000个HRegion;

底层Table数据存储于HDFS中,而HRegion所处理的数据尽量和数据所在的DataNode在一起,实现数据的本地化;

数据本地化并不是总能实现,比如在HRegion移动(如因Split)时,需要等下一次Compact才能继续回到本地化。

2.HBase逻辑视图
  HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族(row family),每个列族有多个列,每个rowkey和一个列对应一个cell,每个 cell都保存着同一份数据的多个版本。版本通过时间戳来索引。

 

 

 

 

其实,我们把HBase想象成一个大的映射关系,再者,HBase存储的数据可以理解为一种key和value的映射关系,但有不是简简单单的映射关系那种,因为比如有各个时间戳版本等。

通过行键、行键+时间戳或行键+列(列簇:列修饰符),就可以定位特定是数据。

HBase是稀疏存储数据的,因此某些列可以是空白的。

列在列簇中依照字典排序。

 

 

实验环境

1.操作系统
  服务器:Linux_CentOS
  操作机:Windows_7
  服务器默认用户名:root,密码:123456
  操作机默认用户名:hongya,密码:123456

2.实验工具
  1.Xshell

 

 

Xshell是一个强大的安全终端模拟软件,它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET 协议。Xshell 通过互联网到远程主机的安全连接以及它创新性的设计和特色帮助用户在复杂的网络环境中享受他们的工作。  Xshell可以在Windows界面下用来访问远端不同系统下的服务器,从而比较好的达到远程控制终端的目的。实验中我们用到XShell5,其新增功能有:
  1.有效保护信息安全性;Xshell支持各种安全功能,如SSH1/SSH2协议,密码,和DSA和RSA公开密钥的用户认证方法,并加密所有流量的各种加密算法。重要的是要保持用户的数据安全与内置Xshell安全功能,因为像Telnet和Rlogin这样的传统连接协议很容易让用户的网络流量受到任何有网络知识的人的窃取。Xshell将帮助用户保护数据免受黑客攻击。
  2.最好的终端用户体验;终端用户需要经常在任何给定的时间中运用多个终端会话,以及与不同主机比较终端输出或者给不同主机发送同一组命令。Xshell则可以解决这些问题。此外还有方便用户的功能,如标签环境,广泛拆分窗口,同步输入和会话管理,用户可以节省时间做其他的工作。
  3.代替不安全的Telnet客户端;Xshell支持VT100,VT220,VT320,Xterm,Linux,Scoansi和ANSI终端仿真和提供各种终端外观选项取代传统的Telnet客户端。
  4. Xshell在单一屏幕实现多语言;Xshell中的UTF-8在同类终端软件中是第一个运用的。用Xshell,可以将多种语言显示在一个屏幕上,无需切换不同的语言编码。越来越多的企业需要用到UTF-8格式的数据库和应用程序,有一个支持UTF-8编码终端模拟器的需求在不断增加。Xshell可以帮助用户处理多语言环境。  5. 支持安全连接的TCP/IP应用的X11和任意;在SSH隧道机制中,Xshell支持端口转发功能,无需修改任何程序,它可以使所有的TCP/IP应用程序共享一个安全的连接。


  2.Hadoop

 

 

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
  Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。


  3.Hbase

 

 

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
  HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

步骤1:开启HADOOP

  我们已经为大家准备好了hadoop的集群,使用xshell登陆到虚拟机,ip地址有所改变,为了能正常使用hadoop集群,要执行以下三步命令:
  1.1使用xshell连接服务器,修改文件/etc/hosts。

vi /etc/hosts

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

步骤3:熟悉Hbase操作

  3.1使用hbase的dml。同上步骤,我们先建立一个 test 表,列族依然为 cf。

create 'test','cf'

list 'test'

  向hbase中插入几条数据,然后查看。插入的格式为put table_name rowkey column_family:column value
  添加以下数据:

put 'test', 'row1', 'cf:a', 'value1'

put 'test', 'row2', 'cf:b', 'value2'

put 'test', 'row3', 'cf:c', 'value3'

put 'test', 'row4', 'cf:d', 'value4'

 

 

 

 

 

 

 

 

 

 

 

Guess you like

Origin www.cnblogs.com/tszr/p/12168960.html