Welcome to Apache HBase( 三,快速入门 - 独立HBase 搭建)

本节介绍单节点独立HBase的设置。一个独立的实例有所有HBase的守护进程-法师,RegionServers和动物园管理员-在单个JVM持续到本地文件系统上运行。这是我们最基本的部署配置文件。我们将向您展示如何使用hbase shellCLI 在HBase中创建表,在表中插入行,对表执行放置和扫描操作,启用或禁用表,以及启动和停止HBase。

除了下载HBase,此过程应该不到10分钟。

1。JDK版本要求

HBase要求安装JDK。有关支持的JDK版本的信息,请参阅Java

2。开始使用HBase

过程:在独立模式下下载,配置和启动HBase

  1. 从此Apache下载镜像列表中选择一个下载站点。单击建议的顶部链接。这将带您进入HBase Releases的镜像。单击名为stable的文件夹,然后将以.tar.gz结尾的二进制文件下载到本地文件系统。暂时不要下载以src.tar.gz结尾的文件。

  2. 解压缩下载的文件,然后切换到新创建的目录。

    <span style="color:rgba(0, 0, 0, 0.8)"><span style="color:rgba(0, 0, 0, 0.9)"><code>$ tar xzvf hbase-3.0.0-SNAPSHOT-bin.tar.gz
    $ cd hbase-3.0.0-SNAPSHOT/</code></span></span>
  3. 您必须JAVA_HOME在启动HBase之前设置环境变量。为了简化这一过程,HBase允许您在conf / hbase-env.sh文件中进行设置。您必须找到计算机上安装Java的位置,找到它的一种方法是使用whereis java命令。获得位置后,编辑conf / hbase-env.sh文件并取消注释以#export JAVA_HOME =开头的行,然后将其设置为Java安装路径。

    从实施例提取物hbase-env.sh其中JAVA_HOME设置

    #在这里设置环境变量。
    #要使用的java实现。
    export JAVA_HOME = / usr / jdk64 / jdk1.8.0_112
  4. 编辑conf / hbase-site.xml,这是主要的HBase配置文件。此时,您需要在本地文件系统上指定HBase和ZooKeeper写入数据并确认一些风险的目录。默认情况下,在/ tmp下创建一个新目录。许多服务器配置为在重新启动时删除/ tmp的内容,因此您应该将数据存储在其他位置。以下配置将HBase的数据存储在hbase目录中,在被调用的用户的主目录中testuser。将<property>标记粘贴到标记下方<configuration>,在新的HBase安装中应该为空。

    示例1. 独立HBase的hbase-site.xml示例

    <configuration>
      <property>
        <name>hbase.rootdir</name>
        <value>file:///home/testuser/hbase</value>
      </property>
      <property>
        <name>hbase.zookeeper.property.dataDir</name>
        <value>/home/testuser/zookeeper</value>
      </property>
      <property>
        <name>hbase.unsafe.stream.capability.enforce</name>
        <value>false</value>
        <description>
          Controls whether HBase will check for stream capabilities (hflush/hsync).
    
          Disable this if you intend to run on LocalFileSystem, denoted by a rootdir
          with the 'file://' scheme, but be mindful of the NOTE below.
    
          WARNING: Setting this to false blinds you to potential data loss and
          inconsistent system state in the event of process and/or node failures. If
          HBase is complaining of an inability to use hsync or hflush it's most
          likely not a false positive.
        </description>
      </property>
    </configuration>

     

    上例中的hbase.rootdir指向本地文件系统中的目录。'file://'前缀是我们表示本地文件系统的方式。您应该将配置示例中的警告置于心脏。在独立模式下,HBase利用Apache Hadoop项目的本地文件系统抽象。这种抽象并不能提供HBase需要安全运行的耐久性承诺。这适用于本地开发和测试用例,其中集群故障的成本得到很好的控制。它不适合生产部署; 最终你会丢失数据。

要在现有的HDFS实例上安装HBase,请将hbase.rootdir设置为指向实例上的目录:例如hdfs://namenode.example.org:8020 / hbase。有关此变体的更多信息,请参阅下面有关HDFS上的独立HBase的部分

  1. bin/ start-hbase.sh脚本是作为启动HBase的一种便捷方式。发出命令,如果一切顺利,将在标准输出中记录一条消息,显示HBase已成功启动。您可以使用该jps命令验证是否有一个正在运行的进程HMaster。在独立模式下,HBase在此单个JVM中运行所有守护程序,即HMaster,单个HRegionServer和ZooKeeper守护程序。转到http:// localhost:16010以查看HBase Web UI。

      Java需要安装并可用。如果您收到错误,指示未安装Java,但它位于您的系统上(可能位于非标准位置),请编辑conf / hbase-env.sh文件并修改JAVA_HOME 设置以指向包含bin /的目录你系统上的java

过程:首次使用HBase

  1. 连接到HBase。

    使用hbase shell位于HBase安装的bin /目录中的命令连接到正在运行的HBase实例。在此示例中,省略了启动HBase Shell时打印的一些用法和版本信息。HBase Shell提示符以>字符结尾。

    $ ./bin/hbase shell
    hbase(main):001:0>
  2. 显示HBase Shell帮助文本。

    help并回车,以显示HBase的壳牌一些基本的使用信息,以及几个示例命令。请注意,表名,行,列都必须用引号字符括起来。

  3. 创建一个表。

    使用该create命令创建新表。您必须指定表名和ColumnFamily名称。

    hbase(main):001:0> create 'test', 'cf'
    0 row(s) in 0.4170 seconds
    
    => Hbase::Table - test
  4. 列出有关您的表的信息

    使用该list命令确认您的表存在

    hbase(main):002:0> list 'test'
    TABLE
    test
    1 row(s) in 0.0180 seconds
    
    => ["test"]

    现在使用该describe命令查看详细信息,包括配置默认值

    hbase(main):003:0> describe 'test'
    Table test is ENABLED
    test
    COLUMN FAMILIES DESCRIPTION
    {NAME => 'cf', VERSIONS => '1', EVICT_BLOCKS_ON_CLOSE => 'false', NEW_VERSION_BEHAVIOR => 'false', KEEP_DELETED_CELLS => 'FALSE', CACHE_DATA_ON_WRITE =>
    'false', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', MIN_VERSIONS => '0', REPLICATION_SCOPE => '0', BLOOMFILTER => 'ROW', CACHE_INDEX_ON_WRITE => 'f
    alse', IN_MEMORY => 'false', CACHE_BLOOMS_ON_WRITE => 'false', PREFETCH_BLOCKS_ON_OPEN => 'false', COMPRESSION => 'NONE', BLOCKCACHE => 'true', BLOCKSIZE
     => '65536'}
    1 row(s)
    Took 0.9998 seconds
  5. 将数据放入表中

    要将数据放入表中,请使用该put命令

    hbase(main):003:0> put 'test', 'row1', 'cf:a', 'value1'
    0 row(s) in 0.0850 seconds
    
    hbase(main):004:0> put 'test', 'row2', 'cf:b', 'value2'
    0 row(s) in 0.0110 seconds
    
    hbase(main):005:0> put 'test', 'row3', 'cf:c', 'value3'
    0 row(s) in 0.0100 seconds

    在这里,我们插入三个值,一次一个。第一个插入位于row1cf:a,值为value1。HBase中的列由列族前缀组成,cf在本例中,后跟冒号,然后是列限定符后缀,a在本例中。

  6. 一次扫描表格中的所有数据。

    从HBase获取数据的一种方法是扫描。使用该scan命令扫描表中的数据。您可以限制扫描,但目前,所有数据都已获取。

    hbase(main):006:0> scan 'test'
    ROW                                      COLUMN+CELL
     row1                                    column=cf:a, timestamp=1421762485768, value=value1
     row2                                    column=cf:b, timestamp=1421762491785, value=value2
     row3                                    column=cf:c, timestamp=1421762496210, value=value3
    3 row(s) in 0.0230 seconds
  7. 获取单行数据。

    要一次获取一行数据,请使用该get命令。

    hbase(main):007:0> get 'test', 'row1'
    COLUMN                                   CELL
     cf:a                                    timestamp=1421762485768, value=value1
    1 row(s) in 0.0350 seconds
  8. 禁用表格。

    如果要删除表或更改其设置,以及在某些其他情况下,您需要先使用该disable命令禁用该表。您可以使用该enable命令重新启用它。

    hbase(main):008:0> disable 'test'
    0 row(s) in 1.1820 seconds
    
    hbase(main):009:0> enable 'test'
    0 row(s) in 0.1770 seconds

    如果您测试了enable上面的命令,再次禁用该表:

    hbase(main):010:0> disable 'test'
    0 row(s) in 1.1820 seconds
  9. 删除表。

    要删除(删除)表,请使用该drop命令。

    hbase(main):011:0> drop 'test'
    0 row(s) in 0.1370 seconds
  10. 退出HBase Shell。

    要退出HBase Shell并断开与群集的连接,请使用该quit命令。

过程:停止HBase

  1. 与提供bin / start-hbase.sh脚本以方便地启动所有HBase守护程序的方式相同,bin / stop-hbase.sh 脚本会停止它们。

    $ ./bin/stop-hbase.sh
    stopping hbase....................
    $
  2. 发出命令后,进程可能需要几分钟才能关闭。使用jps以确保关闭HMaster和HRegionServer进程。

上面已经向您展示了如何启动和停止HBase的独立实例。在下一节中,我们将简要介绍其他hbase部署模式。

3。伪分布式本地安装

通过快速启动独立模式后,您可以重新配置HBase以在伪分布式模式下运行。伪分布模式意味着HBase仍然在单个主机上完全运行,但每个HBase守护程序(HMaster,HRegionServer和ZooKeeper)作为一个单独的进程运行:在独立模式下,所有守护进程都在一个jvm进程/实例中运行。默认情况下,除非您hbase.rootdir按照快速入门中的说明配置属性 ,否则您的数据仍存储在/ tmp /中。在本演练中,我们将您的数据存储在HDFS中,假设您有HDFS可用。您可以跳过HDFS配置以继续将数据存储在本地文件系统中。

 

Hadoop配置

此过程假定您已在本地系统和/或远程系统上配置了Hadoop和HDFS,并且它们正在运行且可用。它还假设您正在使用Hadoop 2. 在Hadoop文档中设置单节点群集的指南 是一个很好的起点。

  1. 如果正在运行,请停止HBase。

    如果您刚刚完成快速启动并且HBase仍在运行,请将其停止。此过程将创建一个全新的目录,HBase将存储其数据,因此您之前创建的任何数据库都将丢失。

  2. 配置HBase。

    编辑hbase-site.xml配置。首先,添加以下属性,该属性指示HBase以分布式模式运行,每个守护程序有一个JVM实例。

    <property>
      <name>hbase.cluster.distributed</name>
      <value>true</value>
    </property>

    接下来,hbase.rootdir使用hdfs:////URI语法将本地文件系统更改为HDFS实例的地址。在此示例中,HDFS在端口8020上的localhost上运行。请确保删除条目hbase.unsafe.stream.capability.enforce或将其设置为true。

    <property>
      <name>hbase.rootdir</name>
      <value>hdfs://localhost:8020/hbase</value>
    </property>

    您无需在HDFS中创建目录。HBase会为你做这件事。如果您创建目录,HBase将尝试进行迁移。

  3. 启动HBase。

    使用bin / start-hbase.sh命令启动HBase。如果您的系统配置正确,该jps命令应显示正在运行的HMaster和HRegionServer进程。

  4. 检查HDFS中的HBase目录。

    如果一切正常,HBase在HDFS中创建了它的目录。在上面的配置中,它存储在HDFS上的/ hbase /中。您可以使用hadoop fsHadoop的bin /目录中的命令列出此目录。

    $ ./bin/hadoop fs -ls /hbase
    Found 7 items
    drwxr-xr-x   - hbase users          0 2014-06-25 18:58 /hbase/.tmp
    drwxr-xr-x   - hbase users          0 2014-06-25 21:49 /hbase/WALs
    drwxr-xr-x   - hbase users          0 2014-06-25 18:48 /hbase/corrupt
    drwxr-xr-x   - hbase users          0 2014-06-25 18:58 /hbase/data
    -rw-r--r--   3 hbase users         42 2014-06-25 18:41 /hbase/hbase.id
    -rw-r--r--   3 hbase users          7 2014-06-25 18:41 /hbase/hbase.version
    drwxr-xr-x   - hbase users          0 2014-06-25 21:49 /hbase/oldWALs
  5. 创建一个表并用数据填充它。

    您可以使用HBase Shell创建表,使用数据填充表,扫描并从中获取值,使用与shell练习相同的过程。

  6. 启动和停止备份HBase Master(HMaster)服务器。

      在同一硬件上运行多个HMaster实例在生产环境中没有意义,就像运行伪分布式集群对生产没有意义一样。此步骤仅用于测试和学习目的。

    HMaster服务器控制HBase集群。您可以启动最多9个备用HMaster服务器,这使得10个HMaster服务器成为主服务器。要启动备份HMaster,请使用local-master-backup.sh。对于要启动的每个备份主站,添加一个表示该主站的端口偏移量的参数。每个HMaster使用两个端口(默认为16000和16010)。端口偏移量将添加到这些端口,因此使用偏移量2,备份HMaster将使用端口16002和16012.以下命令使用端口16002 / 16012,16003 / 16013和16005/16015启动3个备份服务器。

    $ ./bin/local-master-backup.sh start 2 3 5

    要在不杀死整个群集的情况下终止备份主服务器,您需要找到其进程ID(PID)。PID存储在名为/tmp/hbase-USER-X-master.pid的文件中。该文件的唯一内容是PID。您可以使用该kill -9命令来终止该PID。以下命令将使用端口偏移量1终止主服务器,但保持集群运行:

    $ cat /tmp/hbase-testuser-1-master.pid | xargs kill -9
  7. 启动和停止其他RegionServers

    HRegionServer按照HMaster的指示管理其StoreFiles中的数据。通常,一个HRegionServer在群集中的每个节点上运行。在同一系统上运行多个HRegionServers对于以伪分布式模式进行测试非常有用。该local-regionservers.sh命令允许您运行多个RegionServers。它的工作方式与local-master-backup.sh命令类似,因为您提供的每个参数都代表实例的端口偏移量。每个RegionServer需要两个端口,默认端口为16020和16030.自HBase版本1.1.0起,HMaster不使用区域服务器端口,这将留下10个端口(16020到16029和16030到16039)用于RegionServers。要支持其他RegionServers,请在运行脚本之前将环境变量HBASE_RS_BASE_PORT和HBASE_RS_INFO_BASE_PORT设置为适当的值local-regionservers.sh。例如,对于基本端口,值为16200和16300,在服务器上可以支持99个额外的RegionServers。以下命令启动另外四个RegionServers,在16022/16032(基本端口16020/16030加2)的顺序端口上运行。

    $ .bin / local-regionservers.sh start 2 3 4 5

    要手动停止RegionServer,请使用local-regionservers.sh带有stop参数和停止服务器偏移量的命令。

    $ .bin/local-regionservers.sh stop 3
  8. 停止HBase。

    您可以使用bin / stop-hbase.sh命令以与快速入门过程相同的方式停止HBase 。

4。高级 - 完全分布式

实际上,您需要完全分布式配置才​​能完全测试HBase并在实际场景中使用它。在分布式配置中,群集包含多个节点,每个节点运行一个或多个HBase守护程序。这些包括主要和备用主实例,多个ZooKeeper节点和多个RegionServer节点。

此高级快速入门为您的群集添加了两个节点。架构如下:

表1.分布式群集演示体系结构
节点名称 动物园管理员 RegionServer的

node-a.example.com

没有

node-b.example.com

备用

node-c.example.com

没有

本快速入门假定每个节点都是虚拟机,并且它们都在同一网络上。它建立在之前的快速入门伪分布式本地安装的基础上,假设您现在在该过程中配置了系统node-anode-a在继续之前停止HBase 。

  确保所有节点都具有完全的通信访问权限,并且没有防火墙规则可以阻止它们相互通信。如果您发现任何错误no route to host,请检查您的防火墙。

过程:配置无密码SSH访问

node-a需要能够登录node-bnode-c(以及自身)以启动守护进程。实现此目的的最简单方法是在所有主机上使用相同的用户名,并node-a为其他每个主机配置无密码SSH登录。

  1. node-a,生成密钥对。

    以将运行HBase的用户身份登录时,使用以下命令生成SSH密钥对:

    $ ssh-keygen -t rsa

    如果命令成功,则将密钥对的位置打印到标准输出。公钥的默认名称是id_rsa.pub

  2. 创建将在其他节点上保存共享密钥的目录。

    node-b和上node-c,以HBase用户身份登录,并在用户主目录中创建一个.ssh /目录(如果该目录尚不存在)。如果它已存在,请注意它可能已包含其他键。

  3. 将公钥复制到其他节点。

    node-a通过使用scp或其他一些安全方法,将公钥安全地复制到每个节点。在每个其他节点上,创建一个名为.ssh / authorized_keys 的新文件(如果该文件尚不存在),并将id_rsa.pub文件的内容追加到其末尾。请注意,您还需要自己执行此操作node-a

    $ cat id_rsa.pub >>〜/ .ssh / authorized_keys
  4. 测试无密码登录。

    如果您正确执行了该过程,则node-a在使用相同的用户名从其他任何节点进行SSH连接时,系统不会提示您输入密码。

  5. 既然node-b会运行备用Master,重复上面的过程,替换node-b你看到的任何地方node-a。请确保不要覆盖现有的.ssh / authorized_keys文件,而是使用>>运算符而不是>运算符将新密钥连接到现有文件。

程序:准备 node-a

node-a将运行您的主master和ZooKeeper进程,但没有RegionServers。停止启动RegionServer node-a

  1. 编辑conf / regionservers并删除包含的行localhost。加入与主机名或IP地址线node-bnode-c

    即使您确实想要运行RegionServer node-a,也应该通过其他服务器用来与之通信的主机名来引用它。在这种情况下,那将是node-a.example.com。这使您可以将配置分发到群集的每个节点,任何主机名都会发生冲突。保存文件。

  2. 配置HBase node-b用作备份主服务器。

    conf / called backup-master中创建一个新文件,并使用主机名为其添加一个新行node-b。在此演示中,主机名是node-b.example.com

  3. 配置ZooKeeper

    实际上,您应该仔细考虑ZooKeeper配置。您可以在zookeeper部分找到有关配置ZooKeeper的更多信息。此配置将指示HBase启动和管理群集的每个节点上的ZooKeeper实例。

    node-a,编辑conf / hbase-site.xml并添加以下属性。

    <property>
      <name>hbase.zookeeper.quorum</name>
      <value>node-a.example.com,node-b.example.com,node-c.example.com</value>
    </property>
    <property>
      <name>hbase.zookeeper.property.dataDir</name>
      <value>/usr/local/zookeeper</value>
    </property>
  4. 无处不在的配置,您已经提到node-alocalhost,改变引用指向其他节点将用来指代主机名node-a。在这些示例中,主机名是node-a.example.com

程序:准备node-bnode-c

node-b 将运行备份主服务器和ZooKeeper实例。

  1. 下载并解压缩HBase。

    node-b正如您对独立和伪分布式快速入门所做的那样,下载并解压缩HBase 。

  2. 将配置文件复制node-anode-b.and node-c

    群集的每个节点都需要具有相同的配置信息。将内容复制的conf /目录下的的conf /目录下node-bnode-c

过程:启动并测试群集

  1. 确保HBase没有在任何节点上运行。

    如果您忘记在之前的测试中停止HBase,则会出现错误。使用该jps命令检查HBase是否在任何节点上运行。寻找的过程HMasterHRegionServerHQuorumPeer。如果他们存在,杀了他们。

  2. 启动群集。

    node-a,发出start-hbase.sh命令。您的输出将类似于以下内容。

    $ bin/start-hbase.sh
    node-c.example.com: starting zookeeper, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-zookeeper-node-c.example.com.out
    node-a.example.com: starting zookeeper, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-zookeeper-node-a.example.com.out
    node-b.example.com: starting zookeeper, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-zookeeper-node-b.example.com.out
    starting master, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-master-node-a.example.com.out
    node-c.example.com: starting regionserver, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-regionserver-node-c.example.com.out
    node-b.example.com: starting regionserver, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-regionserver-node-b.example.com.out
    node-b.example.com: starting master, logging to /home/hbuser/hbase-0.98.3-hadoop2/bin/../logs/hbase-hbuser-master-nodeb.example.com.out

    ZooKeeper首先启动,然后是master,然后是RegionServers,最后是备份主服务器。

  3. 验证进程是否正在运行。

    在群集的每个节点上,运行该jps命令并验证每个服务器上是否正在运行正确的进程。如果它们用于其他目的,您可能会在服务器上看到其他Java进程。

    node-a jps 产量

    $ jps
    20355 Jps
    20071 HQuorumPeer
    20137 HMaster

    node-b jps 产量

    $ jps
    15930 HRegionServer
    16194 Jps
    15838 HQuorumPeer
    16010 HMaster

    node-c jps 产量

    $ jps
    13901 Jps
    13639 HQuorumPeer
    13737 HRegionServer
     

    ZooKeeper进程名称

    HQuorumPeer过程是一个由HBase控制和启动的ZooKeeper实例。如果以这种方式使用ZooKeeper,则每个群集节点仅限一个实例,并且仅适用于测试。如果ZooKeeper在HBase之外运行,则调用该进程QuorumPeer。有关ZooKeeper配置的更多信息,包括使用带有HBase的外部ZooKeeper实例,请参阅zookeeper部分。

  4. 浏览到Web UI。

     

    Web UI端口更改

    在HBase比0.98.x更新的情况下,HBase Web UI使用的HTTP端口从Master的60010和每个RegionServer的60030变为Master的16010和RegionServer的16030。

    如果一切设置正确,您应该能够 使用Web浏览器连接到Master http://node-a.example.com:16010/或辅助Master的UIhttp://node-b.example.com:16010/。如果您可以通过localhost但不能从其他主机连接,请检查防火墙规则。您可以在端口16030查看其IP地址的每个RegionServers的Web UI,或者单击主UI的Web UI中的链接。

  5. 测试节点或服务消失时会发生什么。

    使用已配置的三节点群集,事情将不会非常有弹性。您仍然可以通过终止关联进程并查看日志来测试主Master或RegionServer的行为。

猜你喜欢

转载自blog.csdn.net/hxiaowang/article/details/89884408
今日推荐