Hadoop HA集群搭建

一：在安装搭建之前简单了解一下 hadoop ha

为什么会有hadoop HA机制呢？

HA：High Available，高可用在Hadoop 2.0之前,在HDFS 集群中NameNode 存在单点故障

对于只有一个 NameNode 的集群，如果 NameNode 机器出现故障(比如宕机或是软件、硬件升级)，那么整个集群将无法使用，直到 NameNode 重新启动

如何解决呢？

HDFS的HA功能通过配置Active/Standby两个NameNodes实现在集群中对 NameNode 的热备来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将 NameNode 很快的切换到另外一台机器。

在一个典型的 HDFS(HA) 集群中，使用两台单独的机器配置为 NameNodes 。在任何时间点，确保 NameNodes 中只有一个处于 Active 状态，其他的处在 Standby 状态。其中 ActiveNameNode 负责集群中的所有客户端操作，StandbyNameNode 仅仅充当备机，保证一旦 ActiveNameNode 出现问题能够快速切换。

为了能够实时同步 Active 和 Standby 两个 NameNode 的元数据信息（实际上 editlog），需提供一个共享存储系统，可以是 NFS、QJM（Quorum Journal Manager）或者 Zookeeper，Active Namenode 将数据写入共享存储系统，而 Standby 监听该系统，一旦发现有新数据写入，则读取这些数据，并加载到自己内存中，以保证自己内存状态与 Active NameNode 保持基本一致，如此这般，在紧急情况下 standby 便可快速切为 active namenode。为了实现快速切换， Standby 节点获取集群的最新文件块信息也是很有必要的。为了实现这一目标，DataNode 需要配置 NameNodes 的位置，并同时给他们发送文件块信息以及心跳检测。

二：Hadoop HA集群安装搭建

1.首先第一步毋庸置疑的是需要做hadoop集群规划

描述：hadoop HA 集群的搭建依赖于 zookeeper，所以选取三台当做 zookeeper 集群我总共准备了三台主机，分别是 hadoop01，hadoop02，hadoop03 ，其中 hadoop01 和 hadoop02 做 namenode 的主备切换，hadoop02 和 hadoop03 做 resourcemanager 的主备切换（这个依据自己集群节点的数量来规划,可自由设置）

三台机器的节点分布
	hadoop01	hadoop02	hadoop03
namenode	✔	✔
datanode	✔	✔	✔
resourcemanager		✔	✔
nodemanager	✔	✔	✔
zookeeper	✔	✔	✔
journalnode	✔	✔	✔
zkfc	✔	✔

2.集群服务器准备（这个环节比较简单，在这里就不详细概述了）

1、修改主机名 vi /etc/sysconfig/network (ps:我三台服务器都修改了，分别为hadoop01，hadoop02，hadoop03)

2、修改 IP 地址

3、添加主机名和 IP 映射

4、添加普通用户 hadoop 用户并配置 sudoer 权限

5、设置系统启动级别

6、同步服务器时间

7、关闭防火墙/关闭 Selinux

8、配置 SSH 免密登录

9、安装 JDK

3.安装zookeeper集群

在此略过，可参考我的另外一篇博客：Zookeeper的集群搭建与配置（二）https://blog.csdn.net/qq_36508766/article/details/81336588

4.安装并配置hadoop ha集群

（ps:如果之前安装过普通的分布式hadoop集群，需要删除相关数据文件，修改配置，建议全部卸载重新安装）

1.上传安装包hadoop-2.7.6.tar.gz

2.解压安装包到对应的安装目录 tar -zxvf hadoop-2.7.6.tar.gz -C apps/

3.修改配置文件 (修改相关配置key的作用都已在注释)

(PS:我的配置文件路径 /home/hadoop/apps/hadoop-2.7.6/etc/hadoop )

3.1 修改hadoop-env.sh 配置jdk ----vi hadoop-env.sh

3.2 修改core-site.xml

<configuration>

<property>
<name>fs.defaultFS</name>
<value>hdfs://myha01/</value>
</property>


<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/data/hadoopdata/</value>
</property>


<property>
<name>ha.zookeeper.quorum</name>
<value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>
</property>
</configuration>

3.3 修改 hdfs-site.xml

<configuration>

<property>
    <name>dfs.replication</name>
    <value>2</value>
</property>

<property>
    <name>dfs.nameservices</name>
    <value>myha01</value>
</property>

<property>
    <name>dfs.ha.namenodes.myha01</name>
    <value>nn1,nn2</value>
</property>

<property>
    <name>dfs.namenode.rpc-address.myha01.nn1</name>
    <value>hadoop01:9000</value>
</property>

<property>
    <name>dfs.namenode.http-address.myha01.nn1</name>
    <value>hadoop01:50070</value>
</property>

<property>
    <name>dfs.namenode.rpc-address.myha01.nn2</name>
    <value>hadoop02:9000</value>
</property>

<property>
    <name>dfs.namenode.http-address.myha01.nn2</name>
    <value>hadoop02:50070</value>
</property>

<property>
    <name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://hadoop01:8485;hadoop02:8485;hadoop03:8485/myha01</value>
</property>

<property>
    <name>dfs.journalnode.edits.dir</name>
    <value>/home/hadoop/data/hadoopdata/journaldata</value>
</property>

<property>
    <name>dfs.ha.automatic-failover.enabled</name>
    <value>true</value>
</property>


<property>
    <name>dfs.client.failover.proxy.provider.myha01</name>
   <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>

<property>
    <name>dfs.ha.fencing.methods</name>
    <value>
    sshfence
    shell(/bin/true)
    </value>
</property>

<property>
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/home/hadoop/.ssh/id_rsa</value>
</property>

<property>
    <name>dfs.ha.fencing.ssh.connect-timeout</name>
    <value>30000</value>
</property>
</configuration>

3.4 修改 mapred-site.xml （PS:没有mapred-site.xml文件可以建一个例： cp mapred-site.xml.template mapred-site.xml）

<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop01:10020</value>
</property>

<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop01:19888</value>
</property>
</configuration>

3.5修改yarn-site.xml

<configuration>

<property>
    <name>yarn.resourcemanager.ha.enabled</name>
    <value>true</value>
</property>

<property>
    <name>yarn.resourcemanager.cluster-id</name>
    <value>yrc</value>
</property>

<property>
    <name>yarn.resourcemanager.ha.rm-ids</name>
    <value>rm1,rm2</value>
</property>

<property>
    <name>yarn.resourcemanager.hostname.rm1</name>
    <value>hadoop02</value>
</property>
<property>
    <name>yarn.resourcemanager.hostname.rm2</name>
    <value>hadoop03</value>
</property>

<property>
    <name>yarn.resourcemanager.zk-address</name>
    <value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>
</property>

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>

<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>86400</value>
</property>

<property>
    <name>yarn.resourcemanager.recovery.enabled</name>
    <value>true</value>
</property>

<property>
    <name>yarn.resourcemanager.store.class</name>
   <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
</configuration>