Hadoop HA 详细配置及注意事项

一、文件配置(配置顺序并无先后)

1.配置hadoop-env.sh

打开hadoop.env.sh：vim hadoop/etc/hadoop/hadoop/env.sh
修改：export JAVA_HOME=/你的路径/jdk1.8.0_144，根据自己安装的jdk版本及路径配置

2.配置core-site.xml。注意：第二项路径要改为自己的真实目录

<configuration>
<!-- 把两个NameNode）的地址组装成一个集群mycluster -->
	<property>
		<name>fs.defaultFS</name>
        <value>hdfs://mycluster</value>
	</property>

	<!-- 指定hadoop运行时产生文件的存储目录 -->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/ha/hadoop-2.7.2/data/tmp</value>
	</property>

    <property>
        <name>ha.zookeeper.quorum</name>
        <value>hadoop102:2181,hadoop103:2181,hadoop104:2181</value>
    </property>
</configuration>

3.配置hdfs-site.xml

<configuration>
	<!-- 完全分布式集群名称 -->
	<property>
		<name>dfs.nameservices</name>
		<value>mycluster</value>
	</property>

	<!-- 集群中NameNode节点都有哪些 -->
	<property>
		<name>dfs.ha.namenodes.mycluster</name>
		<value>nn1,nn2</value>
	</property>

	<!-- nn1的RPC通信地址 -->
	<property>
		<name>dfs.namenode.rpc-address.mycluster.nn1</name>
		<value>hadoop102:9000</value>
	</property>

	<!-- nn2的RPC通信地址 -->
	<property>
		<name>dfs.namenode.rpc-address.mycluster.nn2</name>
		<value>hadoop103:9000</value>
	</property>

	<!-- nn1的http通信地址 -->
	<property>
		<name>dfs.namenode.http-address.mycluster.nn1</name>
		<value>hadoop102:50070</value>
	</property>

	<!-- nn2的http通信地址 -->
	<property>
		<name>dfs.namenode.http-address.mycluster.nn2</name>
		<value>hadoop103:50070</value>
	</property>

	<!-- 指定NameNode元数据在JournalNode上的存放位置 -->
	<property>
		<name>dfs.namenode.shared.edits.dir</name>
	<value>qjournal://hadoop102:8485;hadoop103:8485;hadoop104:8485/mycluster</value>
	</property>

	<!-- 配置隔离机制，即同一时刻只能有一台服务器对外响应 -->
	<property>
		<name>dfs.ha.fencing.methods</name>
		<value>sshfence</value>
	</property>

	<!-- 使用隔离机制时需要ssh无秘钥登录-->
	<property>
		<name>dfs.ha.fencing.ssh.private-key-files</name>
		<value>/home/lpy/.ssh/id_rsa</value>
	</property>

	<!-- 声明journalnode服务器存储目录-->
	<property>
		<name>dfs.journalnode.edits.dir</name>
		<value>/opt/ha/hadoop-2.7.2/data/jn</value>
	</property>

	<!-- 关闭权限检查-->
	<property>
		<name>dfs.permissions.enable</name>
		<value>false</value>
	</property>

	<!-- 访问代理类：client，mycluster，active配置失败自动切换实现方式-->
	<property>
  		<name>dfs.client.failover.proxy.provider.mycluster</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
	</property>

    <!--设置自动故障转移功能为true-->
    <property>
	    <name>dfs.ha.automatic-failover.enabled</name>
	    <value>true</value>
    </property>
</configuration>

4.将这些配置好的文件分发到各机器：xsync hadoop

xsync脚本内容请参考：https://blog.csdn.net/S_Alics/article/details/108096351

二、启动

启动 Zookeeper 集群（如果已经启动则跳过此步）：bin/zkServer.sh start。注意：zookeeper 没有自带的群起脚本，需要在各个机器上分别启动
初始化 HA 在 Zookeeper 中状态：bin/hdfs zkfc -formatZK
启动 QJM 集群：注意：这里最好用群起脚本：sbin/hadoop-daemons.sh start journalnode
在[nn1]上，对其进行格式化：bin/hdfs namenode -format。注意：一定要先启动 QJM 集群再格式化 namenode ，因为元数据已经不在本地存储，而是在 QJM 集群里存储
启动 HDFS 服务：sbin/start-dfs.sh
在[nn2]上，同步 nn1 的元数据信息：bin/hdfs namenode -bootstrapStandby
启动 nn2：sbin/hadoop-daemon.sh start namenode
查看 web 页面显示：访问 hadoop102:50070 和 hadoop103:50070
杀死 nn1：kill -9 namenode 的进程号
查看 nn 状态：bin/hdfs haadmin -getServiceState nn1
观察web页面显示：nn1 无法访问，nn2 自动由 standby 变为 active

三、注意事项重申

如果之前已经使用过未配置 HA 的 hdfs 集群，则需要每台机器都删除 hadoop 包下的 data 和 logs 文件夹。当然如果考虑到之前的数据问题，也可以重新安装一个专门配置 HA 的 hadoop
zookeeper 没有自带的群起脚本，需要在各个机器上分别启动
启动 QJM 集群最好用群起脚本，因为 journalnode 机制和 zookeeper 相似，需多数启动才能正常工作
一定要先启动 QJM 集群再格式化 namenode ，因为元数据已经不在本地存储，而是在 QJM 集群里存储
一定要先启动 nn1 ，再在 nn2 上同步元数据信息，否则 nn2 无法启动（本人是存在这种问题，不代表全部）

Hadoop HA 详细配置及注意事项

一、文件配置(配置顺序并无先后)

二、启动

三、注意事项重申

猜你喜欢