namenode的HA实现

HA的namenode主要分为共享editLog机制和ZKFC对namenode状态的控制。

输入图片说明

1.集群中存在多个namenode,这些namenode都有状态,分为active和standby状态。

2.然后各个namenode之间通过共享文件系统存储编辑日志文件。active master将信息写入共享存储系统,而standby master则读取该信息以保持与active master的同步,从而减少切换时间。

3.此外,datanode还需同时向各个namenode发送数据块处理报告。

4.每一个namenode运行着一个轻量级的故障转移控制器ZKFC。用于监视和控制namenode进程。ZKFC是基于Zookeeper实现的,启动的时候会创建HealthMonitor和ActiveStandbyElector这两个组件,创建的同时也会向HealthMonitor和ActiveStandbyElector注册相应的回调方法。

HealthMonitor:主要负责检测NameNode的健康状态,如果检测到NameNode的状态发生变化,会回调ZKFailoverController的相应方法进行自动的主备选举。

ActiveStandbyElector:主要负责完成自动的主备选举,内部封装了Zookeeper的处理逻辑,一旦Zookeeper主备选举完成,会回调ZKFailoverController的相应方法来进行NameNode的主备状态切换。

输入图片说明

1.HealthMonitor初始化完成之后会启动内部的线程来定时调用对应NameNode的HAServiceProtocol RPC接口,对NameNode的健康状态进行检测。

2.HealthMonitor如果检测到NameNode的健康状态发生变化,会回调ZKFailoverController注册的相应方法进行处理。

3.如果ZKFailoverController判断需要进行主备切换,会首先使用ActiveStandbyElector来进行自动的主备选举。

4.ActiveStandbyElector 与 Zookeeper进行交互完成自动的主备选举。

5.ActiveStandbyElector 与Zookeeper进行交互完成自动的主备选举完成后,会回调ZKFailoverController的相应方法来通知当前的NameNode成为主NameNode或备NameNode.

6.ZKFailoverController调用对应NameNode的HAServiceProtocol RPC 接口的方法将NameNode转换为Active状态或Standby状态。

fencing实现: Hadoop公共库中对外提供了两种fenching实现,分别是sshfence和shelllfence(缺省实现) ,其中sshfence是指通过ssh登陆目标Master节点上,使用命令kill将进程杀死(通过tcp端口号定位进程pid,该方法比jps命令更准确);shellfence执行自定义脚本。

判断是否脑裂: 自身故障,它会先删除持久化节点然后再关闭。如果是脑裂的话,它只是临时节点消息,持久化还存在。 所以我们这边可以通过判断持久化节点是否存在,来判断是否是因为自身故障。

猜你喜欢

转载自my.oschina.net/134596/blog/1647118