HDFS- High Availability - 代码天地

HDFS- High Availability

其他 2018-04-18 13:36:55 阅读次数: 4

NameNode High Availability

Background

Hadoop2.0.0之前，NameNode存在单点失败（single point of failure (SPOF) ）问题（1、NameNode所在的机器挂了；2、NameNode所在的机器需要硬件或者软件上的更新维护）。

新的NameNode需要（1）将namespace image加载到内存（2）replay editlog（3）从datanodes接收到足够的block报告从而离开安全模式；才能重新开始服务。在包含大量文件和Blocks的大的集群中，namenode的冷启动可能需要30min或更久。

Architecture

NameNode HA包含两个NameNode，在任意一个时刻，只有一个NameNode是的状态是Active，另一个是NameNode的状态是Standby，此外还包含ZooKeeper Failover Controller（ZKFC）、ZooKeeper以及共享编辑日志（share edit log）。 Active NameNode负责所有客户端对集群的操作， Standby NameNode作为slave，维护状态信息以便在提供快速的故障转移。

实现HA的流程

（1）集群启动后，一个NameNode处于Active的状态，提供服务，处理客户端和DataNodes的请求，并把修改写到edit log，然后将edit log写到本地和共享编辑日志（NFS、QJM等）。

【共享编辑日志分两种，

1：如果是NFS，那么主、从NameNode访问NFS的一个目录或者共享存储设备，Active Node对namespace的修改记录到edit log中，然后将edit log存储到共享目录中。Standby NameNode将共享目录中的edit log 写到自己的namespace

2：如果是QJM，那么主、从NameNode与一组单独的称为Journal Nodes（JNs）的守护线程进行通信，Active Node将修改记录到大多数（> (N / 2) + 1，N是Journal Nodes的数量），Standby NameNode能够从JNs读到修改并写到自己的namespace中

】

（2）另外一个NameNode处于standby状态，它启动时加载Namespace Image文件，然后周期性地将共享编辑日志写到自己namespace，从而保持与Active NameNode的状态同步。在发生故障转移时，Standby节点需要确保自己已经从共享编辑日志读到了所有的edit log之后，才会变成Active节点。这保证了namespace状态的完全同步。

（3）为了实现Standby NameNode在Active NameNode失败之后能够快速提供服务，每个DataNode需要同时向两个NameNode发送块的位置信息和心跳【块报告（block report）】，因为NameNode启动最费时的工作就是处理所有DataNodes的块报告。为了实现热备，增加ZKFC和ZooKeeper，通过ZK选择主节点，Failover Controller通过RPC让NameNode转换为主或从。

（4）当Active NameNode失败时，Standby NameNode可以很快地接管，因为在Standby NameNode的内存中有最新的状态信息（1）最新的edit log（2）最新的block mapping

高可用的共享存储的两种选择：NFS和QJM

quorum journal manager(QJM)是HDFS专门的实现，唯一的目的就是提供高可用的edit log，是大多数HDFS的推荐选择。

QJM的工作过程：QJM运行一组journal nodes，每个edit必须被写入到majority的journal nodes中。通常，journal nodes的数量是3（至少是3个），因此每个edit必须被写入到至少两个journal nodes，允许一个journal nodes失败。【与ZooKeeper相似，但是QJM不是依赖ZooKeeper实现的】

使用 Fencing（隔离）来防止"split-brain"（脑裂）

Why Fencing？

slow network or a network partition可以触发故障转移，即使之前的Active NameNode仍让在正常运转并且认为它自己仍然是Active NameNode，这时HA就需要确保阻止这样的NameNode继续运行。

两种隔离

（1）通过隔离保证在同一时刻主NameNoel和从NameNode只有一个能够写共享编辑日志

（2）DataNode隔离：对客户端进行隔离，要确保只有一个NameNode能够响应客户端的请求

对于HA集群来说，同一时刻只能有一个Active NameNode，否则namespace的状态很快就会发散成两个，造成数据丢失以及其他不正确的结果，即"split-brain"。为了防止这种情况发生，对于共享存储必须配置隔离（fencing）方法。在故障转移期间，如果不能判定之前的Active 节点放弃了他的Active状态，隔离处理负责切断切断之前的Active节点对共享编辑存储的访问，这就防止了之前Active节点对namespace的进一步编辑，从而使得新的Active节点能够安全地进行故障转移。（即一旦主NameNode失败，那么共享存储需要立即进行隔离，确保只有一个NameNode能够命令DataNodes。这样做之后，还需要对客户端进行隔离，要确保只有一个NameNode能够响应客户端的请求。让访问从节点的客户端直接失败，然后通过若干次的失败后尝试连接新的NameNode，对客户端的影响是增加一些重试时间，但对应用来说基本感觉不到。）

why QJM recommended?

QJM在同一个时刻只允许一个NameNode写edit log；然而，之前的Active NameNode仍有可能为客户端的旧的读请求服务，此时可以设置SSH fencing命令来杀死NameNode的进程。

由于NFS不可能在同一个时刻只允许一个NameNode向它写数据，因此NFS需要更强的fencing方法，包括：1、revoking the namenode’s access to the shared storage directory (typically by using a vendor-specific NFS command)；2、disabling its network port via a remote management command；3、STONITH, or “shoot the other node in the head,” which uses a specialized power distribution unit to forcibly power down the host machine.

Failover Controller

从Active NameNode到Standby NameNode的转换通过Failover Controller实现。Hadoop的FC的默认实现是基于ZooKeeper的，从而确保只有一个Active NameNode。Failover Controller的作用是监控NameNode、操作系统、硬件的健康状态，如果出现NameNode的失败，则进行故障转移。

NOTE：HA集群中的Standby NameNode同时为namespace的状态执行检查点（HA上运行Secondary NameNode, CheckpointNode, or BackupNode是错误的）

参考：

（1）《Hadoop The Definitive Guide》

（2）http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html

猜你喜欢

转载自www.cnblogs.com/sodawoods-blogs/p/8874231.html

HDFS- High Availability

HDFS High Availability 高可用(HA) with QJM

High Availability

使用NFS实现HA（HDFS High Availability With NFS）

Hadoop High Availability

An introduction to High Availability Architecture

High Availability PostgreSQL HOWTO

FreeIPA high availability installation

RabbitMq Cluster 和 High Availability

大数据-----Hadoop High Availability

聊聊flink JobManager的High Availability

Spring Cloud: High Availability for Eureka

cdh4b1之HDFS的HA(High Availability)原理简介

hadoop大数据平台手动搭建(八)HDFS High Availability Using the Quorum Journal Manager

Kafka设计解析（二）- Kafka High Availability

Kafka设计解析（三）- Kafka High Availability

Hadoop HA(High Availability)介绍及集群的搭建

Configuring High Availability and Consistency for Apache Kafka

Master High Availability 安装配置(MHA)

NetScaler Best Practice With VMAC In A High Availability Configuration

hadoop集群高可用 (High Availability)

Synology 搭建双机冗余High Availability服务

Hadoop High Availability （高可用）详细讲解

Cloud DB for MySQL High Availability Overview

Hadoop High Availability（HA高可用）

MySQL笔记-MHA（Master High Availability）搭建

Hadoop Distributed File System(High Availability Using the Quorum Journal Manager and ResourceManager High Availability)

HDFS High Availability（HA）高可用、单点故障、主备集群、脑裂问题、数据同步问题、HDFS HA解决方案—QJM

hadoop 2.7.2 yarn中文文档——ResourceManager High Availability

Kafka设计解析（二）：Kafka High Availability （上）（转）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)