2018-07-20期 Hadoop HDFS SecondaryNamenode功能 - 代码天地

2018-07-20期 Hadoop HDFS SecondaryNamenode功能

企业开发 2018-07-20 09:39:10 阅读次数: 0

NameNode主要是用来保存HDFS的元数据信息，比如命名空间信息，块信息等等。当它运行的时候，这些信息是存在内存中的。但是这些信息也可以持久化到磁盘上。如下图所示：

上图展示来NameNode怎么把元数据保存到磁盘上，这里有两个不同的文件：

fsimage：它是NameNode启动时对整个文件系统的快照。

edits：它是在NameNode启动后，对文件系统的改动序列。

只有在NameNode重启时，edits才会合并到fsimage文件中，从而得到一个文件系统的最新快照。但是在生产环境集群中的NameNode是很少重启的，这意味者当NameNode运行来很长时间后，edits文件会变的很大。在这种情况下就会出现下面这些问题：

edits文件会变的很大，如何去管理这个文件？

NameNode的重启会花费很长的时间，因为有很多改动要合并到fsimage文件上。

如果NameNode宕掉了，那我们就丢失了很多改动，因为此时的fsimage文件时间戳比较旧。

因此为了克服这个问题，我们需要一个易于管理的机制来帮助我们减小edits文件的大小和得到一个最新的fsimage文件，这样也会减小在NameNode上的压力。而Secondary NameNode就是为了帮助解决上述问题提出的，它的职责是合并NameNode的edits到fsimage文件中。如图所示：

上图的工作原理，我这里也赘述下：

（1）首先，它定时到NameNode去获取edits，并更新到fsimage上。一旦它有新的fsimage文件，它将其拷贝回NameNode上。

（2）NameNode在下次重启时会使用这个新的fsimage文件，从而减少重启的时间。

　　Secondary NameNode的整个目的在HDFS中提供一个Checkpoint Node，通过阅读官方文档可以清晰的知道，它只是NameNode的一个助手节点，这也是它在社区内被认为是Checkpoint Node的原因。

现在，我们明白Secondary NameNode所做的是在文件系统这设置一个Checkpoint来帮助NameNode更好的工作；它不是取代NameNode，也不是NameNode的备份。　　

Secondary NameNode的检查点进程启动，是由两个配置参数控制的：

fs.checkpoint.period，指定连续两次检查点的最大时间间隔，默认值是1小时。

fs.checkpoint.size，定义了edits日志文件的最大值，一旦超过这个值会导致强制执行检查点（即使没到检查点的最大时间间隔）。默认值是64MB。

　　如果NameNode上除了最新的检查点以外，所有的其他的历史镜像和edits文件都丢失了， NameNode可以引入这个最新的检查点。以下操作可以实现这个功能：

在配置参数dfs.name.dir指定的位置建立一个空文件夹；

把检查点目录的位置赋值给配置参数fs.checkpoint.dir；

启动NameNode，并加上-importCheckpoint。

　　NameNode会从fs.checkpoint.dir目录读取检查点，并把它保存在dfs.name.dir目录下。如果dfs.name.dir目录下有合法的镜像文件，NameNode会启动失败。 NameNode会检查fs.checkpoint.dir目录下镜像文件的一致性，但是不会去改动它。

注：关于NameNode是什么时候将改动写到edit logs中的？这个操作实际上是由DataNode的写操作触发的，当我们往DataNode写文件时，DataNode会跟NameNode通信，告诉NameNode什么文件的第几个block放在它那里，NameNode这个时候会将这些元数据信息写到edit logs文件中。

猜你喜欢

转载自blog.51cto.com/2951890/2147491

2018-07-20期 Hadoop HDFS SecondaryNamenode功能

2018-07-19期 Hadoop HDFS DataNode功能

Hadoop 之 HDFS (NameNode 和 SecondaryNameNode)

Hadoop之HDFS(NameNode和SecondaryNameNode)（面试开发重点）

Hadoop的NameNode和SecondaryNameNode的功能描述

hadoop--hdfs基础功能实现

Hadoop平台上HDFS和MapReduce的功能

hadoop功能模块之hdfs

springboot集成hadoop实现hdfs功能

Hadoop_07_HDFS的Java API 操作

hadoop的HDFS

Hadoop HDFS

Hadoop - HDFS

Hadoop ---- HDFS

HDFS与HADOOP

hadoop 的hdfs：

HDFS的Secondarynamenode工作机制

大数据技术之Hadoop（HDFS）第5章 NameNode和SecondaryNameNode

Hadoop系列——HDFS相关架构，面试题，读数据/写数据/SecondaryNameNode的工作机制

大数据技术之_04_Hadoop学习_01_HDFS_HDFS概述+HDFS的Shell操作(开发重点)+HDFS客户端操作(开发重点)+HDFS的数据流(面试重点)+NameNode和SecondaryNameNode(面试开发重点)

2018-07-20 接口

hdfs的namenode、datanode和secondarynamenode

第七章：小朱笔记hadoop之源码分析-hdfs分析第六节：SecondaryNameNode分析

Hadoop 从 0 到 1 学习 ——第六章 HDFS NameNode 和 SecondaryNameNode 详解 (面试开发重点)

HDFS：Hadoop文件系统（HDFS）

Hadoop---Java实现HDFS的新增、删除、上传、下载功能

hadoop secondarynamenode的作用

hadoop SecondaryNameNode和NameNode

Hadoop配置启动SecondaryNameNode

hadoop SecondaryNameNode 目录结构

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)