HDFS CheckPoint && SavePoint

标签（空格分隔）： Hadoop

HDFS CheckPoint

HDFS 将文件系统的元数据信息存放在 fsimage 和一系列的 edits 文件中。

在启动 HDFS 集群时，系统会先加载 fsimage，然后逐个执行所有Edits文件中的每一条操作，来获取完整的文件系统元数据。

文件

HDFS 的存储元数据是由 fsimage 和 edits 文件组成。fsimage 存放上次 checkpoint 生成的文件系统元数据（并不是Active Namenode 内存中最新的元数据状态），edits log 存放文件系统操作日志。checkpoint的过程，就是合并 fsimage 和 edits 文件，然后生成最新的 fsimage 的过程。

fsimage文件: fsimage 里保存的是 HDFS 文件系统的元数据信息。每次 checkpoint 的时候生成一个新的 fsimage 文件，fsimage 文件同步保存在 active namenode 上和 standby namenode 上。是在 standby namenode 上生成并上传到 active namenode 上的。

edits文件: active namenode 会及时把 HDFS 的修改信息（创建，修改，删除等）写入到本地目录，和 journalnode 上的 edits 文件，每一个操作以一条数据的形式存放。edits文件默认每2分钟产生一个。正在写入的Edits文件以 edits_inprogress_* 格式存在。

-rw-rw-r-- 1 hdfs hdfs  1096975 Nov 25 22:20 edits_0000000000146624442-0000000000146631836
-rw-rw-r-- 1 hdfs hdfs   158141 Nov 25 22:22 edits_0000000000146631837-0000000000146632810
-rw-rw-r-- 1 hdfs hdfs   124334 Nov 25 22:24 edits_0000000000146632811-0000000000146633587
-rw-rw-r-- 1 hdfs hdfs   152122 Nov 25 22:26 edits_0000000000146633588-0000000000146634558
-rw-rw-r-- 1 hdfs hdfs   135233 Nov 25 22:28 edits_0000000000146634559-0000000000146635440
-rw-rw-r-- 1 hdfs hdfs   110887 Nov 25 22:30 edits_0000000000146635441-0000000000146636138
-rw-rw-r-- 1 hdfs hdfs   103041 Nov 25 22:32 edits_0000000000146636139-0000000000146636786
-rw-rw-r-- 1 hdfs hdfs   110947 Nov 25 22:34 edits_0000000000146636787-0000000000146637484
-rw-rw-r-- 1 hdfs hdfs   105728 Nov 25 22:36 edits_0000000000146637485-0000000000146638157
-rw-rw-r-- 1 hdfs hdfs   139609 Nov 25 22:38 edits_0000000000146638158-0000000000146639052
-rw-rw-r-- 1 hdfs hdfs   128850 Nov 25 22:40 edits_0000000000146639053-0000000000146639920
-rw-rw-r-- 1 hdfs hdfs   106578 Nov 25 22:42 edits_0000000000146639921-0000000000146640655
-rw-rw-r-- 1 hdfs hdfs   109422 Nov 25 22:44 edits_0000000000146640656-0000000000146641383
-rw-rw-r-- 1 hdfs hdfs   128798 Nov 25 22:46 edits_0000000000146641384-0000000000146642199
-rw-rw-r-- 1 hdfs hdfs   116107 Nov 25 22:48 edits_0000000000146642200-0000000000146642928
-rw-rw-r-- 1 hdfs hdfs    96472 Nov 25 22:50 edits_0000000000146642929-0000000000146643537
-rw-rw-r-- 1 hdfs hdfs   108026 Nov 25 22:52 edits_0000000000146643538-0000000000146644212
-rw-rw-r-- 1 hdfs hdfs    97870 Nov 25 22:54 edits_0000000000146644213-0000000000146644835
-rw-rw-r-- 1 hdfs hdfs   122876 Nov 25 22:56 edits_0000000000146644836-0000000000146645629
-rw-rw-r-- 1 hdfs hdfs   151812 Nov 25 22:58 edits_0000000000146645630-0000000000146646551
-rw-rw-r-- 1 hdfs hdfs   104895 Nov 25 23:00 edits_0000000000146646552-0000000000146647205
-rw-rw-r-- 1 hdfs hdfs   146342 Nov 25 23:02 edits_0000000000146647206-0000000000146648121
-rw-rw-r-- 1 hdfs hdfs   142704 Nov 25 23:04 edits_0000000000146648122-0000000000146649036
-rw-rw-r-- 1 hdfs hdfs  1048576 Nov 25 23:04 edits_inprogress_0000000000146649037
-rw-rw-r-- 1 hdfs hdfs 13055376 Nov 25 22:01 fsimage_0000000000146603894
-rw-rw-r-- 1 hdfs hdfs       62 Nov 25 22:01 fsimage_0000000000146603894.md5
-rw-rw-r-- 1 hdfs hdfs 13043781 Nov 25 23:01 fsimage_0000000000146647205
-rw-rw-r-- 1 hdfs hdfs       62 Nov 25 23:01 fsimage_0000000000146647205.md5
-rw-rw-r-- 1 hdfs hdfs       10 Nov 25 23:04 seen_txid
-rw-rw-r-- 1 hdfs hdfs      206 Jul 27  2018 VERSION

checkpoint 过程

开启HA的HDFS，有 active 和 standby namenode 两个 namenode 节点。他们的内存中保存了一样的集群元数据信息。

因为 standby namenode 已经将集群状态存储在内存中了，所以创建检查点checkpoint的过程只需要从内存中生成新的fsimage。

这里standby namenode称为SbNN，activenamenode称为ANN

SbNN查看是否满足创建检查点的条件

检查条件

一,距离上次checkpoint的时间间隔 >= ${dfs.namenode.checkpoint.period}
二,edits中的事务条数达到 ${dfs.namenode.checkpoint.txns} 限制

Checkpoint步骤

SbNN将内存中当前的状态保存成一个新的文件，命名为fsimage.ckpt_txid。其中txid是最后一个edit中的最后一条事务的ID（transaction ID,不包括 inprogress）。然后为该fsimage文件创建一个MD5文件，并将fsimage文件重命名为fsimage_txid。

SbNN向ANN发送一条HTTP GET请求。请求中包含了SbNN的域名，端口以及新fsimage的txid。

ANN收到请求后，用获取到的信息反过来向SbNN再发送一条HTTP GET请求，获取新的fsimage文件。这个新的fsimage文件传输到ANN上后，也是先命名为fsimage.ckpt_txid，并为它创建一个MD5文件。然后再改名为fsimage_txid。fsimage过程完成。

CheckPoint 相关配置

checkpoint 相关配置

dfs.namenode.checkpoint.period

两次检查点创建之间的固定时间间隔，默认3600，即1小时

dfs.namenode.checkpoint.txns

未检查的事务数量。若没检查事务数达到这个值，也触发一次checkpoint，1,000,000

dfs.namenode.checkpoint.check.period

standby namenode检查是否满足建立checkpoint的条件的检查周期。默认60，即每1min检查一次

dfs.namenode.num.checkpoints.retained

在namenode上保存的fsimage的数目，超出的会被删除。默认保存2个

dfs.namenode.num.checkpoints.retained

最多能保存的edits文件个数，默认为1,000,000. 官方解释是为防止standby namenode宕机导致edits文件堆积的情况，设置的限制

dfs.ha.tail-edits.period

standby namenode每隔多长时间去检测新的Edits文件。只检测完成了的Edits， 不检测inprogress的文件。(不是很明白)

Fsimage回滚条件

一，fsimage会在每次checkpoint时生成一个新的fsimage

二，NN重启的时候也会生成一个新的fsimage

Edits log回滚条件

NameNode(active)周期性的检查当前的事务数是否超过了edits回滚阈值。

检查间隔周期是由dfs.namenode.edit.log.autoroll.check.interval.ms控制，默认是300000ms。也就是5min

回滚的阈值是
dfs.namenode.edit.log.autoroll.multiplier.threshold * dfs.namenode.checkpoint.txns

dfs.namenode.edit.log.autoroll.multiplier.threshold默认是2.0f
dfs.namenode.checkpoint.txns默认是 1000000

也就是5min 检查一次，一个 editlog 文件中大约有 超过200w 的事务数的时候，进行一次editlog 回滚。

在HA模式下，standby NN会周期的让active NN对edits进行回滚

间隔周期由dfs.ha.log-roll.period控制，默认是120s,也就是2min 生成一个新的 Edit_Log。
standby NN之所以周期的让active NN滚动edits log是因为standby NN不会读取inprogress的edits，只是周期（dfs.ha.tail-edits.period，默认是60s）的去检测已经完成的edits文件，并将该edits文件通过JournalNode读取到内存更新fsimage在内存中的状态。
简而言之：standby 内存中拉取 jn 的 editlog，然后合并到内存中变成最新的 镜像，镜像dump 出来名字变成 最新消费的 id的，然后再传到active nn上去。