block块与副本数的概念

HDFS架构设计

namenode里面包括文件名称、文件目录结构、文件属性(创建时间权限副本数)以及文件对应哪些数据块，这些数据块对应分布到哪些datanode节点上，blockmap,namenode节点不会持久化存储这种映射关系，集群在启动时和运行时，datanode定期发送blockreport 给namenode，所以namenode在内存中动态维护这种映射关系。
nn的作用：管理文件系统的命名空间，维护文件系统树，以两种文件永久保存在磁盘。两种文件分别是：命名空间镜像文件fsimage、编辑日志editlog

对于块的校验和，DataNode会统计块的数目，假如一个文件的几个块合在一起，没办法形成一个文件，说明块损坏，那么此时就会从其他副本中调取。如果三个副本都损坏了，那么此时50070的web界面会显示异常。
与NN通信：netty 每隔三秒发送一个心跳包，每10次心跳发送一个blockReport。主要作用：就是进行文件数据块的读写。

其存储的内容主要为NN中的两个文件。命名空间镜像文件fsimage、编辑日志 editlog
作用：定期合并fsimage+editlog文件为新的fsimage，推送给NN，称为检查点，checkpoint
参数：dfs.namenode.checkpoint.period: 3600 （hdfs,作用于namenode进程，检查点，周期（以秒为单位）也就是一小时检查一次）
fsimage: 镜像文件文件系统树全量 14:00
editlog：操作日志读写的操作记录增量 14:00-14:30
比如在15：00，就是14:00fsimage + 14:00~15:00editlog 合并成一个新的image
15:00 fsimage
14：00的fsimage 就相当于右边snn里面的从nn节点拿来的edit+image，即为new image。14:00~15:00editlog 就相当于nn中从edits变为edit.new的内容。15:00 fsimage就相当于最终的newimage+最终的edits

数据是以块存储在datanode节点
图中可以看出DN1 DN2 这两台机器在机架rack1上面，DN3 DN4在机架rack2上面
副本放置参考上图，第一个副本:假设我提交文件的所在机器就是datanode节点，那么第一个块就存储在本节点上；（就近原则）如果不是，就随机挑选一台磁盘不太慢的 cpu不太繁忙的节点上；（如果只有一个机架，就在左边图上选择其他机器放置其他副本）如果不止一个机架，就如下放置把第二个副本放置在于第一个副本的不同的机架的节点上。把第三个副本放置在与第二个副本相同的机架的不同的节点上。