Hadoop - HDFS - 代码天地

HDFS由NameNode、DataNode、Second人

一、NN（NameNode）

NameNode维护的是HDFS上的文件系统的命名空间：

DataNode用来存储数据块和数据块校验的：

大体上用来备份NN的数据。

副本放置策略依托于机架感知，机架感知在大型集群中变得尤为重要，这样做是为了容灾。机架感知可以人为干预去做。下面详细介绍放置策略：

HDFS的读流程的对于客户端来说是透明的。使用者往往只需要一个命令就能读取文件，但是其背后的交互是复杂的。
这里写图片描述

写流程也是对客户端来说是透明的。流程有一个特点就是流水线式操作。
这里写图片描述

在Client自己的jvm中向自己的分布式文件系统create方法（带上要写的文件的路劲），去RPC连接NN，这个时候NN会审核连接（包括权限、是否存在）
如果OK，可以批准写入，则NN创建一个新的文件，不关联任何数据块和节点机器，同时返回FSDataoutputStream对象
Client调用FSDataoutputStream的write去写入数据。
依次写入块，第一个块在写时，先写入第一个副本要写入的机器，然后该机器把块副本发给第二要副本要写的机器，然后是第三个机器，写完毕，然后返回第二个机器ACK，然后返回第一个节点ACK。然后返回FSDataoutputStream说明该数据块写完毕。
所有的块写完，close关闭数据流。
当关闭后，再调用FileSystem.compelete（），告诉NN节点写入成功。