HDFS 的运行机制

hdfs haddop distributed system 由 name node, secondary name node,
data node, client 组成。

真正存放数据的就是 data node, 而 name node 则是主要进行进行 data node
管理的。

一个 name node 需要管理多个 data node,可以将每个 data node 看作一个存
放数据的服务器。

出于可用性方面考虑,避免 name node 出现问题后,所有信息丢失,需要一个
对 name node 的备份,在主 name node 出问题后顶上。

上面讲到 name node 只是用来管理 data node 的,它并不存放真正的文件数
据,而是由 data node 来存放文件数据。但是 data node 也可能是会在运行时
挂掉的,因此需要对同一个文件数据进行多次备份,并且是在多个 data node
备份。

name node 虽然不会存储真实数据,但是它需要存放文件的元信息,包括文件大
小,文件到文件块的映射,文件备份信息的映射等。这些信息都存放在 name
node 中,在实际操作文件,进行删除,移动,复制等,都需要这些元信息来记
录信息。

name node 管理 data node,它就需要定期监控 data node 的状态变化,data
node 需要发送心跳信息给 name node。而且 name node 需要知道知道 data
node 的存储空间等,以便在 copy 文件时决定是否需要将文件复制到该 data
node 上。

Name Node 上有两个重要的文件
1. FsImage 存放文件系统的命名空间,个人理解时文件系统的目录结构
2. Edit Log 存放任何对文件系统的元数据产生修改的日志

猜你喜欢

转载自www.cnblogs.com/reycg-blog/p/9023371.html