HDFS文件上传流程

首先用户即客户端想要上传文件，就先要给namenode发个请求，告诉它说我要上传文件了（即写数据），然后namenode会返回一个响应，这个响应是namenode根据自身情况，比如会先查一下namenode里面还能存数据吗？能存多少？有几个datanode能存？（心跳信息）然后返回一个可以存储的节点列表，意思是这些里面能存，但不是能存的datanode全部返回，它会根据上传文件的大小来适当的返回，客户端收到这个列表后，就向根据返回的列表里面的datanode中写数据，文件会分为多个块（block），写的过程是以流的方式写入的，一个块存入一个DataNode，存完后DataNode就会备份，我们默认的备份数是3，存完后，会告诉namenode说我存完了。这样就结束了hdfs文件上传的流程。

详细文字解释：

1. 客户端拿到一个文件，跟namenode说，我要上传这个文件，上传到哪个目录下。我们假设这个文件名为 cjk.avi，目录为 /hadoop/hdfs/

2. namenode拿到这个文件后，获取文件名，然后去元数据中查找/hadoop/hdfs/中是否已经存在相同文件名的文件，如果没有，那么告诉客户端说你可以上传这个文件

3. 客户端接到可以上传文件的命令后，会将文件进行切分（hadoop2.X是128M），切分成N（N>=1）块，如果切成n块，那么除去最后一个，其它块的大小都是一样的。

4. 客户端拿到第一个块block01后，跟namenode说，我要上传block01，然后namenode去自身的datanode信息池中查找应该上传到哪几个datanode（备份数）中，然后将查询到的datanode的信息告诉客户端

5. 客户端拿到datanode的信息后，开辟一个socket流将block01上传到namenode返回的datanode中最近的一个datanode节点，然后这个datanode节点会对block01进行水平备份，也就是将数据从datanode本地复制到其他指定的机器上。

6. datanode将数据水平备份完成之后，会通知客户端，说block01上传成功

7. 然后客户端会通知namenode说block01上传成功，此时namenode会将元数据（可以简单地理解为记录了block块存放到哪个datanode中）同步到内存中

8. 其他的block块循环上面的过程

9. 至此一个大文件就上传到hdfs中了

猜你喜欢