二、HDFS文件系统

HDFS文件系统的组成

NameNode 负责管理整个文件系统的元数据，以及每一个路径（文件）所对应的数据块信息。
DataNode 负责管理用户的文件数据块，每一个数据块都可以在多个datanode上存储多个副本。
Secondary NameNode 用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

HDFS写数据流程

1）客户端向namenode请求上传文件，namenode检查目标文件是否已存在，父目录是否存在。
2）namenode返回是否可以上传。
3）客户端请求第一个 block上传到哪几个datanode服务器上。
4）namenode返回3个datanode节点，分别为dn1、dn2、dn3。
5）客户端请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成
6）dn1、dn2、dn3逐级应答客户端
7）客户端开始往dn1上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，dn1收到一个packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答
8）当一个block传输完成之后，客户端再次请求namenode上传第二个block的服务器。（重复执行3-7步）

HDFS读数据流程

1）客户端向namenode请求下载文件，namenode通过查询元数据，找到文件块所在的datanode地址。
2）挑选一台datanode（就近原则，然后随机）服务器，请求读取数据。
3）datanode开始传输数据给客户端（从磁盘里面读取数据放入流，以packet为单位来做校验）。
4）客户端以packet为单位接收，先在本地缓存，然后合并写入目标文件。

机架感知

第一个副本在client所处的节点上。如果客户端在集群外，随机选一个。
第二个副本和第一个副本位于相同机架，随机节点。
第三个副本位于不同机架，随机节点。

HDFS Shell命令

#列出HDFS下的文件
$ hadoop fs -ls /

#递归列出HDFS下的文件
$ hadoop fs -ls -R /user

#上传文件夹到HDFS
$ hadoop fs -put wordcount/ /user/hadoop/test
$ hadoop fs -put ./wordcount/ /user/hadoop/test

#上传多个文件到HDFS
$ hadoop fs -put LICENSE.txt NOTICE.txt README.txt /wordcount/in
$ hadoop fs -put wc.input tt.input /user/hadoop/test

#将HDFS的文件下载到本地
$ hadoop fs -get /wordcount/test1.txt .
$ hadoop fs -get /wordcount/test2.txt

#删除HDFS下的文件夹
$ hadoop fs -rm -r /wordcount
$ hadoop fs -rm -R /user/hadoop/test/wcinput

#查看HDFS下某个文件的内容
$ hadoop fs -cat /wordcount/test1.txt

#在HDFS下递归创建文件夹
$ hadoop fs -mkdir -p /a/b/c
$ hadoop fs -mkdir -p /user/hadoop/test

#查看HDFS基本统计信息
$ hdfs dfsadmin -report

常用命令参数介绍

-moveFromLocal            
功能：从本地剪切粘贴到hdfs
示例：hadoop  fs  -moveFromLocal  /home/hadoop/a.txt  /aaa/bbb/cc/dd

-moveToLocal              
功能：从hdfs剪切粘贴到本地
示例：hadoop  fs  -moveToLocal   /aaa/bbb/cc/dd  /home/hadoop/a.txt 

-appendToFile  
功能：追加一个文件到已经存在的文件末尾
示例：hadoop  fs  -appendToFile  ./hello.txt  hdfs://hadoop-server01:9000/hello.txt
可以简写为：Hadoop  fs  -appendToFile  ./hello.txt  /hello.txt

-tail                 
功能：显示一个文件的末尾
示例：hadoop  fs  -tail  /weblog/access_log.1

-text                  
功能：以字符形式打印一个文件的内容（类似-cat）
示例：hadoop  fs  -text  /weblog/access_log.1

-chgrp 
-chmod
-chown
功能：linux文件系统中的用法一样，对文件所属权限
示例：
hadoop  fs  -chmod  666  /hello.txt
hadoop  fs  -chown  someuser:somegrp   /hello.txt

-copyFromLocal    
功能：从本地文件系统中拷贝文件到hdfs路径去
示例：hadoop  fs  -copyFromLocal  ./jdk.tar.gz  /aaa/

-copyToLocal      
功能：从hdfs拷贝到本地
示例：hadoop fs -copyToLocal /aaa/jdk.tar.gz

-cp              
功能：从hdfs的一个路径拷贝hdfs的另一个路径
示例： hadoop  fs  -cp  /aaa/jdk.tar.gz  /bbb/jdk.tar.gz.2

-mv                     
功能：在hdfs目录中移动文件
示例： hadoop  fs  -mv  /aaa/jdk.tar.gz  /

-get              
功能：等同于copyToLocal，就是从hdfs下载文件到本地
示例：hadoop fs -get  /aaa/jdk.tar.gz

-getmerge             
功能：合并下载多个文件
示例：比如hdfs的目录 /aaa/下有多个文件:log.1, log.2,log.3,...
hadoop fs -getmerge /aaa/log.* ./log.sum

-put                
功能：等同于copyFromLocal
示例：hadoop  fs  -put  /aaa/jdk.tar.gz  /bbb/jdk.tar.gz.2

-df               
功能：统计文件系统的可用空间信息
示例：hadoop  fs  -df  -h  /

-du 
功能：统计文件夹的大小信息
示例：hadoop  fs  -du  -s  -h /aaa/*
$ hadoop fs -du -s -h hdfs://cmaster0:9000/*

-count         
功能：统计一个指定目录下的文件节点数量
示例：hadoop fs -count /aaa/

-setrep                
功能：设置hdfs中文件的副本数量
示例：hadoop fs -setrep 3 /aaa/jdk.tar.gz
<这里设置的副本数只是记录在namenode的元数据中，是否真的会有这么多副本，还得看datanode的数量>

HDFS文件系统的组成

HDFS写数据流程

HDFS读数据流程

机架感知

HDFS Shell命令

常用命令参数介绍

猜你喜欢