HDFS文件系统的组成
- NameNode 负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。
- DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个datanode上存储多个副本。
- Secondary NameNode 用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
HDFS写数据流程
- 1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。
- 2)namenode返回是否可以上传。
- 3)客户端请求第一个 block上传到哪几个datanode服务器上。
- 4)namenode返回3个datanode节点,分别为dn1、dn2、dn3。
- 5)客户端请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成
- 6)dn1、dn2、dn3逐级应答客户端
- 7)客户端开始往dn1上传第一个block(先从磁盘读取数据放到一个本地内存缓存),以packet为单位,dn1收到一个packet就会传给dn2,dn2传给dn3;dn1每传一个packet会放入一个应答队列等待应答
- 8)当一个block传输完成之后,客户端再次请求namenode上传第二个block的服务器。(重复执行3-7步)
HDFS读数据流程
- 1)客户端向namenode请求下载文件,namenode通过查询元数据,找到文件块所在的datanode地址。
- 2)挑选一台datanode(就近原则,然后随机)服务器,请求读取数据。
- 3)datanode开始传输数据给客户端(从磁盘里面读取数据放入流,以packet为单位来做校验)。
- 4)客户端以packet为单位接收,先在本地缓存,然后合并写入目标文件。
机架感知
- 第一个副本在client所处的节点上。如果客户端在集群外,随机选一个。
- 第二个副本和第一个副本位于相同机架,随机节点。
- 第三个副本位于不同机架,随机节点。
HDFS Shell命令
#列出HDFS下的文件
$ hadoop fs -ls /
#递归列出HDFS下的文件
$ hadoop fs -ls -R /user
#上传文件夹到HDFS
$ hadoop fs -put wordcount/ /user/hadoop/test
$ hadoop fs -put ./wordcount/ /user/hadoop/test
#上传多个文件到HDFS
$ hadoop fs -put LICENSE.txt NOTICE.txt README.txt /wordcount/in
$ hadoop fs -put wc.input tt.input /user/hadoop/test
#将HDFS的文件下载到本地
$ hadoop fs -get /wordcount/test1.txt .
$ hadoop fs -get /wordcount/test2.txt
#删除HDFS下的文件夹
$ hadoop fs -rm -r /wordcount
$ hadoop fs -rm -R /user/hadoop/test/wcinput
#查看HDFS下某个文件的内容
$ hadoop fs -cat /wordcount/test1.txt
#在HDFS下递归创建文件夹
$ hadoop fs -mkdir -p /a/b/c
$ hadoop fs -mkdir -p /user/hadoop/test
#查看HDFS基本统计信息
$ hdfs dfsadmin -report
常用命令参数介绍
-moveFromLocal
功能:从本地剪切粘贴到hdfs
示例:hadoop fs -moveFromLocal /home/hadoop/a.txt /aaa/bbb/cc/dd
-moveToLocal
功能:从hdfs剪切粘贴到本地
示例:hadoop fs -moveToLocal /aaa/bbb/cc/dd /home/hadoop/a.txt
-appendToFile
功能:追加一个文件到已经存在的文件末尾
示例:hadoop fs -appendToFile ./hello.txt hdfs://hadoop-server01:9000/hello.txt
可以简写为:Hadoop fs -appendToFile ./hello.txt /hello.txt
-tail
功能:显示一个文件的末尾
示例:hadoop fs -tail /weblog/access_log.1
-text
功能:以字符形式打印一个文件的内容(类似-cat)
示例:hadoop fs -text /weblog/access_log.1
-chgrp
-chmod
-chown
功能:linux文件系统中的用法一样,对文件所属权限
示例:
hadoop fs -chmod 666 /hello.txt
hadoop fs -chown someuser:somegrp /hello.txt
-copyFromLocal
功能:从本地文件系统中拷贝文件到hdfs路径去
示例:hadoop fs -copyFromLocal ./jdk.tar.gz /aaa/
-copyToLocal
功能:从hdfs拷贝到本地
示例:hadoop fs -copyToLocal /aaa/jdk.tar.gz
-cp
功能:从hdfs的一个路径拷贝hdfs的另一个路径
示例: hadoop fs -cp /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2
-mv
功能:在hdfs目录中移动文件
示例: hadoop fs -mv /aaa/jdk.tar.gz /
-get
功能:等同于copyToLocal,就是从hdfs下载文件到本地
示例:hadoop fs -get /aaa/jdk.tar.gz
-getmerge
功能:合并下载多个文件
示例:比如hdfs的目录 /aaa/下有多个文件:log.1, log.2,log.3,...
hadoop fs -getmerge /aaa/log.* ./log.sum
-put
功能:等同于copyFromLocal
示例:hadoop fs -put /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2
-df
功能:统计文件系统的可用空间信息
示例:hadoop fs -df -h /
-du
功能:统计文件夹的大小信息
示例:hadoop fs -du -s -h /aaa/*
$ hadoop fs -du -s -h hdfs://cmaster0:9000/*
-count
功能:统计一个指定目录下的文件节点数量
示例:hadoop fs -count /aaa/
-setrep
功能:设置hdfs中文件的副本数量
示例:hadoop fs -setrep 3 /aaa/jdk.tar.gz
<这里设置的副本数只是记录在namenode的元数据中,是否真的会有这么多副本,还得看datanode的数量>