二、HDFS文件系统

HDFS文件系统的组成

  • NameNode 负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。
  • DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个datanode上存储多个副本。
  • Secondary NameNode 用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

HDFS写数据流程

image

  • 1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。
  • 2)namenode返回是否可以上传。
  • 3)客户端请求第一个 block上传到哪几个datanode服务器上。
  • 4)namenode返回3个datanode节点,分别为dn1、dn2、dn3。
  • 5)客户端请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成
  • 6)dn1、dn2、dn3逐级应答客户端
  • 7)客户端开始往dn1上传第一个block(先从磁盘读取数据放到一个本地内存缓存),以packet为单位,dn1收到一个packet就会传给dn2,dn2传给dn3;dn1每传一个packet会放入一个应答队列等待应答
  • 8)当一个block传输完成之后,客户端再次请求namenode上传第二个block的服务器。(重复执行3-7步)

HDFS读数据流程

image

  • 1)客户端向namenode请求下载文件,namenode通过查询元数据,找到文件块所在的datanode地址。
  • 2)挑选一台datanode(就近原则,然后随机)服务器,请求读取数据。
  • 3)datanode开始传输数据给客户端(从磁盘里面读取数据放入流,以packet为单位来做校验)。
  • 4)客户端以packet为单位接收,先在本地缓存,然后合并写入目标文件。

机架感知

  • 第一个副本在client所处的节点上。如果客户端在集群外,随机选一个。
  • 第二个副本和第一个副本位于相同机架,随机节点。
  • 第三个副本位于不同机架,随机节点。

HDFS Shell命令

#列出HDFS下的文件
$ hadoop fs -ls /

#递归列出HDFS下的文件
$ hadoop fs -ls -R /user

#上传文件夹到HDFS
$ hadoop fs -put wordcount/ /user/hadoop/test
$ hadoop fs -put ./wordcount/ /user/hadoop/test

#上传多个文件到HDFS
$ hadoop fs -put LICENSE.txt NOTICE.txt README.txt /wordcount/in
$ hadoop fs -put wc.input tt.input /user/hadoop/test

#将HDFS的文件下载到本地
$ hadoop fs -get /wordcount/test1.txt .
$ hadoop fs -get /wordcount/test2.txt

#删除HDFS下的文件夹
$ hadoop fs -rm -r /wordcount
$ hadoop fs -rm -R /user/hadoop/test/wcinput

#查看HDFS下某个文件的内容
$ hadoop fs -cat /wordcount/test1.txt

#在HDFS下递归创建文件夹
$ hadoop fs -mkdir -p /a/b/c
$ hadoop fs -mkdir -p /user/hadoop/test

#查看HDFS基本统计信息
$ hdfs dfsadmin -report

常用命令参数介绍

-moveFromLocal            
功能:从本地剪切粘贴到hdfs
示例:hadoop  fs  -moveFromLocal  /home/hadoop/a.txt  /aaa/bbb/cc/dd

-moveToLocal              
功能:从hdfs剪切粘贴到本地
示例:hadoop  fs  -moveToLocal   /aaa/bbb/cc/dd  /home/hadoop/a.txt 

-appendToFile  
功能:追加一个文件到已经存在的文件末尾
示例:hadoop  fs  -appendToFile  ./hello.txt  hdfs://hadoop-server01:9000/hello.txt
可以简写为:Hadoop  fs  -appendToFile  ./hello.txt  /hello.txt

-tail                 
功能:显示一个文件的末尾
示例:hadoop  fs  -tail  /weblog/access_log.1

-text                  
功能:以字符形式打印一个文件的内容(类似-cat)
示例:hadoop  fs  -text  /weblog/access_log.1

-chgrp 
-chmod
-chown
功能:linux文件系统中的用法一样,对文件所属权限
示例:
hadoop  fs  -chmod  666  /hello.txt
hadoop  fs  -chown  someuser:somegrp   /hello.txt

-copyFromLocal    
功能:从本地文件系统中拷贝文件到hdfs路径去
示例:hadoop  fs  -copyFromLocal  ./jdk.tar.gz  /aaa/

-copyToLocal      
功能:从hdfs拷贝到本地
示例:hadoop fs -copyToLocal /aaa/jdk.tar.gz

-cp              
功能:从hdfs的一个路径拷贝hdfs的另一个路径
示例: hadoop  fs  -cp  /aaa/jdk.tar.gz  /bbb/jdk.tar.gz.2

-mv                     
功能:在hdfs目录中移动文件
示例: hadoop  fs  -mv  /aaa/jdk.tar.gz  /

-get              
功能:等同于copyToLocal,就是从hdfs下载文件到本地
示例:hadoop fs -get  /aaa/jdk.tar.gz

-getmerge             
功能:合并下载多个文件
示例:比如hdfs的目录 /aaa/下有多个文件:log.1, log.2,log.3,...
hadoop fs -getmerge /aaa/log.* ./log.sum

-put                
功能:等同于copyFromLocal
示例:hadoop  fs  -put  /aaa/jdk.tar.gz  /bbb/jdk.tar.gz.2

-df               
功能:统计文件系统的可用空间信息
示例:hadoop  fs  -df  -h  /

-du 
功能:统计文件夹的大小信息
示例:hadoop  fs  -du  -s  -h /aaa/*
$ hadoop fs -du -s -h hdfs://cmaster0:9000/*

-count         
功能:统计一个指定目录下的文件节点数量
示例:hadoop fs -count /aaa/

-setrep                
功能:设置hdfs中文件的副本数量
示例:hadoop fs -setrep 3 /aaa/jdk.tar.gz
<这里设置的副本数只是记录在namenode的元数据中,是否真的会有这么多副本,还得看datanode的数量>

猜你喜欢

转载自blog.csdn.net/zq9017197/article/details/85269600