HDFS 客户端操作

1.HDFS客户端环境准备

（1）根据自己的电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径（例如我的MAC：/Users/luomingkui/hadoop/hadoop-2.7.2）。

（2）配置MAC环境变量

（3）创建一个Maven工程HdfsClientDemo

（4）导入相应的依赖

<依赖性>

<的groupId>的junit </的groupId>

<artifactId的>的junit </ artifactId的>

<版本> RELEASE </版本>

</依赖性>

<依赖性>

<的groupId> org.apache.logging.log4j </的groupId>

<artifactId的> log4j的核</ artifactId的>

<版本> 2.8.2 </版本>

</依赖性>

<依赖性>

<的groupId> org.apache.hadoop </的groupId>

<artifactId的> Hadoop的共同</ artifactId的>

<版本> 2.7.2 </版本>

</依赖性>

<依赖性>

<的groupId> org.apache.hadoop </的groupId>

<artifactId的> Hadoop的客户端</ artifactId的>

<版本> 2.7.2 </版本>

</依赖性>

<依赖性>

<的groupId> org.apache.hadoop </的groupId>

<artifactId的> Hadoop的HDFS </ artifactId的>

<版本> 2.7.2 </版本>

</依赖性>

</依赖>

（5）创建包名：com.luomk.hdfs

（6）创建HdfsClient类

 
   公共类HdfsClient { 
  
       @测试 
  
       public void testMkdirs（）throws IOException，InterruptedException，URISyntaxException { 
  
           // 1获取文件系统 
  
           配置配置=新配置（）; 
  
           //配置在集群上运行 
  
           // configuration.set（“fs.defaultFS”，“ hdfs：// hadoop103：9000”）; 
  
           // FileSystem fs = FileSystem.get（configuration）; 
  
           FileSystem fs = FileSystem。get（new URI（“ hdfs：// hadoop103：9000 ”），configuration，“luomk”）; 
  
           // 2创建目录 
  
           fs.mkdirs（新路径（“/ 0115 / daxian / luomk”））; 
  
           // 3关闭资源 
  
           fs.close（）; 
  
       } 
  
   }

（7）执行程序

运行时需要配置用户名称

客户端去操作HDFS时，是有一个用户身份的默认情况下，HDFS客户端API会从JVM中获取一个参数来作为自己的用户身份：-DHADOOP_USER_NAME = luomk，luomk为用户名称。

（8）注意：如果eclipse打印不出日志，在控制台上只显示

1.log4j：WARN记录器（org.apache.hadoop.util.Shell）找不到appender。

2.log4j：WARN请正确初始化log4j系统。

3.log4j：WARN请参阅http://logging.apache.org/log4j/1.2/faq.html#noconfig了解更多信息。

需要在项目的的src / main /资源目录下，新建一个文件，命名为“log4j.properties”，在文件中填入

log4j.rootLogger =信息，标准输出

log4j.appender.stdout = org.apache.log4j.ConsoleAppender

log4j.appender.stdout.layout = org.apache.log4j.PatternLayout

log4j.appender.stdout.layout.ConversionPattern =％d％p [％c] - ％m％n

log4j.appender.logfile = org.apache.log4j.FileAppender

log4j.appender.logfile.File =目标/ spring.log

log4j.appender.logfile.layout = org.apache.log4j.PatternLayout

log4j.appender.logfile.layout.ConversionPattern =％d％p [％c] - ％m％n

2.HDFS的API操作

（1）HDFS文件上传（测试参数优先级）

（1）编写源代码

@测试

公共无效testPut（）抛出异常{

//获取配置文件

配置配置=新配置（）;

configuration.set（“dfs.replication”，“2”）;

//获取文件系统

FileSystem fs = FileSystem。get（new URI（“ hdfs：// hadoop103：9000 ”），configuration，“luomk”）;

//上传文件

fs.copyFromLocalFile（new Path（“/ Users / luomingkui / Downloads / wc.input”），new Path（“/ luomk / wc.input”））;

系统。out .println（“Over！”）;

//关闭资源

fs.close（）;

}

（2）将hdfs-site.xml拷贝到项目的根目录下

<？xml version =“1.0”encoding =“UTF-8”？>

<？xml-stylesheet type =“text / xsl”href =“configuration.xsl”？>

<结构>

<属性>

<名称> dfs.replication </名称>

<值> 1 </值>

</属性>

</配置>

（3）参数优先级

参数优先级排序：（1）客户端代码中设置的值>（2）classpath下的用户自定义配置文件>（3）然后是服务器的默认配置

（2）HDFS文件下载

@测试

public void testCopyToLocalFile（）throws IOException，InterruptedException，URISyntaxException {

// 1获取文件系统

配置配置=新配置（）;

FileSystem fs = FileSystem.get（新的URI（“ hdfs：// hadoop103：9000 ”），配置，“luomk”）;

// 2执行下载操作

// boolean delSrc指是否将原文件删除

// Path src指要下载的文件路径

//路径dst指将文件下载到的路径

//布尔useRawLocalFileSystem是否开启文件校验

fs.copyToLocalFile（false，new Path（“/ luomk / wc.input”），new Path（“/ Users / luomingkui / Downloads /”））;

// 3关闭资源

fs.close（）;

}

（3）HDFS文件夹删除

 
   @测试 
  
   public void testDelete（）throws IOException，InterruptedException，URISyntaxException { 
  
       // 1获取文件系统 
  
       配置配置=新配置（）; 
  
       FileSystem fs = FileSystem.get（新的URI（“ hdfs：// hadoop103：9000 ”），配置，“luomk”）; 
  
       // 2执行删除 
  
       fs.delete（new Path（“/ over”），true）; 
  
       // 3关闭资源 
  
       fs.close（）; 
  
   }

（4）HDFS文件名更改

 
   @测试 
  
   公共无效testRename（）抛出IOException，InterruptedException，URISyntaxException { 
  
       // 1获取文件系统 
  
       配置配置=新配置（）; 
  
       FileSystem fs = FileSystem.get（新的URI（“ hdfs：// hadoop103：9000 ”），配置，“luomk”）; 
  
       // 2修改文件名称 
  
       fs.rename（new Path（“/ luomk / wc.input”），new Path（“/ luomk / wc1.input”））; 
  
       // 3关闭资源 
  
       fs.close（）; 
  
   }

（5）HDFS文件详情查看

查看文件名称，权限，长度，块信息

@测试

public void testListFiles（）throws IOException，InterruptedException，URISyntaxException {

// 1获取文件系统

配置配置=新配置（）;

FileSystem fs = FileSystem.get（新的URI（“ hdfs：// hadoop103：9000 ”），配置，“luomk”）;

// 2获取文件详情

RemoteIterator <LocatedFileStatus> listFiles = fs.listFiles（new Path（“/”），true）;

而（listFiles.hasNext（））{

LocatedFileStatus status = listFiles.next（）;

//输出详情

//文件名称

的System.out.println（status.getPath（）的getName（））;

//长度

的System.out.println（status.getLen（））;

//权限

的System.out.println（status.getPermission（））;

// z组

的System.out.println（status.getGroup（））;

//获取存储的块信息

BlockLocation [] blockLocations = status.getBlockLocations（）;

for（BlockLocation blockLocation：blockLocations）{

//获取块存储的主机节点

String [] hosts = blockLocation.getHosts（）;

for（String host：hosts）{

的System.out.println（主机）;

}

的System.out.println（ “----------------分割线-----------”）;

}

（6）HDFS文件和文件夹判断

@测试

public void testListStatus（）throws IOException，InterruptedException，URISyntaxException {

// 1获取文件配置信息

配置配置=新配置（）;

FileSystem fs = FileSystem.get（新的URI（“ hdfs：// hadoop103：9000 ”），配置，“luomk”）;

// 2判断是文件还是文件夹

FileStatus [] listStatus = fs.listStatus（new Path（“/”））;

for（FileStatus fileStatus：listStatus）{

//如果是文件

if（fileStatus.isFile（））{

的System.out.println（ “F：” + fileStatus.getPath（）的getName（））;

} else {

的System.out.println（ “d：” + fileStatus.getPath（）的getName（））;

}

// 3关闭资源

fs.close（）;

}

3. HDFS的I / O流操作

（1）HDFS文件上传

公共静态无效put（）抛出异常{

// 1。获取配置信息

配置配置=新配置（）;

// 2。获取文件系统

FileSystem fs = FileSystem。get（new URI（“ hdfs：// hadoop103：9000 ”），configuration，“luomk”）;

// 3。创建输入流

FileInputStream fis = new FileInputStream（“/ Users / luomingkui / Downloads / wc.input”）;

// 4。创建输出流

FSDataOutputStream fos = fs.create（new Path（“/ luomk / wc.input”））;

// 5。流的对接

IOUtils。copyBytes（fis，fos，configuration）;

// 6。关闭资源

IOUtils。closeStream（fis）;

IOUtils。closeStream（fos）;

}

（2）HDFS文件下载

 
   public static void get（）throws URISyntaxException，IOException，InterruptedException { 
  
       // 1。获取配置信息 
  
       配置配置=新配置（）; 
  
       // 2。获取文件系统 
  
       FileSystem fs = FileSystem。get（new URI（“ hdfs：// hadoop103：9000 ”），configuration，“luomk”）; 
  
       // 3。获取输入流 
  
       FSDataInputStream fis = fs.open（new Path（“/ luomk / wc1.input”））; 
  
       // 4。获取输出流 
  
       FileOutputStream fos = new FileOutputStream（“/ Users / luomingkui / Downloads / wc1.input”）; 
  
       // 5。流的对接 
  
       IOUtils。copyBytes（fis，fos，configuration）; 
  
       // 6。关闭资源 
  
       IOUtils。closeStream（fis）; 
  
       IOUtils。closeStream（fos）; 
  
   }

（3）定位文件读取

（1）下载第一块

@测试

public void readFileSeek1（）throws IOException，InterruptedException，URISyntaxException {

// 1获取文件系统

配置配置=新配置（）;

FileSystem fs = FileSystem.get（新的URI（“ hdfs：// hadoop103：9000 ”），配置，“luomk”）;

// 2获取输入流

FSDataInputStream fis = fs.open（new Path（“/ hadoop-2.7.2.tar.gz”））;

// 3创建输出流程

FileOutputStream fos = new FileOutputStream（new File（“/ Users / luomingkui / Downloads / hadoop-2.7.2.tar.gz.part1”））;

// 4流的拷贝

byte [] buf = new byte [1024];

for（int i = 0; i <1024 * 128; i ++）{

fis.read（BUF）;

fos.write（BUF）;

}

// 5关闭资源

IOUtils.closeStream（FIS）;

IOUtils.closeStream（FOS）;

}

（2）下载第二块

@测试

public void readFileSeek2（）throws IOException，InterruptedException，URISyntaxException {

// 1获取文件系统

配置配置=新配置（）;

FileSystem fs = FileSystem.get（新的URI（“ hdfs：// hadoop103：9000 ”），配置，“luomk”）;

// 2打开输入流

FSDataInputStream fis = fs.open（new Path（“/ hadoop-2.7.2.tar.gz”））;

// 3定位输入数据位置

fis.seek（1024 * 1024 * 128）;

// 4创建输出流程

FileOutputStream fos = new FileOutputStream（new File（“/ Users / luomingkui / Downloads / hadoop-2.7.2.tar.gz.part2”））;

// 5流的对拷

IOUtils.copyBytes（fis，fos，configuration）;

// 6关闭资源

IOUtils.closeStream（FIS）;

IOUtils.closeStream（FOS）;

}

（3）合并文件

在窗口命令窗口中执行

键入hadoop-2.7.2.tar.gz.part2 >> hadoop-2.7.2.tar.gz.part1

猜你喜欢