Python读写hadoop文件

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Beyond_F4/article/details/80838747

最近经常需要操作hadoop集群进行文件读、写、上传、下载等

这里总结一下使用方法:

首先需要借助三方库pyhdfs

创建一个hadoop连接对象

hdfs_client = pyhdfs.HdfsClient(hdfs_ip,hdfs_port,hdfs_user)

假设hadoop现有目录:/home/data/下有一个文件2018-06-28.out

那么我们如何查看该目录下的文件呢?

方法(类似于os)如下:

hdfs_client.listdir(‘/home/data’)

如果要将该文件拉到本地怎么办?

hdfs.client.copy_to_local('/home/data/2018-06-28.out','/local_path/2018-06-28.out')

如果要将本地的一个文件上传到hadoop怎么办?

hdfs.client.copy_from_local('/local_path/2018-06-28.out','/home/data/2018-06-28.out')

如果要读取hadoop上文件内容怎么办?

with hdfs.client.open(file)as f:
    data_list = f.readlines( )
for data in data_list:
    print(data.decode())
随着工作中需求的变化,博客会持续更新

猜你喜欢

转载自blog.csdn.net/Beyond_F4/article/details/80838747