2.这个是pyhdfs的库

1

2

3

4

5

6

7

 
        import  
        pyhdfs 
       
 
        fs = pyhdfs.connect( 
        "192.168.1.1" 
        ,  
        9000 
        ) 
       
 
        pyhdfs. 
        get 
        (fs,  
        "/rui/111" 
        ,  
        "/var/111" 
        ) 
       
 
        f = pyhdfs.open(fs,  
        "/test/xxx" 
        ,  
        "w" 
        ) 
       
 
        pyhdfs.write(fs, f,  
        "fuck\0gfw\n" 
        ) 
       
 
        pyhdfs.close(fs, f) 
       
 
        pyhdfs.disconnect(fs) 
       

pyhdfs的安装过程很吐血

 
          svn checkout http: 
          //libpyhdfs.googlecode.com/svn/trunk/ libpyhdfs 
         
          cd libpyhdfs 
         
          cp /usr/lib/hadoop- 
          0.20 
          /hadoop-core- 
          0.20 
          . 
          2 
          -cdh3u0.jar lib/hadoop- 
          0.20 
          . 
          1 
          -core.jar 
         
          cp /usr/lib/hadoop- 
          0.20 
          /lib/commons-logging- 
          1.0 
          . 
          4 
          .jar lib/ 
         
          cp /usr/lib/libhdfs.so. 
          0  
          lib/ 
         
          ln –s lib/libhdfs.so. 
          0  
          lib/libhdfs.so 
         
          python setup.py install --prefix= 
          "/usr/local"

还有就是把 selinux也给关了不然会出现莫名的问题

如果出现

/usr/lib/jvm/java-6-sun/include/jni.h:27:20: error: jni_md.h: No such file or directory

搜下find / -name jni.h

然后修改#include "jni_md.h" 为 #include "linux/jni_md.h"

这个是用pydoop的库

 
          import  
          pydoop.hdfs  
          as  
          hdfs 
         
          with  
          hdfs.open( 
          '/user/myuser/filename' 
          )  
          as  
          f: 
         
          for  
          line  
          in  
          f: 
         
          print(line)

pyhdfs是对libhdfs的python封装库. 它提供了一些常用方法来处理HDFS上的文件和目录, 比如读写文件, 枚举目录文件, 显示HDFS可用空间, 显示文件的复制块数等。

libhdfs 是HDFS的底层C函数库, 由hadoop官方提供, pyhdfs使用swig技术, 对libhdfs提供的绝大多数函数进行了封装, 目的是提供更简单的调用方式.

 
          如何连接hadoop集群？ 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          fs.disconnect() 
         
          如何获取当前工作目录? 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          print fs.getWorkingDirectory() 
         
          fs.disconnect() 
         
          如何更改当前工作目录？ 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          print fs.setWorkingDirectory( 
          "/user/ns-lsp/logs" 
          ) 
         
          fs.disconnect() 
         
          如果目录不存在setWorkingDirectory()返回- 
          1 
          ,如果执行成功，返回 
          0 
         
          如果目录不存在setWorkingDirectory()返回- 
          1 
          ,如果执行成功，返回 
          0 
         
          如何判断某个文件/目录是否存在？ 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          print fs.pathExists( 
          "/user/ns-lsp/logs" 
          ) 
         
          fs.disconnect() 
         
          文件/目录存在，返回 
          0 
          ，如果不存在，返回- 
          1 
         
          如何创建一个目录? 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          print fs.createDirectory( 
          "/user/ns-lsp/logs/cjj" 
          ) 
         
          fs.disconnect() 
         
          如果目录已经存在，则返回- 
          1 
          ，如果目录创建成功，返回 
          0 
         
          如何获得当前默认块大小？ 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          print fs.getDefaultBlockSize() 
         
          fs.disconnect() 
         
          如何获得当期目录下的文件/目录？ 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          print fs.listDirectory( 
          "/user/ns-lsp/logs" 
          ) 
         
          fs.disconnect() 
         
          如何移动一个文件/目录? 
         
          同一HDFS内移动文件： 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          print fs.move( 
          "/user/ns-lsp/logs/cjj" 
          , 
          "/user/ns-lsp/logs/cjj_new" 
          ) 
         
          fs.disconnect() 
         
          不同HDFS之间移动文件： 
         
          target_fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          print fs.move( 
          "/user/ns-lsp/logs/cjj" 
          , 
          "/user/ns-lsp/logs/cjj_new" 
          ,target_fs) 
         
          fs.disconnect() 
         
          如何删除一个文件/目录? 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          print fs. 
          delete 
          ( 
          "/user/ns-lsp/logs/cjj_new" 
          ) 
         
          fs.disconnect() 
         
          如何重命名一个文件/目录? 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          print fs.rename( 
          "/user/ns-lsp/logs/cjj" 
          , 
          "/user/ns-lsp/logs/cjj1" 
          ) 
         
          fs.disconnect() 
         
          如何修改一个文件/目录的权限? 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          print fs.chmod( 
          "/user/ns-lsp/logs/cjj" 
          , 
          7 
          ) 
         
          fs.disconnect() 
         
          如何文件块所在的服务器名? 
         
          有时我们需要查找某些文件块所在的服务器名是什么，可以如下使用: 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          print fs.getHosts( 
          "/user/ns-lsp/logs/cjj/a" 
          , 
          0 
          , 
          1 
          ) 
         
          fs.disconnect() 
         
          返回包含服务器名的列表. 
         
          $ python gethosts.py 
         
          [ 
          'xxxx' 
          ] 
         
          如何获取一个文件/目录的信息? 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          pathinfo = fs.getPathInfo( 
          "/user/ns-lsp/logs/cjj" 
          ) 
         
          fs.disconnect() 
         
          getPathInfo()返回一个hdfsFileInfo类。 
         
          如何指定文件的备份数? 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          print fs.setReplication( 
          "/user/ns-lsp/logs/cjj/a" 
          , 
          3 
          ) 
         
          fs.disconnect() 
         
          如何打开一个文件，并读取数据? 
         
          要操作文件，需要创建一个HadoopFile对象，并利用read()方法读取数据. 
         
          fs = hadoop.HadoopDFS( 
          "username" 
          , 
          "password" 
          , 
          "ugi" 
          , 
          64310 
          ) 
         
          fh = hadoop.HadoopFile(fs, 
          '/user/ns-lsp/logs/cjj/a' 
          ) 
         
          print fh.read() 
         
          fh.close() 
         
          fs.disconnect()

使用python来访问Hadoop HDFS存储实现文件的操作

1.安装pyhdfs

2.这个是pyhdfs的库

猜你喜欢