我的第一个hadoop学习例子

      hadoop环境搭建好后,相信大家是很兴奋的,迫不及待的相做一个最简单的例子,看下效果,认识下hadoop真实面目,具体步骤如下

一、启动hadoop

          我们这里用的是spark集群环境里的hadoop环境,关于spark集群搭建请看  ubuntu环境 中 docker 安装spark集群  

        进入docker-compose的配制文件目录

       

         

        执行   

docker-compose up -d

     后台启动spark集群

    访问   http://ip:50070/  结果如下

    

 

 

      说明集群启动成功

    二、进入hadoop运行的容器中创建文件并运行

           1、查看运行的容器

             docker ps 

           

      2、进入master节点

           docker exec -it 8fe7a7847a05 /bin/bash

    

     3 、创建需要hadoop处理的文件

            进入local目录

           cd /usr/local

           创建test目录

           mkdir test

            进入test目录

            cd test

           创建test.txt文件

           touch test.txt

          编辑test.txt文件

           vim test.txt文件

             加入内容是(大家可以自定义)

      

dfgdgh hello 11 df df df 22 22 df 22 df 33 22 df hello hello hello say say world df fs fs df fs world hello

      4、hdfs系统里创建input文件

           hadoop fs -mkdir /input

      5、传入测试文件:hadoop fs -put test.txt /input 

      6、查看刚刚传入的文件:hadoop fs -ls /input

                    

    7、运行wordcount示例

          hadoop jar /usr/local/hadoop-2.8.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.2.jar wordcount /input /output

      (具体命令格式为 hadoop jar /xx/xx/hadoop-mapreduce-examples-2.8.2.jar wordcount  /处理文件目录  /结果输出目录)

    部分截图

       

          

  

 

 

说明运行成功

三、查看运行结果

        1、查看目录:

          hadoop fs -ls   

        

       多了个output目录

  2、查看output目录

    hadoop fs -ls /output 

 

part-r-00000 是存储结果的文件,

 _SUCCESS 是Mapreduce 自带的,表示hadoop执行成功,一般是空的, 也可以配置不让它输出

3、查看执行结果

     hadoop fs -cat /output/part-r-00000

    

     4、访问http://IP:50070  HDFSwebUI的端口号也可以查看

     

    我的访问地址是   http://192.168.153.130:50070/

      

      

     进入input目录

 

     进入output目录

   

 

到此,hadoop的小例子已经完全成功,hadoop的面纱已经初步揭开了

  四、总结:

    1】、利用hadoop统计文件的主要流程分为

    hadoop的hdfs系统上创建用来存放分析文件的文件夹--->上传文件到hdfs---->运行统计命令--->查看统计结果

    2】、hadoop的操作主要命令 (更多命令请看  Hadoop常用命令总结

     

    1、  查看指定目录下内容

   hdfs dfs –ls [文件目录]

    hdfs dfs -ls -R   /                   //显式目录结构

    eg: hdfs dfs –ls /user/wangkai.pt

    2、打开某个已存在文件

    hdfs dfs –cat [file_path]

   eg:hdfs dfs -cat /user/wangkai.pt/data.txt

  3、将本地文件存储至hadoop

     hdfs dfs –put [本地地址] [hadoop目录]

     hdfs dfs –put /home/t/file.txt  /user/t  

  4、将本地文件夹存储至hadoop

    hdfs dfs –put [本地目录] [hadoop目录]
    hdfs dfs –put /home/t/dir_name /user/t

   (dir_name是文件夹名)

  5、将hadoop上某个文件down至本地已有目录下

     hadoop dfs -get [文件目录] [本地目录]

     hadoop dfs –get /user/t/ok.txt /home/t

  6、删除hadoop上指定文件

     hdfs  dfs –rm [文件地址]

     hdfs dfs –rm /user/t/ok.txt

  7、删除hadoop上指定文件夹(包含子目录等)

     hdfs dfs –rm [目录地址]

     hdfs dfs –rmr /user/t

  8、在hadoop指定目录内创建新目录

      hdfs dfs –mkdir /user/t

      hdfs  dfs -mkdir - p /user/centos/hadoop

  9、在hadoop指定目录下新建一个空文件

    使用touchz命令:

    hdfs dfs  -touchz  /user/new.txt

  10、将hadoop上某个文件重命名

   使用mv命令:

   hdfs dfs –mv  /user/test.txt  /user/ok.txt   (将test.txt重命名为ok.txt)

  11、将hadoop指定目录下所有内容保存为一个文件,同时down至本地

   hdfs dfs –getmerge /user /home/t

  12、将正在运行的hadoop作业kill掉

   hadoop job –kill  [job-id]

 

Guess you like

Origin blog.csdn.net/yb546822612/article/details/105359612