hadoop上的两种运行mapreduce程序的方法

之前学习了一段时间的hadoop的相关知识 ,学习理论基础的时候要同时实际操作才能对它更熟练,废话不多说来说说在hadoop上运行一个最简单的words count的程序


首先我先贴上这个程序的源代码 供大家参考 代码分为三个部分写的Run、 map阶段、 reduce阶段


Map:


  
  
  1. package wordsCount;
  2. import java.io.IOException;
  3. import java.util.StringTokenizer;
  4. import org.apache.hadoop.io.IntWritable;
  5. import org.apache.hadoop.io.LongWritable;
  6. import org.apache.hadoop.io.Text;
  7. import org.apache.hadoop.mapreduce.Mapper;
  8. public class WordsMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
  9. @Override
  10. protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)
  11. throws IOException, InterruptedException {
  12. String line = value.toString();
  13. StringTokenizer st = new StringTokenizer(line);
  14. while(st.hasMoreTokens()){
  15. String word = st.nextToken();
  16. context.write( new Text(word), new IntWritable( 1));
  17. }
  18. }
  19. }




Reduce:


  
  
  1. package wordsCount;
  2. import java.io.IOException;
  3. import org.apache.hadoop.io.IntWritable;
  4. import org.apache.hadoop.io.Text;
  5. import org.apache.hadoop.mapreduce.Reducer;
  6. public class WordsReduce extends Reducer<Text, IntWritable, Text, IntWritable>{
  7. @Override
  8. protected void reduce(Text key, Iterable<IntWritable> iterator,
  9. Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
  10. // TODO 自动生成的方法存根
  11. int sum = 0;
  12. for(IntWritable i:iterator){
  13. sum = sum + i.get();
  14. }
  15. context.write(key, new IntWritable(sum));
  16. }
  17. }



Run:


  
  
  1. package wordsCount;
  2. import org.apache.hadoop.conf.Configuration;
  3. import org.apache.hadoop.fs.Path;
  4. import org.apache.hadoop.io.IntWritable;
  5. import org.apache.hadoop.io.Text;
  6. import org.apache.hadoop.mapreduce.Job;
  7. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
  8. import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
  9. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
  10. import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
  11. public class Run {
  12. public static void main(String[] args) throws Exception{
  13. // TODO 自动生成的方法存根
  14. Configuration configuration = new Configuration();
  15. Job job = new Job(configuration);
  16. job.setJarByClass(Run.class);
  17. job.setJobName( "words count!");
  18. job.setOutputKeyClass(Text.class);
  19. job.setOutputValueClass(IntWritable.class);
  20. job.setInputFormatClass(TextInputFormat.class);
  21. job.setOutputFormatClass(TextOutputFormat.class);
  22. job.setMapperClass(WordsMapper.class);
  23. job.setReducerClass(WordsReduce.class);
  24. FileInputFormat.addInputPath(job, new Path( "hdfs://192.168.1.111:9000/user/input/wc/"));
  25. FileOutputFormat.setOutputPath(job, new Path( "hdfs://192.168.1.111:9000/user/result/"));
  26. job.waitForCompletion( true);
  27. }
  28. }

Run里面的输入和输出路径根据自己的来修改

这个程序就不用去讲解了吧 到处都能找到


首先在hadoop上运行这个程序用两个方法


方法一:将自己的编译软件与hadoop相连(我用的是MyEclipse去链接hadoop),直接运行程序。MyEclipse连接hadoop的教程待会我会在文章结尾处给出一个链接供大家参考。




看到下面的信息就表示你成功了 然后你在再到你的输出文件夹里面就能查看运行的结果了


第二个文件里面的内容就是输出结果





第二种方法:将mapreduce程序打包成jar文件

这里简单的说一下打包的方法



然后下一步,完成就可以了


将打包好的jar文件传到你的装hadoop的机器上(我的hadoop集群是装在linux虚拟机中的)用SSH把jar传过去之后:


在你安装hadoop的目录下的bin目录下有一个hadoop的可执行文件,然后执行下面的操作就可以了:


来解释下我的shell语句


/home/xiaohuihui/wordscount.jar:打包之后的jar文件的所在位置(传到虚拟机中位置)

wordsCount/Run:这个位你的jar包中的主函数(这里的主函数就是Run.class)的名字 可以打开你的jar文件查看便知道


还可以在这个语句之后加上你的输入和输出的文件路径,但是这个我已经在我的程序中设置了

如果你运行上面的shell语句之后看到下面的输出,那恭喜你,成功了!!



查看结果你可通过在你的Eclipse连接好hadoop查看,还可以通过在hdfs文件系统的网页去查看(localhost:50070)。


还有一个很重要的一步就是,运行之前保证你的hadoop已经启动了,可以通过jps来查看你的进程中是否已经启动hadoop集群



Eclipse连接hadoop:http://blog.csdn.net/xjavasunjava/article/details/12320045


发布了31 篇原创文章 · 获赞 0 · 访问量 855

猜你喜欢

转载自blog.csdn.net/weixin_45678149/article/details/104978864
今日推荐