1. 用Python编写WordCount程序并提交任务
程序 | WordCount | |
输入 | 一个包含大量单词的文本文件 | |
输出 |
|
1、编写Map函数,Reduce函数
2、将其权限进行修改
3、在本机上运行测试代码
4、在HDFS上运行(
- 将之前爬取的文本文件上传到hdfs上
- 用Hadoop Streaming命令提交任务)
5、查看运行结果
扫描二维码关注公众号,回复:
436342 查看本文章
#! /usr/bin/python3 # Map函数 import sys for line in sys.stdin: line=line.strip() words=line.split() for word in words: print ('%s\t%s' % (word,1))
#! /usr/bin/python3 # Reduce函数 from operator import itemgetter import sys current_word=None current_count=0 word=None for line in sys.stdin: line=line.strip() word,count=line.split('\t',1) try: count=int(count) except ValueError: continue if current_word==word: current_count+=count else: if current_word: print ('%s\t%s' % (current_word,current_count)) current_count=count current_word=word if current_word==word: print ('%s\t%s' % (current_word,current_count))
修改*.py文件权限
sudo chmod 777 mapper.py sudo chmod 777 reducter.py
执行测试代码
echo "Hello World, Bye World" | ./mapper.py echo "Hello World, Bye World" | ./mapper.py | sort -k1,1 | ./reducter.py
查看结果