hadoop是建立在MapReduce机制之上,其中wordcount是hadoop最典型的一个实例,然而众所周知,hadoop的源码是java,并且大多数的hadoop代码都是基于java搭建起来,那如何利用python实现wordcount,这将是本篇博客主要想完成的功能,并将写好的程序放入hadoop集群上跑
新建mapper.py
#-*- encoding=UTF-8 -*-
import sys
import re
##标准输入
for line in sys.stdin:
line = line.strip()
words = re.split(',',line)
for word in words:
print("{0}\t{1}".format(word,1))
这里主要利用sys.stdin进行输入,sys.stdout进行输出,其中print为map到reduce这一段充当了标准输出这一角色
输入文件 input.txt
hello,liming
hi,zhangsan
haha,hehe,liming
wangmazi,map
hadoop,hdfs,hbase
map,reduce,reduce
map测试
输入以下指令对mapper的程序进行测试
cat input.txt | python mapper.py
输出结果如下
hello 1
liming 1
hi 1
zhangsan 1
haha 1
hehe 1
liming 1
wangmazi 1
map 1
hadoop 1
hdfs 1
hbase 1
map 1
reduce 1
reduce 1
通过上述结果,发现map将单词进行了分割,每个单词都对应着自己的一个出现次数,接下来,基于hadoop的机制会将这些单词进行排序,然后再传给reduce进行处理
编写reducer.py
# -*- encoding=UTF-8 -*-
import sys
cur_word = None
cur_count = 0
word = None
for line in sys.stdin:
word,count = line.split('\t',1)
count = int(count)
if cur_word == word:
cur_count += count
else:
if cur_word:
print("{0}\t{1}".format(cur_word,cur_count))
cur_word = word
cur_count = count
# 最后一组的输出
if word:
print("{0}\t{1}".format(cur_word, cur_count))
reducer.py的编写主要基于map排序过后进行,这是由于到将map的数据结果放到hdfs中时,会进行排序
测试reducer.py
输入以下命令进行测试
cat input.txt | python mapper.py | sort | python reducer.py
测试结果如下
hadoop 1
haha 1
hbase 1
hdfs 1
hehe 1
hello 1
hi 1
liming 2
map 2
reduce 2
wangmazi 1
zhangsan 1
至此,wordcount的map和reduce程序完全写完,下面将把程序上传至hadoop集群上跑
将input.txt上传
hadoop fs -put input.txt *** (hdfs目录下)
shell脚本
一般来说,都是通过指令的方式进行,但是指令会过长,因此写一个简单的shell脚本便可完成
#!/bin/bash
hadoop fs -rm -r -f ***/wordcount
hadoop jar ***/hadoop-mapreduce/hadoop-streaming.jar \
-libjars *** \
-jobconf mapreduce.reduce.shuffle.memory.limit.percent=0.1 \
-jobconf mapreduce.reduce.shuffle.input.buffer.percent=0.1 \
-jobconf mapred.map.capacity=100 \
-jobconf mapreduce.reduce.memory.mb=8182 \
-jobconf mapreduce.reduce.java.opts=-Xms1600m \
-jobconf mapred.map.capacity=100 \
-jobconf mapred.reduce.capacity=100 \
-jobconf mapred.reduce.tasks=600 \
-jobconf mapreduce.job.queuename=root.default \
-jobconf mapreduce.map.cpu.vcores=2 \
-jobconf mapreduce.reduce.cpu.vcores=4 \
-jobconf mapred.job.name=zds_sub_model_score \
-file mapper.py \
-file reducer.py \
-mapper "python mapper.py" \
-reducer "python reducer.py" \
-input ***/input.txt \
-output ***/wordcount \
脚本中
- *依据自己机器上的目录进行设定
- 第3行删除已有的wordcount文件
- 第4、5行都是指定的jar包,依机器而定
- 第6-17行指定了各项参数
- 第18、19行指定了发布的程序文件
- 第20、21行指定运行的文件
- 第22行为输入文件
- 第23行为输出文件,即是wordcount的输出
将wordcount拉下来
hadoop fs -getmerge ***/wordcount wordcount
wordcount结果
hadoop 1
haha 1
hbase 1
hdfs 1
hehe 1
hello 1
hi 1
liming 2
map 2
reduce 2
wangmazi 1
zhangsan 1
发现在hadoop上运行的wordcount的结果和本地运行的结果一样,便验证了本文的方法