用Python实现基于Hadoop Stream的mapreduce任务

其他 2019-03-17 20:48:09 阅读次数: 0

用Python实现基于Hadoop Stream的mapreduce任务

因为Hadoop Stream的存在，使得任何支持读写标准数据流的编程语言实现map和reduce操作成为了可能。

为了方便测试map代码和reduce代码，下面给出一个Linux环境下的shell 命令：

cat inputFileName | python map.py | sort | python map.py > outputFileName

可以轻松的在没有hadoop 环境的机器上进行测试。

下面介绍，在Hadoop环境中的，如何用Python完成Map和Reduce两个任务的代码编写。

任务示例

这里依然采用大部分讲述MapReduce文章中所采用的WordCount任务作为示例。改任务需要统计给的海量文档中，各种单词出现的次数，其实就是统计词频（tf)。

map.py

import sys

for line in sys.stdin:
    words = line.strip().split()
    for word in words:
        print("{}\t{}".format(word, 1))

reduce.py

import sys

word, curWord, wordCount = None, None, 0

for line in sys.stdin:
    word, count = line.strip().split('\t')
    count = int(count)
    if word == curWord: wordCount += count
    else:
        print("{}\t{}".format(word, wordCount))
        curWord, wordCount = curWord, count
        
if word and word == curWord:
    print("{}\t{}".format(word, wordCount))

可以在单机上执行前面所述的命令没有问题后，然后执行下面的shell命令

hadoop jar $HADOOP_STREAMING \ 
-D mapred.job.name="自定义的job名字" \ 
-D mapred.map.tasks=1024 \
-D mapred.reduce.tasks=1024
-files map.py \ 
-files reduce.py \
-mapper "python map.py" \
-reducer "python reduce.py" \
-input /user/rte/hdfs_in/* \
-output /user/rte/hdfs_out

猜你喜欢

转载自www.cnblogs.com/crackpotisback/p/10548693.html

用Python实现基于Hadoop Stream的mapreduce任务

Python+Hadoop Streaming实现MapReduce任务

Hadoop MapReduce任务的启动分析

Hadoop Mapreduce任务出错,Child Error

实践Hadoop MapReduce 任务的性能翻倍之路

9.2.1 hadoop mapreduce任务输出的默认排序

Hadoop中YARN调度MapReduce任务

hadoop用java API实现mapreduce排序

hadoop用java API实现mapreduce示例

精通HADOOP（七） - MAPREDUCE任务的基础知识 - Hadoop MapReduce任务的基本构成要素

Mapreduce任务实现邮件监控

基于mapreduce的Hadoop join实现分析(一)

Stream、MapReduce

精通HADOOP（九） - MAPREDUCE任务的基础知识 - 执行作业

精通HADOOP（八） - MAPREDUCE任务的基础知识 - 配置作业

精通HADOOP（十一） - MAPREDUCE任务的基础知识 - 总结

浅谈Hadoop中MapReduce任务运行机制

基于Hadoop的HDFS的分布式系统，运行Mapreduce任务出现问题的解决方法

基于Hadoop的MapReduce操作

使用Python实现Hadoop MapReduce程序

使用python实现Hadoop中MapReduce

Hadoop提交MapReduce任务后卡在mapreduce.Job: Running job

Hadoop 里MapReduce里实现多个job任务包含（迭代式、依赖式、链式）

python2程序完成MapReduce wordcount任务

hadoop基于MapReduce实现TFIDF算法完成热点词汇抓取

Hadoop基础---MapReduce实现

理解MapReduce-用Python编写WordCount程序并提交任务

python MapReduce hadoop

Hadoop Python MapReduce

Hadoop基于Yarn的MapReduce架构

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)