hadoop平台使用python编写mapreduce二次排序小程序 - 代码天地

hadoop平台使用python编写mapreduce二次排序小程序

其他 2018-10-30 14:36:34 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/w1573007/article/details/71211331

接上一个博文的环境
使用的是官网的专利使用数据，这里只截取了一部分

3858241,956203
3858241,1324234
3858241,3398406
3858241,3557384
3858241,3634889
3858242,1515701
3858242,3319261
3858242,3668705
3858242,3707004
3858243,2949611
3858243,3146465
3858243,3156927
3858243,3221341
3858243,3574238
3858243,3681785
3858243,3684611
3858244,14040
3858244,17445

mapper.py

  1 #!/usr/bin/env python
  2 import sys
  3 list1=[]
  4 for line in sys.stdin:
  5     line=line.strip()
  6     words = line.split("\n")
  7     list1.append(words[0])
  8 for x in xrange(len(list1)):
  9     print list1[x]

reducer.py

1 #!/usr/bin/env python
  2 from operator import itemgetter
  3 import sys
  4 dick1={}
  5 for line in sys.stdin:
  6     words = line.split("\n")
  7     if words[0][0]=='\t':
  8         continue
  9     else:
 10 
 11         word =words[0].split(",")
 12 #        print word[1]
 13 #        print "%s\t%s" % (word[0],word[1])     
 14         if str(word[0]) in dick1:
 15             dick1[word[0]].append(int((word[1].split("\t"[0]))[0]))
 16         else:
 17             dick1[word[0]]=[int((word[1].split("\t"[0]))[0])]
 18 for one in dick1:
 19     dick1[one].sort()  #进行单个键内对多个值的排序
 20 dick2=sorted(dick1.items(), key=lambda d:d[0], reverse = False)   #进行键的排序
 21 for one in dick2:
 22     print one

输出结果

[hadoop@mylab-client py]$ hadoop fs -cat out/part-00000
('3858241', [956203, 1324234, 3398406, 3557384, 3634889])   
('3858242', [1515701, 3319261, 3668705, 3707004])   
('3858243', [2949611, 3146465, 3156927, 3221341, 3574238, 3681785, 3684611])    
('3858244', [14040, 17445, 2211676])    
[hadoop@mylab-client py]$

再进行格式化输出即可

猜你喜欢

转载自blog.csdn.net/w1573007/article/details/71211331

hadoop平台使用python编写mapreduce二次排序小程序

hadoop平台使用python编写mapreduce排序小程序

hadoop-MapReduce--二次排序

使用MapReduce进行二次排序

Python Hadoop Mapreduce 实现Hadoop Streaming分组和二次排序

Hadoop学习四十三：MapReduce的二次排序

Hadoop Mapreduce分区、分组、二次排序过程详解

MapReduce 二次排序

MapReduce二次排序

MapReduce的二次排序

使用 Python 编写 Hadoop MapReduce 程序

MapReduce排序分组（二次排序）

MapReduce的排序和二次排序

Hadoop基础教程-第7章 MapReduce进阶（7.6 MapReduce 二次排序）

Hadoop---mapreduce排序和二次排序以及全排序

hadoop二次排序

hadoop 二次排序

大数据系列之Hadoop知识整理（十）使用MapReduce的二次排序实现数据的连接

Hadoop-Mapreduce实战(辅助排序和二次排序案例（GroupingComparator）)

MapReduce二次排序实现

mapreduce算法之二次排序

MapReduce练习之二次排序

Mapreduce实例——二次排序

Mapreduce之二次排序

MapReduce 二次排序总结

hadoop之MapReduce自定义二次排序流程实例详解

Hadoop1.x MapReduce 实现二次排序实现WritableComparable接口

Hadoop MapReduce二次排序算法与实现之算法解析

mapreduce排序和二次排序以及全排序

大数据系列之Hadoop知识整理（九）MapReduce的几个典型事例，全排序，倒排序，二次排序

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)