MapRduce python Top_n - 代码天地

MapRduce python Top_n

其他 2020-03-11 10:48:05 阅读次数: 0

数据格式：

4234 4565 89579 0989 ····
3455 879 123 9090 ····
2342 9897 765 5746 ····
987 8098 8008 80099 ····
····

需求：

计算这一组数中出现次数最多的数字，按出现次数从大到小排序，取前n个数以及他们出现的次数（top n）

Python 代码：

mapper：

对于读入的每个数做一个（num， 1）的简单映射

#!/usr/bin/python
# -*- coding: utf-8 -*-

import sys


def map():
    for line in sys.stdin:
        line = line.strip()
        words = line.split()
        for word in words:
            print('%s\t%s' % (word, 1))


if __name__ == '__main__':
    map()

reducer：

用groupby方法对每相同的关键字（num）进行分组，分组后key为num，value为（num，1），在根据value的第二项计算该num出现的总次数count ，最后比较大小筛选出top n ，这里的n为通过Streaming运行python脚本时传入的参数

#!/usr/bin/python
# -*- coding: utf-8 -*-

import sys
from itertools import groupby


def from_stdin():
    for line in sys.stdin:
        word, count = line.strip().split('\t')
        yield (word, count)


def reduce():
    n = int(sys.argv[1])
    a = {}
    for word, group in groupby(from_stdin(), key=lambda x: x[0]):
        count = sum([int(tup[1]) for tup in group])
        if len(a) < n:
            a.setdefault(word, count)
        else:
            y = min(a, key=a.get)
            if count > a[y]:
                a.pop(y)
                a.setdefault(word, count)
    a = [(key, value) for key, value in a.items()]
    a.sort(reverse=True, key=lambda x: x[1])
    for b in a:
        print('%s\t%s' % (b[1], b[0]))


if __name__ == '__main__':
    reduce()

Mew97

发布了9 篇原创文章 · 获赞 4 · 访问量 2818

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_44129672/article/details/88720849

MapRduce python Top_n

mapreduce Top_N

子查询，TOP_N，分页，行转列

MapRduce特性：全排序

MapRduce 处理数据

Hadoop_18_MapRduce的shuffle机制

MapRduce特性：二次排序

MapRduce-单词统计的执行流程

Hadoop_17_MapRduce_MapTask并行度的决定机制

Hadoop_15_MapRduce 示例编写及编程规范

Hadoop_16_MapRduce_案例2_实现用户手机流量统计

TOP N

Python爬虫入门之如何在豆瓣中获取自己喜欢的TOP N电影信息

找到列表中的top-n的元素和对应的索引python

Mysql group by top N

top n问题

Top-N分析

TOP-N 分析

Top-N

MySQL分组top N

Sql分组查询TOP N及TOP条件

【python】Top K Frequent Elements

top k问题python解

Python创建n*n的列表

hive 分组取Top N

Hive分组取Top N

mysql group by xx top N

Hadoop 系列（二）Top N

oracle-Top-N 分析

python常用函数 N

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)