Hadoop 7days-3 MapReduce 以及统计单词出现的次数小练习 - 代码天地

Hadoop 7days-3 MapReduce 以及统计单词出现的次数小练习

其他 2018-05-20 12:11:14 阅读次数: 2

MapReduce:

MapReduce由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计算，非常简单。

这两个函数的形参是key、value对，表示函数的输入信息。

工作过程：Client把工作的jar包提交到HDFS，当需要工作时，将描述信息发送给ResourceManager,NodeManager使用心跳机制向ResourceManager领取任务，而ResourceManager则负责每台机器的任务和资源的分配，并把工作的描述信息发送给NodeManager，NodeManager则去HDFS领取和执行进行具体的工作。

◆执行步骤：
1. map任务处理
1.1 读取输入文件内容，解析成key、value对。对输入文件的每一行，解析成key、value对。每一个键值对调用一次map函数。
1.2 写自己的逻辑，对输入的key、value处理，转换成新的key、value输出。
1.3 对输出的key、value进行分区。
1.4 对不同分区的数据，按照key进行排序、分组。相同key的value放到一个集合中。
1.5 (可选)分组后的数据进行归约。
2.reduce任务处理
2.1 对多个map任务的输出，按照不同的分区，通过网络copy到不同的reduce节点。
2.2 对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑，对输入的key、value处理，转换成新的key、value输出。

2.3 把reduce的输出保存到文件中。

MapReduce流程：

统计单词出现次数小练习：

main方法：

WCMapper类：

WCReducer类：

猜你喜欢

转载自blog.csdn.net/qq_22772465/article/details/79984504

Hadoop 7days-3 MapReduce 以及统计单词出现的次数小练习

hadoop使用MapReduce统计单词出现次数案例

Java -- 客户端利用Hadoop集群上的MapReduce统计文本中单词的出现次数

统计单词出现次数的mapreduce

Hadoop入门（7）--MapReduce

Hadoop-7-MapReduce

利用Hadoop MapReduce实现单词统计——Wordcount

Hadoop-mapreduce上路练习

Hadoop-统计红楼梦里出现名字的次数（MapReduce学习）

Hadoop 统计文件中单词出现的次数

Hadoop入门---(wordcount)统计单词出现的次数

Hadoop mapreduce

Hadoop - MapReduce

hadoop的MapReduce

Hadoop（MapReduce）

Hadoop—MapReduce

hadoop --- MapReduce

(四)利用Hadoop MapReduce 实现文本单词频率统计

HADOOP(1)__Mapreduce_WordCount统计单词数

(11) Hadoop Java 实现MapReduce HelloWord 单词统计

在centos6.5上hadoop mapreduce 统计英文单词

Hadoop之MapReduce过程，单词计数WordCount

Hadoop MapReduce数据处理过程以及更多示例

Hadoop——HDFS以及MapReduce的一些总结

大数据开发之Hadoop篇----mapreduce概念以及架构

hadoop学习(七)----mapReduce原理以及操作过程

Hadoop环境搭建测试以及MapReduce实例实现

3.2 Hadoop-MapReduce，统计词数

3.3 Hadoop-MapReduce，统计温度

7个实例全面掌握Hadoop MapReduce

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)