Hadoop之MapReduce WordCount详细分析 - 代码天地

Hadoop之MapReduce WordCount详细分析

编程语言 2018-05-11 17:42:26 阅读次数: 0

MapReduce的设计思想

主要的思想是分而治之(divide and conquer), 分治算法。

将一个大的问题切分成很多小的问题，然后在集群中的各个节点上执行，这既是Map过程。在Map过程结束之后，会有一个Ruduce的过程，这个过程即将所有的Map阶段产出的结果进行汇集。

写MapReduce程序的步骤：
1.把问题转化为MapReduce模型
2.设置运行的参数
3.写map类
4.写reduce类
例子：统计单词个数

将文件拆分成splits，每个文件为一个split，并将文件按行分割形成<key,value>对，MapReduce框架自动完成，其中行偏移量（即key值）包括了回车所占的字符数

将分割好的<key,value>对交给用户定义的map方法（TokenizerMapper）进行处理，生成新的<key,value>对。

得到map方法输出的<key,value>对后，Mapper会将它们按照key值进行排序，并执行Combine过程，将key至相同value值累加，得到Mapper的最终输出结果。

Reducer先对从Mapper接收的数据进行排序，再交由用户自定义的reduce方法（IntSumReducer）进行处理，
得到新的<key,value>对，并作为WordCount的输出结果

下面我们看官方给出的例子：

1：将Block块分割成三个Split
2：每个Split对应一个mapper
3: 三个mapper输出结果进行Shuffling,每个map的输出只是简单的key-value而非key-valuelist，
所以洗牌的工作就是将map输出转化为reducer的输入的过程。
在reducer开始之前shuffle要做的事情分为两步copy和sort 阶段。

转自： http://www.cnblogs.com/zhanghuijunjava/archive/2013/04/27/3036549.html

猜你喜欢

转载自forlan.iteye.com/blog/2361359

Hadoop之MapReduce WordCount详细分析

hadoop框架详细分析

Yarn之ResourceManager详细分析

SkipList 之详细分析

ziplist之详细分析

Hadoop-MapReduce-详细分析MapReduce工作流程，源码解析-连载中

大数据之路(二)——MapReduce流程详细分析

hadoop大数据平台应用案例详细分析

Netflix之Hystrix详细分析(十四)

深入并发之（四）线程池详细分析

STL之pair类型详细分析

Yarn之ResourceManager详细分析笔记（一）

JetPack之ViewModel最新源码详细分析

upload-labs之pass 16详细分析

Jetpack 之LiveData源码详细分析

Spring Cloud学习之五 Eureka详细分析

Hadoop之图解MapReduce与WordCount示例分析

【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析

Hadoop初学之mapreduce（1）-wordcount实例

Hadoop之MapReduce过程，单词计数WordCount

十五、Hadoop MapReduce之WordCount极速入门

Hadoop 之 MapReduce 概述--WordCount 案例实现

Hadoop学习笔记-MapReduce之WordCount实战

Spring源码分析——BeanFactory体系之接口详细分析

初学Hadoop之图解MapReduce与WordCount示例分析

动态规划之详细分析0-1背包问题

S3C2440 块设备驱动之框架详细分析（二十）

动态规划初步之背包问题（参考背包九讲+例题+详细分析+补充）

Flutter之drawer详细分析（你要的操作都有）

Android版xx助手之天天酷跑外挂详细分析

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)