MapReduce是什么？什么原理？ - 代码天地

MapReduce是什么？什么原理？

其他 2018-10-26 12:13:09 阅读次数: 0

mapreduce工作流程：

1.读取文件，从指定路径讲读取文件解析成键值对形式，key为行偏移量，value为每行数据；

2.自定义map逻辑，讲K1,V1转换成map逻辑的K2,V2输出；

3.分区：对K2,V2进行操作，相同数据类型的数据放到同一个区中，继承一个partitioner类；

4.排序：对不同分区的数据按照相同key排序，用到实体类封装时需要实现序列化接口writable,用到比较的话需要继承writablecomparable;

5.规约：对map端输出的K2,V2进行数据聚合，也就是combiner;

6.分组：相同key的value放到同一个集合中；

7.自定义reduce逻辑，将K2,V2,转换成新的k3,v3输出；

8.将k3,v3通过context上下文将数据进行保存；

栗子：

文件：test.txt

扫描二维码关注公众号，回复： 3733002 查看本文章

文件内容：

a b c

d f a

d a g

当test.txt输入之后，需要将数据进行拆分为K1（行偏移量）,V1（每行数据）格式，即：

0，a b c

4, d f a

8, d a g

数据拆分完成之后，到map端将数据按照map端定义的逻辑进行映射为K2(单个数据值),V2（单个数据出现次数不累加统计），即：

a 1

b 1

c 1

d 1

f 1

a 1

d 1

a 1

g 1

combiner聚合阶段：

a ,{1,1,1}

b,{1}

c,{1}

d,{1,1}

f,{1}

g,{1}

renduce阶段：将K2,V2转成新的K3(单个数据),V3（单个数据出现次数累加之和），即：

a,3

b,1

c,1

d,2

f,1

g,1

简言之MapReduce就是“分而治之”，MapReduce分为Map,Reduce,map负责收集统计，只统计不计算，而reduce是负责将map传过来的数据进行计算整合输出！

猜你喜欢

转载自blog.csdn.net/Sunshine_2211468152/article/details/82690136

MapReduce是什么？什么原理？

MapReduce 到底是什么？

MapReduce的优缺点是什么？

什么是SpringMVC？原理是什么？

注解的原理是什么？

HttpDns 原理是什么

phpfpm的原理是什么？

https原理是什么

sort的原理是什么

Ribbon的原理是什么

FRP的原理是什么

Spark与MapReduce的区别是什么？

AD FS是什么，用在什么场景，原理是什么？

什么是NIO？NIO的原理是什么机制？

什么是 RPC?RPC原理是什么?

[vue] 什么是双向绑定？原理是什么？

什么是Vue？Vue的工作原理是什么？

什么是DDoS攻击？原理是什么？

什么是网络钓鱼？底层原理是什么？

什么是 XSS 攻击,攻击原理是什么

区块链的原理是什么？

HTTPS 通信原理是什么？

谷歌的seo原理是什么

impala工作原理是什么

java web是什么原理？

StringBuffer的扩容原理是什么？

路由的实现原理是什么？

new得原理是什么？?

JVM原理 | TLAB是什么

synchronized底层原理是什么？

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)