黑猴子的家：ReduceTask工作机制 - 代码天地

黑猴子的家：ReduceTask工作机制

移动开发 2019-02-19 16:00:50 阅读次数: 0

1、设置ReduceTask

reducetask的并行度同样影响整个job的执行并发度和执行效率，但与maptask的并发数由切片数决定不同，Reducetask数量的决定是可以直接手动设置

//默认值是1，手动设置为4
job.setNumReduceTasks(4);

2、注意

（1）如果数据分布不均匀，就有可能在reduce阶段产生数据倾斜

（2）reducetask数量并不是任意设置，还要考虑业务逻辑需求，有些情况下，需要计算全局汇总结果，就只能有1个reducetask。

（3）具体多少个reducetask，需要根据集群性能而定。

（4）如果分区数不是1，但是reducetask为1，是否执行分区过程。答案是：不执行分区过程。因为在maptask的源码中，执行分区的前提是先判断reduceNum个数是否大于1。不大于1肯定不执行。

3、实验：测试reducetask多少合适。

（1）实验环境：1个master节点，16个slave节点：CPU:8GHZ，内存: 2G
（2）实验结论
表1 改变reduce task （数据量为1GB）

					Map task =16
Reduce task	1	5	10	15	16	20	25	30	45	60
总时间	892	146	110	92	88	100	128	101	145	104

4、ReduceTask工作机制

（1）Copy阶段
ReduceTask从各个MapTask上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。

（2）Merge阶段
在远程拷贝数据的同时，ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。

（3）Sort阶段
按照MapReduce语义，用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起，Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序，因此，ReduceTask只需对所有数据进行一次归并排序即可。

（4）Reduce阶段
reduce()函数将计算结果写到HDFS上。

猜你喜欢

转载自blog.csdn.net/weixin_34059951/article/details/87429617

黑猴子的家：ReduceTask工作机制

黑猴子的家：ReduceTask工作机制

ReduceTask工作机制图解

黑猴子的家：Git 图解

黑猴子的家：python 进制

黑猴子的家：Pycharm 安装

黑猴子的家：Python 介绍

黑猴子的家： WritableComparable排序

黑猴子的家：Python 简介

黑猴子的家：Python 简介

黑猴子的家：Scala 异常

黑猴子的家：Scala 守卫

黑猴子的家：Scala 枚举

MapReduce原理之ReduceTask工作机制

B05 - 048、ReduceTask工作机制

MapReduce框架原理之ReduceTask工作机制

MapReduce【MapTask和ReduceTask的工作机制】

黑猴子的家：Navicat 连接导入导出

黑猴子的家：Python Anaconda 版本安装

黑猴子的家：写博客的初始欲望

黑猴子的家：Python 字符编码

黑猴子的家：Python是个什么鬼？

黑猴子的家：python 列表、元组操作

黑猴子的家：Python Anaconda 镜像

黑猴子的家：Python 擅长的领域

黑猴子的家：Anaconda下载安装

黑猴子的家：Hive 数据导入

黑猴子的家：MapReduce数据压缩

黑猴子的家：python bytes类型

黑猴子的家：Python 发展历史

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)