MapReduce中如何控制reducer的数量 - 代码天地

MapReduce中如何控制reducer的数量

其他 2018-11-26 22:32:47 阅读次数: 0

1，在缺省情况下，一个mapreduce的job只有一个reducer；在大型集群中，需要使用许多reducer，中间数据都会放到一个reducer中处理，如果reducer数量不够，会成为计算瓶颈。

2，reducer的最优个数与集群中可用的reducer的任务槽数相关，一般设置比总槽数稍微少一些的reducer数量；hadoop文档中推荐了两个公式：

0.95*NUMBER_OF_NODES*mapred.tasktracker.reduce.tasks.maximum

1.75*NUMBER_OF_NODES*mapred.tasktracker.reduce.tasks.maximum

备注：NUMBER_OF_NODES是集群中的计算节点个数；

mapred.tasktracker.reduce.tasks.maximum：每个节点所分配的reducer任务槽的个数；

3，在代码中通过：JobConf.setNumReduceTasks(Int numOfReduceTasks)方法设置reducer的个数；
---------------------
作者：播种生活
来源：CSDN
原文：https://blog.csdn.net/momomi_2005/article/details/23050605
版权声明：本文为博主原创文章，转载请附上博文链接！

猜你喜欢

转载自blog.csdn.net/xiaoyutongxue6/article/details/84069830

MapReduce中如何控制reducer的数量

MapReduce中如何控制mapper的数量

mapreduce中控制mapper的数量

Spark中如何确定Shuffle过程中Reducer的数量

MapReduce中的mapper和reducer以及context

如何在Hadoop中控制Map的数量?

MapReduce中Mapper类和Reducer类4函数解析

Mapreduce中Mapper、Partition、Reducer数目的确定与关系

Wordcount -- MapReduce example -- Reducer

MapReduce ：基于 FileInputFormat 的 mapper 数量控制

hive mapreduce reducer 调优

（转）深度分析如何在Hadoop中控制Map的数量

深度分析如何在Hadoop中控制Map的数量

mapreduce中Partitioner数量与reducetask数量对结果影响

Lucene如何控制segments的数量?

hive任务的mappe-reducer数量

MapReduce系列之Mapper、Combiner和Reducer

MapReduce编程模型4——Reducer简介

Apache Hadoop MapReduce Reducer类小解

在solr里面，如何合理的控制的命中的数量？

如何合理的控制solr查询的命中的数量？

tensorflow 如何控制使用cpu数量

前端如何控制并发请求数量？

Hive执行中map的数量和reduce的数量怎么控制

大数据07-Hadoop框架下MapReduce中的map个数如何控制

reducer

控制solr中查询条件的数量

CDH 中hbaese, mapreduce内存控制

Hive_ Hive On YARN Mapper与Reducer 数量与优化

MapReduce之mapper以及reducer的个数决定性因素

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)