MapReduce默认分区方式是什么，以及分区的注意事项 - 代码天地

MapReduce默认分区方式是什么，以及分区的注意事项

其他 2021-03-20 03:35:04 阅读次数: 0

MR的默认分区是哈希分区，就是key的哈希值
在这里插入图片描述
上面这个图片就是源码，我们自定义分区的时候也是继承上面的类或者它的超类，指的一提的是MR的默认分区数也就是numReduceTasks的值是1，所以导致了，默认分区数时数据分区只有一个，而且默认的时候reduceTask也只有一个，因为MR中有多少个分区就有多少个reduceTask

也就构成shuffle按key分组，传到reduce时reduce按key拉取自己要处理的数据，然后做一次归并，之后按组处理数据的形式

在工作中除非必要，否则一般是不随意改动分区方式的，因为在生产环境中执行任务的时候，除了默认的map数等于切片数，以及等于分区数之外，还有着机架感知，就是为了防止不必要的网络io，接收到命令运行任务的那个datanode会以就近原则，拉取离自己最近的那一份切片，而这一份切片可能是原原本切片的备份切片，也就是备份的数据块，而你一旦改了自己的分区方式，那么在原来拉过来就用的基础上，可能会由于这个数据是其他分区的，如果分区之间在同一个datanode上换好，怕的就是不在一个datanode上，那就还要消耗网络io去传递数据，甚至有的时候某一个分区中的数据过大，会因为所有map结束之后才会启动reduce，导致任务的等待超时而失败

当然我只是说自定义分区，说的不是自定义分组，因为对于分组来说，哪怕不在一个datanode上，不同的datanode也不会有数据的传输，而是在各种的continue中执行者同样的操作，这也是任务运行之后，发现同组数据有时却不在一个分区文件中的原因，但是也不能吓分组，因为一个组数据太大，也会发生和分区过大时一样的任务超时失败的结果

至于如何自定义分区，请查看我其他的博文

猜你喜欢

转载自blog.csdn.net/dudadudadd/article/details/114157135

MapReduce默认分区方式是什么，以及分区的注意事项

Hive分区过多有何坏处以及分区时的注意事项

非分区表转换成分区表以及注意事项

Linux系统分区与注意事项

windows7、10磁盘分区以及磁盘扩展（详细教程以及注意事项）

双系统安装注意事项以及修改boot分区或者屏蔽显卡驱动的方法！！

MySql分区作用和注意事项详解

黑猴子的家：Hive 分区表注意事项

Hive分区表新增字段注意事项

lvm分区使用xfs缩减空间的注意事项

go的定义方式以及注意事项

MapReduce的partition默认分区机制

并发编程的三大注意事项是什么？

数据可视化的注意事项是什么？

氯酸钠储存注意事项是什么？

选购ssl数字证书的注意事项是什么？

期权开户及交易的注意事项是什么？

ORACLE分区表梳理系列（一）- 分区表概述、分类、使用方法及注意事项

几种简洁创建线程的方式以及使用注意事项

Oracle-维护存在主键的分区表时的注意事项

Oracle分区表概述、分类、使用方法及注意事项

UVA1103分区涂色+vc使用注意事项

U盘启动+硬盘分区+重装Win10系统（注意事项）

MySQL数据库表分区注意事项大全【推荐】

Oracle 知识篇+分区表上的索引由global改为local注意事项

为什么uibutton的outlet是weak以及tag的注意事项

为什么使用视图以及视图的注意事项

MapReduce的分区

kafka的分区策略是什么？

写作的注意事项是什么？分享作文写作注意事项思维导图模板及绘制技巧

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)