关于Map的理解

Shuffle中进行了分组聚合,而Reduce对分组聚合后的数据进行重新计算.
切片对应的是MapTask
分区对应的是ReduceTask

也可以通过设定reduce数量来调整分区数

分区规则:
设定为1时, 根本不走自定义分区器,而是Hash
如果分区数大于规则 空
如果分区数小于规则(分区数不为1) 报错

小文件的处理
设置输入流的类来控制小文件,
在这里插入图片描述
在这里插入图片描述
这里的cCombiner分区合并指的是 直接在shuflle进行计算 比如 sum什么的
在这里插入图片描述
这个分区合并,就是不同task的相同区号的分区进行合并,例子: task1的分区1和task2的分区1进行合并
在这里插入图片描述

在到Reduce之前进行分组
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_42265608/article/details/132437017