MR编程模型和任务运行过程

企业开发 2019-04-12 18:00:48 阅读次数: 0

MR编程模型

MR编程模型主要分为五个步骤：输入、映射、分组、规约、输出。

输入（InputFormat）：
主要包含两个步骤—数据分片、迭代输入
数据分片（getSplits）：数据分为多少个splits，就有多少个map task;
单个split的大小，由设置的split.minsize和split.maxsize决定;
公式为 max{minsize, min{maxsize, blocksize}}；
hadoop2.7.3之前blocksize默认64M，之后默认128M。

决定了单个split大小之后，就是hosts选择，一个split可能包含多个block（将minsize设置大于128M）；
而多个block可能分布在多个hosts节点上（一个block默认3备份，如果4个block就可能在12个节点），getsplits会选择包含数据最多的一部分hosts。
由此可见，为了让数据本地话更合理，最好是一个block一个task，也就是说split大小跟block大小一致。

getSplits会产生两个文件
job.split：

迭代输入：

映射（map）
分组（partition）
规约（reduce）
输出（OutputFormat）

猜你喜欢

转载自blog.51cto.com/4876017/2377434

MR编程模型和任务运行过程

解决MR任务运行过程中出现虚拟内存超标问题

Mapreduce(MR)设置多个job的任务运行

MR任务随机性运行失败

mr 过程setSortComparatorClass和setGroupingComparatorClass

YARN/MR2编程模型介绍

任务并行编程模型

Yarn的工作机制，以及MR Job提交运行过程

Spark任务运行过程解析

基于任务的编程模型TAP

mr和spark的shuffer过程详解及对比优化

spark任务运行过程的源码分析

spark任务在executor端的运行过程分析

Quartz 2.2 的实现原理和运行过程固定时间后删除任务

MR的Shuffle过程

Spark之SparkCore:RDD-数据核心/API【执行过程、编程模型：创建、转换、输出、运行过程】

HDFS的文件写入过程.mapReduce编程模型.关于YARN的运行流程.shuffle阶段.Hive 中包含哪些数据模型

典型的软件过程模型+编程

MR计算模型四

MR计算模型三

MR计算模型二

大数据教程（8.8）MR内部的shuffle过程详解&combiner的运行机制及代码实现

MR，Spark提交任务的方式

MR Job运行数据：

大数据-MR的运行原理

JSP的运行原理和运行过程

4.MR过程分析

21 任务和并行编程

进程运行过程和调度

MapReduce运行原理和过程

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)