数据本地化策略和Job的执行流程 - 代码天地

数据本地化策略和Job的执行流程

其他 2019-06-28 06:01:46 阅读次数: 0

一、数据本地化策略

当JobTracker访问资源的时候需要向NameNode请求数据
JobTracker获取到数据的描述信息，根据描述信息对数据进行了切片（InputSplit），然后将切片发给不同Mapper来执行
MapTask在TaskTracker上执行，在执行的时候需要获取实际的数据
TaskTracker需要去访问DataNode，为了节省带宽资源，所以往往将DataNode和TaskTracker放在同一个节点上 — 数据本地化策略
为了减少网络资源的消耗，往往还会将切片的大小和实际的Block的大小设置的相同

二、job执行流程

run job：客户端提交一个mr的jar包给JobClient。提交方式：hadoop jar …
a. 做job环境信息的收集，比如各个组件类，输入输出的kv类型等，检测是否合法
b. 检测输入输出的路径是否合法
JobClient通过RPC和ResourceManager进行通信，返回一个存放jar包的地址（HDFS）和jobId。jobID是全局唯一的，用于标识该job
client将jar包写入到HDFS当中(path = hdfs上的地址 + jobId)
开始提交任务(任务的描述信息，不是jar, 包括jobid，jar存放的位置，配置信息等等)
JobTracker进行初始化任务
读取HDFS上的要处理的文件，开始计算输入切片，每一个切片对应一个MapperTask。注意，切片是一个对象，存储的是这个切片的数据描述信息；切块是文件块（数据块），里面存储的是真正的文件数据
TaskTracker通过心跳机制领取任务（任务的描述信息）。切片一般和切块是一样的，即在实际开发中，切块和切片认为是相同的。在领取到任务之后，要满足数据本地化策略
下载所需的jar，配置文件等。体现的思想：移动的是运算，而不是数据
TaskTracker启动一个java child子进程，用来执行具体的任务（MapperTask或ReducerTask）
将结果写入到HDFS当中

猜你喜欢

转载自blog.csdn.net/yang134679/article/details/93657180

数据本地化策略和Job的执行流程

大数据-什么是MapReduce？&&数据本地化&MapReduce原理及执行流程&&Shuffle的调优

spark数据本地化

国际化和本地化

[spark] 数据本地化及延迟调度

13.2 Spark数据本地化

【Spark系列】：Spark的数据本地化

【Spark调优】数据本地化

基于 webpack 的本地化数据 mock

获取本地化日期和时间

红豆、绿豆和本地化

跨平台和窗口本地化

H5资源本地化策略 - iOS

iOS中多语言本地化流程的优化

moqui本地化

本地化说明

FreeBSD本地化

IOS本地化

图片本地化

laravel本地化

PostgreSQL本地化

语言本地化

IconFont本地化

Qt Quick的国际化和本地化

Spring MVC 的国际化和本地化

Django 国际化和本地化

本地化和国际化测试

第十二节：本地化和全球化

goweb- 国际化和本地化

Spring MVC 中的国际化和本地化

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)