Hadoop FileInputFormat中切片的大小的参数运行详解 - 代码天地

Hadoop FileInputFormat中切片的大小的参数运行详解

其他 2018-08-28 11:29:49 阅读次数: 0

通过分析源码

在FileInputFormat中，计算切片大小的逻辑：Math.max(minSize, Math.min(maxSize, blockSize)); 切片主要由这几个值来运算决定
minsize：默认值：1
配置参数： mapreduce.input.fileinputformat.split.minsize

maxsize：默认值：Long.MAXValue
配置参数：mapreduce.input.fileinputformat.split.maxsize

blocksize
因此，默认情况下，切片大小=blocksize

maxsize（切片最大值）：
参数如果调得比blocksize小，则会让切片变小，而且就等于配置的这个参数的值

minsize （切片最小值）：
参数调的比blockSize大，则可以让切片变得比blocksize还大

选择并发数的影响因素：
1、运算节点的硬件配置
2、运算任务的类型：CPU密集型还是IO密集型
运算任务的数据量

hive可以通过set mapred.max.split.size设置分片大小;

这段逻辑及形成的切片规划描述文件，由FileInputFormat实现类的getSplits()方法完成
1.提交任务时候首先会读取到你的数据在那个目录例如/datafile/demo.txt 假如(300M)
2.开始遍历处理该目录下所有文件 (规划切片)
3.遍历第一个文件demo.txt
3.1获取文件大小,fs.sizeOf(demo.txt)
3.2计算切片大小computeSplitSize(Math.max("mapred.min.split.size",min("mapred.max.split.size",blockSize)))=blockSize=128M(默认)
3.3 开始切,形成第一个切片:demo.txt --0~128M 第二个分片demo.txt 128~256M 第三个分片 demo.txt 256~300M
3.4 将切片信息写入一个切片规划文件中job.split 配置相关信息写入job.xml 还有运行的jar包打包发给MrAppMaster

猜你喜欢

转载自blog.csdn.net/qq_33283716/article/details/81077765

Hadoop FileInputFormat中切片的大小的参数运行详解

Hadoop FileInputFormat 默认切片机制

hadoop 切片机制详解

Hadoop-MapReduce-FileInputFormat切片getSplits()源码分析，MapReduce InputSplit（切片）与HDFS Block（块）对比

Hadoop中MapReduce之Job提交和切片信息详解

numpy的使用说明(三)：numpy中切片和索引详解

hadoop参数配置详解

Hadoop 参数配置详解

Hadoop集群参数详解

Hadoop CombineTextInputFormat 切片机制

Hadoop 源码详解之FileInputFormat类

Hadoop复习（三） --- Intellij Idea 配置，hadoop 常用指令，节点的服役和退役，运行本地MR作业流程，打jar包，切片计算方式

FileInputFormat切片机制和配置参数

Python切片详解

Linux下安装Hadoop详解及WordCount运行

【Hadoop】windows下安装配置Hadoop运行环境（详解）

Hadoop数据切片与MapTask并行度决定机制

Hadoop集群（第6期）_WordCount运行详解 Hadoop集群（第6期）_WordCount运行详解

Hadoop MapReduce Splits 切片源码分析及切片机制

Hadoop详解

Hadoop配置文件参数详解

【Go】详解Go的数组与切片

Python3切片详解！

golang数组与切片详解

详解Python切片操作

Go语言切片详解

Go语言--切片(Slice)详解

GeoServer图层切片（WMTS）详解

Hadoop的FileInputFormat解析

Docker运行参数详解

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)