Hadoop FileInputFormat 默认切片机制 - 代码天地

Hadoop FileInputFormat 默认切片机制

其他 2019-04-28 18:25:20 阅读次数: 0

FileInputFormat

默认的切片机制

简单地按照文件的内容长度进行切片
切片大小，默认等于 block 大小**(Local模式默认32M，集群模式默认128M)**
切片时不考虑数据集整体，而是逐个针对每一个文件单独切片

FileInputFormat默认切割机制

源码分析

参考：Hadoop MapReduce Splits 切片源码分析及切片机制

计算切片大小 computeSplitSize

默认情况下，切片大小=blocksize

protected long computeSplitSize(long blockSize, long minSize, long maxSize) {
    return Math.max(minSize, Math.min(maxSize, blockSize));
}

SPLIT_SLOP

每次切片时，都要判断切完剩下的部分是否大于块的 1.1 倍，不大于 1.1 倍就划分一块切片

private static final double SPLIT_SLOP = 1.1;   // 10% slop
while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
    int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
    splits.add(makeSplit(path, length-bytesRemaining, splitSize, blkLocations[blkIndex].getHosts(),blkLocations[blkIndex].getCachedHosts()));
    bytesRemaining -= splitSize;
}

通过分析源码，在 FileInputFormat 中，计算切片大小的逻辑:Math.max(minSize,
Math.min(maxSize, blockSize));

切片主要由这几个值来运算决定

mapreduce.input.fileinputformat.split.minsize=1 //默认值为 1 
mapreduce.input.fileinputformat.split.maxsize= Long.MAXValue //默认值

因此，默认情况下，切片大小=blocksize。
maxsize(切片最大值):参数如果调得比 blocksize 小，则会让切片变小，就等于
配置的这个参数的值。
minsize(切片最小值):参数调的比 blockSize 大，则可以让切片变得比 blocksize 还大

猜你喜欢

转载自blog.csdn.net/yljphp/article/details/89069951

Hadoop FileInputFormat 默认切片机制

FileInputFormat切片机制和配置参数

Hadoop FileInputFormat中切片的大小的参数运行详解

Hadoop CombineTextInputFormat 切片机制

hadoop 切片机制详解

Hadoop-MapReduce-FileInputFormat切片getSplits()源码分析，MapReduce InputSplit（切片）与HDFS Block（块）对比

Hadoop的FileInputFormat解析

Hadoop MapReduce Splits 切片源码分析及切片机制

大数据-Hadoop生态(14)-MapReduce框架原理-切片机制

Hadoop-MapReduce-详细解析InputFormat工作机制，源码分析，切片机制-连载中

Hadoop Mapreduce 中的FileInputFormat类的文件切分算法和host选择算法

Hadoop 源码详解之FileInputFormat类

hadoop文件接口FileInputFormat中split计算方法

Hadoop中FileInputFormat计算InputSplit的getSplits方法的流程

Hadoop数据切片与MapTask并行度决定机制

大数据-Hadoop生态(15)-MapReduce框架原理-自定义FileInputFormat

CombineTextInputFormat切片机制优化大量小文件

CombineTextInputFormat 切片机制以及实例

MapReduce补充-排序-分组-切片和shuffle机制Split切片机制

大数据（九）：MapReduce工作机制和切片机制理论

FileInputFormat -- 从源码分析

FileInputFormat常用实现类

FileInputFormat的实现类

【大数据】MapTask并行度和切片机制

MapReduce切片机制以及maptask和reducetask并行度设置

MapReduce之CombineFileInputFormat自定义切片机制-04

MapReduce重写FileInputFormat和FileOutputFormat

FileInputFormat——悟空智慧教育

Hadoop之MR程序的组件全貌及textinputformat对切片规划的源码分析

Hadoop中，切片split逻辑，FileOutputFormat.getSplits()源码解析

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)