大数据-Hadoop生态(14)-MapReduce框架原理-切片机制 - 代码天地

大数据-Hadoop生态(14)-MapReduce框架原理-切片机制

其他 2018-12-10 22:44:58 阅读次数: 0

1.FileInputFormat切片机制

切片机制

比如一个文件夹下有5个小文件,切片时会切5个片,而不是一个片

案例分析

2.FileInputFormat切片大小的参数配置

源码中计算切片大小的公式

切片大小设置

获取切片大小API

3. CombineTextInputFormat切片机制

框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其低下。

1)应用场景

CombineTextInputFormat用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个MapTask处理。

2)虚拟存储切片最大值设置

CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m

注意：虚拟存储切片最大值设置最好根据实际的小文件大小情况来设置具体的值

3)切片机制

生成切片过程包括：虚拟存储过程和切片过程二部分

（1）虚拟存储过程：

将输入目录下所有文件大小，依次和设置的setMaxInputSplitSize值比较，如果不大于设置的最大值，逻辑上划分一个块。如果输入文件大于设置的最大值且大于两倍，那么以最大值切割一块；当剩余数据大小超过设置的最大值且不大于最大值2倍，此时将文件均分成2个虚拟存储块（防止出现太小切片）。

例如setMaxInputSplitSize值为4M，输入文件大小为8.02M，则先逻辑上分成一个4M。剩余的大小为4.02M，如果按照4M逻辑划分，就会出现0.02M的小的虚拟存储文件，所以将剩余的4.02M文件切分成（2.01M和2.01M）两个文件。

（2）切片过程：

（a）判断虚拟存储的文件大小是否大于setMaxInputSplitSize值，大于等于则单独形成一个切片。

（b）如果不大于则跟下一个虚拟存储文件进行合并，共同形成一个切片。

（c）测试举例：有4个小文件大小分别为1.7M、5.1M、3.4M以及6.8M这四个小文件，则虚拟存储之后形成6个文件块，大小分别为：

1.7M，（2.55M、2.55M），3.4M以及（3.4M、3.4M）

最终会形成3个切片，大小分别为：

（1.7+2.55）M，（2.55+3.4）M，（3.4+3.4）M

猜你喜欢

转载自www.cnblogs.com/duoduotouhenying/p/10099632.html

大数据-Hadoop生态(14)-MapReduce框架原理-切片机制

大数据（九）：MapReduce工作机制和切片机制理论

Hadoop CombineTextInputFormat 切片机制

hadoop 切片机制详解

Hadoop MapReduce Splits 切片源码分析及切片机制

MapReduce补充-排序-分组-切片和shuffle机制Split切片机制

Hadoop FileInputFormat 默认切片机制

Hadoop-MapReduce-详细解析InputFormat工作机制，源码分析，切片机制-连载中

【大数据】MapTask并行度和切片机制

大数据-Hadoop生态(13)-MapReduce框架原理--Job提交源码和切片源码解析

大数据-Hadoop生态(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区

MapReduce切片机制以及maptask和reducetask并行度设置

MapReduce之CombineFileInputFormat自定义切片机制-04

CombineTextInputFormat切片机制优化大量小文件

CombineTextInputFormat 切片机制以及实例

FileInputFormat切片机制和配置参数

Hadoop数据切片与MapTask并行度决定机制

大数据-Hadoop生态(18)-MapReduce框架原理-WritableComparable排序和GroupingComparator分组

大数据-Hadoop生态(15)-MapReduce框架原理-自定义FileInputFormat

MapReduce框架原理之切片和任务提交md

Hadoop-MapReduce-FileInputFormat切片getSplits()源码分析，MapReduce InputSplit（切片）与HDFS Block（块）对比

MapReduce中的数据输入——切片与数据处理

大数据技术Hadoop（MapReduce框架原理）三

Golang原理分析：切片(slice)原理及扩容机制

大数据生态系统基础：Hadoop（七）：Hadoop MapReduce 工作原理和 YARN架构

大数据技术之_05_Hadoop学习_02_MapReduce_MapReduce框架原理+InputFormat数据输入+MapReduce工作流程(面试重点)+Shuffle机制(面试重点)

大数据技术之Hadoop（MapReduce）第3章 MapReduce框架原理

大数据技术之Hadoop之MapReduce（3）——MapReduce框架原理概念一

Hadoop中MapReduce之Job提交和切片信息详解

从Hadoop框架浅谈大数据生态

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)