Hadoop的split和block的区别和联系 - 代码天地

Hadoop的split和block的区别和联系

其他 2020-04-11 11:18:29 阅读次数: 0

hadoop在默认的情况下，split和hdfs的block的大小是一样的，这样容易造成误解认为两者是一样的，下面说下两者的区别和联系：

split是MapReduce里的概念，是切片的概念，split是逻辑切片；而block是hdfs中切块的大小，block是物理切块；
split的大小在默认的情况下和HDFS的block切块大小一致，为了是MapReduce处理的时候减少由于split和block之间大小不一致，可能会完成多余的网络之间的传输。

可以通过配置文件进行设置：

–minsize 默认大小为1mapreduce.input.fileinputformat.split.minsize

–maxsize 默认大小为Long.MAXValue mapreduce.input.fileinputformat.split.maxsize

在mapreduce的FileInputFormat类中有个getSplits() 方法对文件进行split，算法如下：

Math.max(minSize,Math.min(maxSize, blockSize));其中maxSize是取得longValueMax的值

1.如果blockSize小于maxSize && blockSize 大于 minSize之间，那么split就是blockSize；

2.如果blockSize小于maxSize && blockSize 小于 minSize之间，那么split就是minSize；

3.如果blockSize大于maxSize && blockSize 大于 minSize之间，那么split就是maxSize；

959ggg

发布了277 篇原创文章 · 获赞 24 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_43141726/article/details/105432979

Hadoop的split和block的区别和联系

Hadoop的split和block的区别和联系

Spark Hadoop联系和区别

Hadoop和Sparkd的区别与联系

Hadoop和Spark联系与区别

Hadoop、MapReduce、YARN和Spark的区别与联系

秒懂Hadoop和Spark联系与区别

Hadoop，MapReduce，YARN和Spark的区别与联系

.split(",", -1);和.split(",")的区别

.split(“,“, -1) 和 .split(“,“) 的区别

小程序进阶-inline、block和inline-block的区别与联系

join和split的区别

大数据分析与Hadoop区别和联系

String中的split(",")和split(",",-1)的区别

split("/")[-1] 和 split("/",-1)的区别

java split和js split的区别

split(“/“)[-1] 和 split(“/“,-1)的区别

Python-split()和split(‘ ‘)的区别

block，inline和inlinke-block的区别

block,inline和inline-block的区别

block，inline和inlinke-block区别

&与&&的区别和联系

& 和 && 区别和联系，| 和 || 区别和联系

slice,splice和split的区别

slice,splice和split区别

比和比例的联系和区别

equals 和==的区别和联系

==和equals的区别和联系

Spark block和partition的区别

LSTM block和cell区别

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)