MapReduce中大量小文件是如何产生的？如何优化？ - 代码天地

MapReduce中大量小文件是如何产生的？如何优化？

其他 2020-08-08 11:03:02 阅读次数: 0

在分布式的架构中，分布式文件系统HDFS，和分布式运算程序编程框架mapreduce。

问题：
HDFS:不怕大文件，怕很多小文件
mapreduce :怕数据倾斜

那么mapreduce是如果解决多个小文件的问题呢？

mapreduce关于大量小文件的优化策略

（1）默认情况下，TextInputFormat对任务的切片机制是按照文件规划切片，不管有多少个小文件，都会是单独的切片，都会交给一个maptask，这样，如果有大量的小文件

就会产生大量的maptask，处理效率极端底下

（2）优化策略

最好的方法：在数据处理的最前端（预处理、采集），就将小文件合并成大文件，在上传到HDFS做后续的分析

补救措施：如果已经是大量的小文件在HDFS中了，可以使用另一种inputformat来做切片（CombineFileInputformat），它的切片逻辑跟FIleinputformat不同：

它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个maptask了

	//如果不设置InputFormat，它默认的用的是TextInputFormat.class
		/*CombineTextInputFormat为系统自带的组件类
		 * setMinInputSplitSize 中的2048是表示n个小文件之和不能大于2048
		 * setMaxInputSplitSize 中的4096是当满足setMinInputSplitSize中的2048情况下  
		 * 在满足n+1个小文件之和不能大于4096
		 */
		job.setInputFormatClass(CombineTextInputFormat.class);
		CombineTextInputFormat.setMinInputSplitSize(job, 2048);
		CombineTextInputFormat.setMaxInputSplitSize(job, 4096);

补充：当n+1大于最大值时候，大文件会被切开，放到n个文件去

猜你喜欢

转载自blog.csdn.net/Aying_seeyou/article/details/106281979

MapReduce中大量小文件是如何产生的？如何优化？

如何避免Spark SQL做数据导入时产生大量小文件

如何优化代码中大量的if/else,switch/case?

如何优化代码中大量的if/else,switch/case？

如何优化代码中大量的if/else，switch/case?

MapReduce小文件优化与分区

HDFS无法高效存储大量小文件，如何处理好小文件？

MR读取大量小文件优化

史上最全MapReduce小文件优化策略

如何对项目中大量批量操作进行优化提升项目性能（mybitis中sql优化）。

如何对项目中大量批量操作行优化提升项目性能（mybitis中sql优化）。

如何删除表中大量数据

如何对项目中大量批量操作进行优化提升项目性（yii中q优）。

Linux 中/var/spool/postfix/maildrop目录下堆积大量小文件如何删除

删除大量小文件

CombineTextInputFormat切片机制优化大量小文件

Hadoop-Mapreduce数据倾斜与优化(小文件合并)

如何关闭hibernate产生的大量日志

解决Flume采集数据时在HDFS上产生大量小文件的问题

快速删除大量小文件

hdfs大量小文件压缩

如何利用Hadoop存储小文件

SparkStreaming如何解决小文件问题

Hive如何处理小文件问题？

HDFS如何处理小文件

Hadoop小文件优化

linux上快速拷贝大量小文件

linux快速删除大量小文件方法

Linux 快速删除大量小文件方法

大量小文件的实时同步方案

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)