我的一次Hadoop小文件Job优化预研报告

企业开发 2018-05-13 19:25:08 阅读次数: 0

前言

公司有日志排序的需求，目前收集环节会产生大量小文件，目前我们没有使用flume和Hbase，本次优化只涉及HDFS和MapReduce。

关于小文件对Namenode影响，本文不涉及，我们现在使用HAR归档小文件。

本文的结论基于HDFS大量小文件的情况。

一、开启Jvm重用对Job影响：

文件数	文件大小	JVM重用	耗时	Jobid
4815	7.54 GB	Y	26mins, 5sec	job_201202211018_0034
N	51mins, 49sec	job_201202211018_0044

结论：对于大量小文件Job，开启JVM重用减少50%运行时间

二、Map压缩对Job影响（开启JVM重用）

2.1大量小文件情况

文件数	文件大小	压缩Map输出	耗时	Jobid
4815	7.54 GB	gz	38mins, 38sec	job_201202211018_0034
—	27mins, 26sec	job_201202211018_0031
lzo	27mins, 17sec	job_201202211018_0036

2.2每个文件140MB情况：

文件数	文件大小	压缩Map输出	耗时	Jobid
48（合并小文件）	7.54 GB	gz	29mins, 37sec	job_201202211018_0039
—	24mins, 32sec	job_201202211018_0042
lzo	19mins, 18sec	job_201202211018_0040

结论：

对于大量小文件Job，使用lzo压缩可以比gz压缩减少28%运行时间。
平均140MB输入文件的 Job比大量小文件Job减少30%的时间（jvm重用、map输出lzo）

三、参数mapred.reduce.parallel.copies

任务时间	mapred.reduce.parallel.copies
54mins, 21sec	5（默认值）
45mins, 30sec	20

结论：通过配置参数mapred.reduce.parallel.copies可以提升16%性能

四、总结

优化项	优化方法	可以减少Job时间
Jvm重用	开启jvm重用	50%
mapred.reduce.parallel.copies	默认值为5，优化值20	16%
Map输出LZO格式	默认输出为gz，修改为lzo	28%
合并小文件	合并小文件	30%

--本文来自heipark iteye博客

猜你喜欢

转载自heipark.iteye.com/blog/1423784

我的一次Hadoop小文件Job优化预研报告

Hadoop小文件优化

一次job的耗时优化经历

hadoop 小文件过多优化

Hadoop：小文件优化方法

hadoop 预研（一） hdfs体系

记录一次生产环境hadoop集群优化以及pid文件缺失处理

Hadoop小文件合并

Hadoop合并小文件

Hadoop小文件处理

hadoop小文件存档

Hadoop 小文件处理

Hadoop 小文件

Hadoop 中的小文件

Hadoop：小文件存档

Hadoop-Mapreduce数据倾斜与优化(小文件合并)

记一次job不跑的问题

一次spark sql 优化的经历： SparkException: Job aborted / spark.yarn.executor.memoryOverhead

记一次优化我的个人博客

【大数据优化】（一）HDFS 上小文件优化

hadoop合并小文件的一些说说

Hadoop小文件存储方案 Hadoop小文件存储方案

hadoop_hadoop的一次读取

Hadoop小文件存储方案

Hadoop Archives对小文件的处理

Hadoop、Spark处理小文件

hadoop archive 处理小文件

hadoop查看小文件的方式

记一次大文件导入优化

【原创】答《读研or工作？对计算机类专业学习的看法》---如果再来一次，我不会读研！

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)