Map/Reduce Task JVM 堆大小设置优化 - 代码天地

Map/Reduce Task JVM 堆大小设置优化

企业开发 2018-05-13 00:28:35 阅读次数: 0

前一阵子发现用户提交的hive query和hadoop job会导致集群的load非常高，经查看配置，发现很多用户擅自将mapred.child.java.opts设置的非常大，比如-Xmx4096m(我们默认设置是-Xmx1024m), 导致了tasktracker上内存资源耗尽，进而开始不断swap磁盘上数据，load飙升
TaskTracker在spawn一个map/reduce task jvm的时候，会根据用户JobConf里面的值设定jvm的参数，然后写入一个taskjvm.sh文件中，然后调用linux命令"bin/bash -c taskjvm.sh"来执行task，
mapred.child.java.opts就是设定jvm的参数之一，在新版本中已经标注Deprecateded，取而代之的是区分Map task和Reduce task的jvm opts，mapred.map.child.java.opts和mapred.reduce.child.java.opts(默认值为-Xmx200m)
当用户在不设该值情况下，会以最大1G jvm heap size启动task，有可能导致OutOfMemory，所以最简单的做法就是设大参数，并且由于这个值不是final，所以用户在自己的mapred-site.xml中可以覆盖默认值。但是如果很多用户都无限度设置的话，high load问题就来了。
其实在构造JVM Args的过程中，是有另外一个admin参数可以覆盖用户端设置的mapreduce.admin.map.child.java.opts, mapreduce.admin.reduce.child.java.opts
经测试，如果相同的jvm arg如果写在后面，比如"-Xmx4000m -Xmx1000m"，后面的会覆盖前面的，“-Xmx1000m”会最终生效，通过这种方式，我们就可以有限度的控制heap size了
最终在mapred-site.xml中加上

<property>  
      <name>mapreduce.admin.map.child.java.opts</name>  
      <value>-Xmx1024m</value>  
</property>  
<property>  
      <name>mapreduce.admin.reduce.child.java.opts</name>  
      <value>-Xmx1536m</value>  
</property>

构造child java opts的call stack:

不过这种方式只是限定了task的jvm heap最大限制，如果用户hive query优化不够好还是会抛出OOM，其实是把问题抛给了用户，
接下来还要和用户一起看下到底是哪些query会占用如此大memory，看看有没有进一步优化的空间

转自：http://tech.ddvip.com/2013-10/1381314271203741.html

猜你喜欢

转载自tangjunliang.iteye.com/blog/2030511

Map/Reduce Task JVM 堆大小设置优化

Map Task 与 Reduce Task

Hadoop Map&Reduce个数优化设置以及JVM重用

MAP/REDUCE TASK作业状态转移图

Hive 高级优化（并行 JVM重用 Reduce数目推测文件 Map数目）

es设置JVM堆大小

13.107.最全的Hive 优化方案汇总：临时参数的作用域、切分大文件、合并小文件、设置 Map 和 Reduce 的内存大小、设置 Map 和 Reduce 的堆大小设置等

(Eclipse)设置JVM参数，查看堆大小

设置JVM参数，查看堆大小

jvm 堆内存栈内存大小设置

Hadoop深入学习：Map Task和Reduce Task的执行流程

设置JVM参数，查看堆大小设置JVM参数，查看堆大小

Yarn中的Map和Reduce的优化

hive优化，控制map、reduce数量

jvm默认的堆大小

MR-on-yarn&切片数和map task/reduce task关系&wordcount流程理解&shuffle

设置hadoop Job允许map task失败的比例

jvm堆内存的设置

JVM设置空间大小

jvm栈大小设置

JVM内存设置大小

map和reduce 个数的设定（Hive优化）经典

大数据框架MapReduce的map与reduce任务数合理设置

关于Map和Reduce最大的并发数设置

hadoop中map和reduce的数量设置问题

MapReduce中计算Wordcount中map端及reduce端的设置

map/reduce

map reduce

map()与reduce()

JVM 堆内存设置原理

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)