spark 读取mongodb失败,报executor time out 和GC overhead limit exceeded 异常 - 代码天地

spark 读取mongodb失败,报executor time out 和GC overhead limit exceeded 异常

其他 2018-05-03 11:20:05 阅读次数: 6

代码：

import com.mongodb.spark.config.ReadConfig
import com.mongodb.spark.sql._
val config = sqlContext.sparkContext.getConf
.set("spark.mongodb.keep_alive_ms", "15000")
.set("spark.mongodb.input.uri", "mongodb://10.100.12.14:27017")
.set("spark.mongodb.input.database", "bi")
.set("spark.mongodb.input.collection", "userGroupMapping")
val readConfig = ReadConfig(config)
val objUserGroupMapping = sqlContext.read
.format("com.mongodb.spark.sql")
.mongo(readConfig)
objUserGroupMapping.printSchema()
val tbUserGroupMapping=objUserGroupMapping.toDF()
tbUserGroupMapping.registerTempTable("userGroupMapping")

select _id,c,g,n,rn,t,ut from userGroupMapping where ut>'2018-05-02' limit 100

使用上述的代码取userGroupMapping 集合过后的100条记录，出现了executor time out 和GC overhead limit exceeded 异常。一开始以为推测是task 从mongodb取的数据太大，导致spark executor内存不够，后来调研了一下spark mongodb connector 在取数据的时候是条件下发的，也就是先从mongodb过滤再取回spark 内存，这样的话就不会出现内存不够的情况。后来在网上调研后，有一种说法是说task 太多，导致task gc的时候争夺gc时间和内存资源（这个不是很清楚），根据这种说法，我把本来task core 从16个调成6个后再跑程序，居然不会报错了。至于具体原因还不是很清楚，先在这里记录一下。

猜你喜欢

转载自www.cnblogs.com/chengjunhao/p/8984466.html

spark 读取mongodb失败,报executor time out 和GC overhead limit exceeded 异常

Spark GC overhead limit exceeded

GC overhead limit exceeded : Spark

spark异常篇-OutOfMemory:GC overhead limit exceeded

Out of memory error : GC overhead limit exceeded

记OutOfMemory异常：GC overhead limit exceeded

GC overhead limit exceeded

Spark OOM：java heap space，OOM:GC overhead limit exceeded

eclipse GC overhead limit exceeded

OutOfMemoryError：GC overhead limit exceeded

GC overhead limit exceeded问题

studio 打包提示GC overhead limit exceeded 打包失败

POI 导出Excel GC overhead limit exceeded

How to fix GC overhead limit exceeded in Eclipse

eclipse错误GC overhead limit exceeded

myeclipse 出现GC overhead limit exceeded

android studio GC overhead limit exceeded

JVM报错GC overhead limit exceeded

GC overhead limit exceeded填坑心得

android JVM GC overhead limit exceeded

GC overhead limit exceeded 问题分析与解决

OutOfMemoryError系列（2）: GC overhead limit exceeded

IDEA报错：GC overhead limit exceeded？

IDEA GC overhead limit exceeded 解决

IDEA 编译项目GC overhead limit exceeded

Spark java.lang.outofmemoryerror gc overhead limit exceeded 与 spark OOM:java hea

java.lang.OutOfMemoryError：GC overhead limit exceeded java.lang.OutOfMemoryError：GC overhead limit exceeded

spark aggregateByKey 时 java.lang.OutOfMemoryError: GC overhead limit exceeded

异常 Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded

Java常见异常：java.lang.OutOfMemoryError: GC overhead limit exceeded

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)