Spark调优:故障解决(troubleshooting)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_38750084/article/details/83187436

Spark故障解决(troubleshooting)

shuffle file cannot find:磁盘小文件找不到。

connection timeout ----shuffle file cannot find

提高建立连接的超时时间,或者降低gc,降低gc了那么spark不能堆外提供服务的时间就少了,那么超时的可能就会降低。

fetch data fail  ---- shuffle file cannot find

提高拉取数据的重试次数以及间隔时间。

OOM/executor lost ---- shuffle file cannot find

提高堆外内存大小,提高堆内内存大小。

reduce OOM

BlockManager拉取的数据量大,reduce task处理的数据量小

解决方法:

降低每次拉取的数据量

提高shuffle聚合的内存比例

提高Executor的内存比例

序列化问题

Null值问题

val rdd = rdd.map{x=>{

x+”~”;

}}

rdd.foreach{x=>{

System.out.println(x.getName())

}}

猜你喜欢

转载自blog.csdn.net/weixin_38750084/article/details/83187436