Shuffle调优四:调节reduce端拉取数据等待间隔

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/m0_37294838/article/details/91410108

Spark Shuffle过程中,reduce task拉取属于自己的数据时,如果因为网络异常等原因导致失败会自动进行重试,在一次失败后,会等待一定的时间间隔再进行重试,可以通过加大间隔时长(比如60s),以增加shuffle操作的稳定性。

reduce端拉取数据等待间隔可以通过spark.shuffle.io.retryWait参数进行设置,默认值为5s,该参数的设置方法

val conf = new SparkConf().set("spark.shuffle.io.retryWait", "60s")

猜你喜欢

转载自blog.csdn.net/m0_37294838/article/details/91410108
今日推荐