spark 配置

1->spark.storage.memoryFraction  默认内存40%运行task %60 存储

2->问题map|reduce数量大造成shuffle

      小文件数目多default: shuffle文件数目为

      spark.shuffle.consolidateFiles为true来合并中间文件数量

3-> 问题block not found 

•     解决调整spark.cleaner.ttl。Rdd 过期时间

4-> 问题单条记录消耗大 

      •解决使用mapPartition替换map

5->•问题reduce task数目不合适 

•    解决默认为8需根据实际情况进行倍。数量太大造成很多小任务增加启动任务的开销数目太少任务运行缓慢

猜你喜欢

转载自wangjin161.iteye.com/blog/2224970