1->spark.storage.memoryFraction 默认内存40%运行task %60 存储
2->问题map|reduce数量大造成shuffle
小文件数目多default: shuffle文件数目为
spark.shuffle.consolidateFiles为true来合并中间文件数量
3-> 问题block not found
• 解决调整spark.cleaner.ttl。Rdd 过期时间
4-> 问题单条记录消耗大
•解决使用mapPartition替换map
5->•问题reduce task数目不合适
• 解决默认为8需根据实际情况进行倍。数量太大造成很多小任务增加启动任务的开销数目太少任务运行缓慢