内存管理
MemoryManage
管理在Jvm内部的Spark整体的内存使用,按任务划分为存储内存(StorageMemory)和执行内存(ExecutionMemory)
- Storage
缓存使用和数据传输(广播) - Execution
计算所使用的内存,如计算 Joins,shuffle,sorts等
- StaticMemoryManager
Spark 1.6以前使用静态给Spark分区,阻止存储内存和执行内存互相借用内存
- UnifiedMemoryManage
Spark 1.6之后推出了联合内存概念,主要就是存储和执行内存空间可以动态移动,
Unified: 所谓统一,就是Storage和Execution可以在适当时候借用对方的memory.注意Execution Memory 比 Storage Memory有更大优先级.
当execution 内存不足的时候,可以向storage借用空间.
借用方式有两种:
第一: Storage向Execution借了空间,当Storage缓存数据很多的时候,当Execution需要的时候可以强制拿回来
第二: Execution内存不足50%的时候,Storage 会随时给借内存给Execution
- 动态内存调用图例
- 修改默认内存占比
spark.memory.storageFraction
- Spark 2.1默认是UnifiedMemoryManagement
spark.memory.userLegacyMode 为true可以修改为Static内存管理
总结
内存使用,结合实际场景选择
对于计算逻辑比较复杂的场景,使用新的内存管理更好
对于计算业务需要跟多的缓存,使用StaticMemoryManage更好
参考: https://blog.csdn.net/qq_16038125/article/details/80359414#commentBox