Spark概念理解

driver和executor的参数设置在yarn模式下才会起作用:
--driver-cores:Spark应用Driver的CPU核数,Driver主要完成任务的调度以及和executor和cluster manager进行协调。
--executor-cores:Spark应用每个Executor的CPU核数,各个 executor 使用的并发线程数目,也即每个 executor 最大可并发执行的 Task 数目。
--executor-memory:各个 executor 使用的最大内存,不可超过单机的最大可使用内存。
--num-executors:创建多少个 executor。

Spark性能调优之合理设置并行度:

并行度主要受--executor-cores与--num-executors的影响:总cpu core数量为executorCores * numExecutors,官方推荐task数量一般设置为总cpu core数量的2~3倍. 每个stage的task数量即rdd划分的partitions数量.
详见:https://www.cnblogs.com/jxhd1/p/6702218.html


Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系和Application,Driver,Job,Task,Stage理解:
详见:https://www.cnblogs.com/liuys635/p/11083338.html


SparkConf属性:
详见:http://doc.codingdict.com/spark/20/

猜你喜欢

转载自www.cnblogs.com/luckyboylch/p/12579375.html
今日推荐