Spark任务怎么申请资源

参考：spark partition 理解 / coalesce 与 repartition的区别 https://www.cnblogs.com/jiangxiaoxian/p/9539760.html

spark中是以vcore级别调度task的

如果读取的是hdfs，那么有多少个block，就有多少个partition

分配的task（即vcore）的数量是num-executors * executor-cores，同时运行executor数不超过spark.dynamicAllocation.maxExecutors，同时运行task数（即并行度）不超过spark.default.parallelism

这些partition依次给这些task并行处理。如果partition过多，调度时间过多；如果partition过少，有task未被利用。

coalesce(n)：没有shuffle操作，用于减少partition数：并行task数不会超过n，无法实现增加partition数。

repartition(n)：有shuffle操作，适合用于增加partition数：上游各个partition依次给所有待命的task处理，按某个partitioner规则写入下游n个partition。

num-executors：同时运行的executor数。

executor-cores：一个executor上的core数，表示一次能同时运行的task数。一个Spark应用最多可以同时运行的task数为num-executors * executor-cores。

driver-memory：driver的内存大小。

executor-memory：executor内存大小，视任务处理的数据量大小而定。

确定task数：总共需要处理的partition数近似于输入数据partition数最大值，并行度 = num-executors * executor-cores

估算job运行时间：每个task运行partition数 = 总共partition数 / 并行度；每个task运行partition数不能太多，否则job速度慢

确定executor-cores：一般2-4个，取决于集群情况

确定driver-memory：装下broadcast数据，一般不多于2GB

估算executor-memory：必须装下每个partition大小 * executor-cores + broadcast数据大小；一般不多于10GB，取决于集群情况

估算num-executors：并行度 / executor-cores

设置spark.default.parallelism，spark.dynamicAllocation.maxExecutors

使用序列化减少shuffle过程数据大小：spark.serializer=org.apache.spark.serializer.KryoSerializer

输出文件使用压缩：设置saveAsTextFile算子参数

Spark 1.6 之后默认使用统一内存管理