http://blog.csdn.net/sa14023053/article/details/51986549
https://my.oschina.net/u/140462/blog/519409
–master 指定spark运行模式
Local[N] | 本地模式。使用N个线程 |
Local cluster[worker,core,Memory] | 伪分布式模式,可以配置所需要启动的虚拟工作节点数量,以及每个工作节点所管理的CPU的数量和内存大小 |
Spark://hostname:port | Standalone 模式、需要部署Spark到相关节点,URL 为Spark Master 主机地址和端口(Spark://master:7077) |
Mesos://hostname:port | Mesos 模式, 需要部署Spark 和Mesos到相关节点,URL为Mesos主机地址和端口 |
YARN standalone/YARN cluster | YARN 模式一,主程序逻辑和任务都运行在YARN集群中 |
YARN client | YARN 模式二,主程序逻辑运行在本地,具体任务运行在YARN集群 |
执行时需要传入的参数说明
Usage: spark-submit [options] <app jar | python file> [app options]
参数名称 |
含义 |
--master MASTER_URL |
可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local |
--deploy-mode DEPLOY_MODE |
Driver程序运行的地方,client或者cluster |
--class CLASS_NAME |
主类名称,含包名 |
--name NAME |
Application名称 |
--jars JARS |
Driver依赖的第三方jar包 |
--py-files PY_FILES |
用逗号隔开的放置在Python应用程序PYTHONPATH上的.zip, .egg, .py文件列表 |
--files FILES |
用逗号隔开的要放置在每个executor工作目录的文件列表 |
--properties-file FILE |
设置应用程序属性的文件路径,默认是conf/spark-defaults.conf |
--driver-memory MEM |
Driver程序使用内存大小 |
--driver-java-options |
|
--driver-library-path |
Driver程序的库路径 |
--driver-class-path |
Driver程序的类路径 |
--executor-memory MEM |
executor内存大小,默认1G |
--driver-cores NUM |
Driver程序的使用CPU个数,仅限于Spark Alone模式 |
--supervise |
失败后是否重启Driver,仅限于Spark Alone模式 |
--total-executor-cores NUM |
executor使用的总核数,仅限于Spark Alone、Spark on Mesos模式 |
--executor-cores NUM |
每个executor使用的内核数,默认为1,仅限于Spark on Yarn模式 |
--queue QUEUE_NAME |
提交应用程序给哪个YARN的队列,默认是default队列,仅限于Spark on Yarn模式 |
--num-executors NUM |
启动的executor数量,默认是2个,仅限于Spark on Yarn模式 |
--archives ARCHIVES |
仅限于Spark on Yarn模式 |