6. spark-submit

将 wordcount.py 文件使用 spark-submit 来执行

1. 本地执行

2. yarn执行

wordcount.py 文件见下一节【 wordcount(pycharm)】

spark-submit 常用参数:

--master yarn-client spark运行环境

--driver-memory 1G driver程序使用的内存

--executor-memory 6G Executor线程的内存

--executor-cores 4 每个Executor线程的CPU core数量

关于master url的指定方法:

扫描二维码关注公众号,回复: 5520770 查看本文章

local 本地worker线程中运行spark,完全没有并行

local[K] 在本地work线程中启动K个线程运行spark

local[*] 启动与本地work机器的core个数想通的线程数来运行spark

yarn 使用yarn的cluster或者yarn的client模式连接。

--master yarn-client 相当于--master yarn --deploy-mode client

spark://HOST:PORT 连接指定的standalone集群的master,默认7077端口

测试文本:data.txt

1. local 执行 spark-submit

可以直接:spark-submit wordcount.py

多加几个参数:spark-submit --master local[*] --driver-memory 2g wordcount.py

结果:

2. yarn 执行

spark-submit --master yarn-client wordcount.py

结果:

hadoop fs -ls -R 递归查看目录,spark还把结果分成了2份。

删除hdfs目录:hadoop fs -rm -R /test/output

yarn web:192.168.80.139:8088

猜你喜欢

转载自blog.csdn.net/weixin_42490528/article/details/86034206
今日推荐