Driver 和 Worker 是不是在一台机器里面?

不一定。
看模式:
client:
1.如果是client-windows:dirver在windows上执行
2.如果是client-linux: driver在spark-submit脚本

cluster:
1.如果是cluster:Master决定哪台空闲在哪台上跑
Master会让worker启动一个进程——Driver
Driver启动后会向Master请求很多资源
Master会根据需求让Worker启动多个Executor

spark代码层次:
shuffle 清洗 = map+reduce
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_39839745/article/details/86593865