版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/d413122031/article/details/82631326
PySpark
集群模式
- Standalone Master/Slave 的主从模式
- Yarn 基于Yarn集群管理 由Yarn负责集群调度
- Mesos
- Kubernetes
Spark Core
- 他涵盖了Spark基础功能,包括任务分配、内存管理、故障恢复与整个系统相互作用。
他为分布式数据集 RDD 提供 API 接口
- 他涵盖了Spark基础功能,包括任务分配、内存管理、故障恢复与整个系统相互作用。
SparkSQL
- 提供结构化的数据加载与存储,让用户可以用类似SQL的语句对数据进行查询
SparkStreaming
- 用于处理流数据。可以自定义窗口大小计算时间范围内的数据
MLlib
- 为机器学习提供API接口
GraphX
- Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。