Spark学习(1) 概要

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/d413122031/article/details/82631326

PySpark

  • 集群模式

    • Standalone Master/Slave 的主从模式
    • Yarn 基于Yarn集群管理 由Yarn负责集群调度
    • Mesos
    • Kubernetes
  • Spark Core

    • 他涵盖了Spark基础功能,包括任务分配、内存管理、故障恢复与整个系统相互作用。
      他为分布式数据集 RDD 提供 API 接口
  • SparkSQL

    • 提供结构化的数据加载与存储,让用户可以用类似SQL的语句对数据进行查询
  • SparkStreaming

    • 用于处理流数据。可以自定义窗口大小计算时间范围内的数据
  • MLlib

    • 为机器学习提供API接口
  • GraphX

    • Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。

猜你喜欢

转载自blog.csdn.net/d413122031/article/details/82631326