Spark一 Spark概念和特征

Spark是基于内存处理大规模数据的通用快速计算引擎

特征:

1) 快速:速度远超Hadoop计算速度

2) 易使用:提供Java,Python,Scala,SQL等API

3) 通用性:支持交互式查询,流处理,批处理,机器学习算法和图形处理

4) 到处运行:Standalone, Hadoop,Cassandra等数据工具配合使用



Spark Core

1) 实现基本功能,任务调度,内存管理,错误恢复,与存储系统交互

2) 包含RDD的API定义,RDD(resilient distributed dataset)是分布在多个计算机节点上可以并行操作的元素集合,是Spark的主要编程抽象


Spark SQL

1) 操作结构化数据的程序包

2) 通过Spark SQL,可以使用SQL或Hive查询数据

3) 支持多种数据源,Hive,JSON,parquet

4) 支持SQL与RDD编程相结合


Spark Streaming

1) Spark Streaming是Spark提供的对实时数据进行流式计算的组件

2) 提供操作数据流的API,与Spark Core中的RDD API对应

3) 支持容错性,吞吐量,可伸缩性


MLlib

提供常见的机器学习功能的程序库


GraphX

操作图的程序库,可以进行并行的图计算


集群管理器

支持各种集群管理器,包括Hadoop Yarn,Apache Mesos,以及自带的简易调度器,独立调度器


用户

数据科学家和工程师

用途

数据科学任务和数据处理应用

猜你喜欢

转载自blog.csdn.net/weixin_42129080/article/details/80880584
今日推荐