版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011240016/article/details/84337831
两个要点:
- 快速通用的计算机系统集群,用于大规模数据处理
- 高层API可用Java,Scala,Python以及R
Spark上的库:
- Spark SQL: 数据库操作
- Spark Streaming: 流计算
- MLlib: 机器学习库
- GraphX: 图计算
- SparkR
Spark的语义抽象/概念
- RDD: Resilient Distributed Dataset,弹性分布式数据库
- DAG: 有向无环图
- SparkContext
- Transformations
- Actions
这些概念后面陆续展开。
大数据解决方案
包含多个重要组件:
-
硬件层:
- 存储
- 计算
- 网络
-
数据引擎:大脑
-
统计、计算算法
-
数据可视化(分析层)
Spark起源
2009年,Matei在进行博士研究时创立,基于内存的基本类型,可以为应用程序带来100倍的性能提升。用户可以将数据加载到集群内存用来反复查询,非常适用于大数据和机器学习。
Spark只是一个通用计算框架,利用Spark实现的应用才是其真正价值所在。
Spark的三个优点
- 易用,高层API剥离了对集群的关注,可以专注于计算本身
- 快,且支持交互式使用和复杂算法
- 通用,Spark是通用引擎,可以完成各种各样的计算
- SQL查询
- 文本处理
- 机器学习
学习Spark,只有一台电脑也是可以的。
学习目标:
- 搭建Spark集群
- 使用Spark Shell
- 编写Spark应用解决并行问题
END.
参考:
https://www.youtube.com/watch?v=TgiBvKcGL24&list=PLbk_EDDIZpfYHlJ_mnyWFgt1CeTPZXXTD