Spark学习---Spark概述

起因:

我们实验室是搞分布式计算的,所以我的目光就着落在了几个大数据框架上:Spark, Storm, Flink等等。从中挑了了一个比较好做的就是spark了,目前还是基础知识掌握阶段,下周可能会定题目,看老师想法。这几篇博客完全由主观撰写,根据自己的想法觉得怎么思考顺利怎么写,如果对您有一点点帮助那太好了,没有的话就权当自己练手。

首先说Google的三大马车:Mapreduce,GFS,Bigtable,为分布式科技的发展迈上了新的台阶。其中mapreduce就是一个为分布式服务的很好的处理思想,并应用到Hadoop中成为重要的分布式计算一环。由此加州大学伯克利分校的AMP研究室以mapreduce为出发点改进并创建了新一代大数据框架Spark,并于2013年成为Apache的顶级项目,一步一步走向成熟成为现在应用很广的处理框架。

与Hadoop相比,Spark的最大特点是基于内存运算并引入DAG(有向无环图)执行引擎。其中第一个是对Map reduce的重大改进,中间数据压缩保存到内存,运算时间会比磁盘低两个数量级。第二个是对RDD的建模,描述了RDD之间的依赖关系。

Spark生态系统是以Spark core为核心提供计算框架,Spark streaming实时处理数据流,进行高吞吐高容错的流式处理,可同时进行批处理和流处理,Spark SQL即席查询,MLlib的机器学习和GraphX的图像处理,而且Spark的适应性很强,能读取很多框架的原生数据(归功于RDD)。

所以正式因为Spark的速度快(虽然没有Storm他们快),容错性高,可拓展性强,迅速取代了上一代大数据框架Hadoop而成为新的大数据处理框架。

Spark应用Scala语言编程,其余的各个组成部分与实际应用以后再慢慢学习。

猜你喜欢

转载自blog.csdn.net/wannuoge4766/article/details/82724574