三、spark简介 - 代码天地

三、spark简介

其他 2018-12-01 01:14:38 阅读次数: 0

一、简介

spark的官网：http://spark.apache.org/

spark解决了什么问题？

我们都知道hadoop，hadoop以一个非常容易使用的编程模型解决了大数据的两大难题：

1）分布式存储hdfs；

2）分布式计算mapReduce；

但是hadoop也存在着一些问题，最主要的缺陷在于它的延迟比较严重，因为hadoop的mapReduce总是需要进行大量的I/O，即使是中间输出结果也需要通过I/O来保存到HDFS中并再次读取。如果是在大规模迭代的情况下hadoop的效率就更不忍直视了。

而spark的诞生弥补了mapreduce的问题，并迅速成为了Apache的顶级项目。

由于spark是基于内存计算的，极大地减少了计算过程的I/O操作，在大规模的迭代计算中它的计算速度是hadoop的100多倍。

spark的计算速度非常快，同时它支持scala、Python、Java以及R四种语言来编写spark应用，更加的易于使用。

spark核心组件

如图所示，spark主要包含了五块内容，在spark core的基础之上构建了4大组件

1、spark SQL：可以使用SQL来操作数据

文档地址：http://spark.apache.org/docs/latest/sql-programming-guide.html

2、spark stream：做流式计算的组件

文档地址：http://spark.apache.org/docs/latest/streaming-programming-guide.html

3、MLlib：spark用于数据挖掘的算法库

文档地址：http://spark.apache.org/docs/latest/ml-guide.html

4、graphx：用于图计算的算法库

文档地址：http://spark.apache.org/docs/latest/graphx-programming-guide.html

猜你喜欢

转载自www.cnblogs.com/lay2017/p/10047910.html

三、spark简介

Spark三 Spark运行核心机制简介

Spark简介

spark 简介

【Spark】简介

【SPARK】Spark Streaming简介

Spark、Python spark、Hadoop简介

Spark-01 spark简介

Spark 系列（一）—— Spark 简介

Spark 系列（一）—— Spark简介

Spark简介及RDD说明

Apache Spark 入门简介

Spark Streaming简介

Spark 简介与安装部署

Spark-SQL简介

Spark 资源池简介

1.spark简介

spark简介（一）

spark--基础简介

【Spark】快速简介

Spark介绍（一）简介

Spark Streaming简介及原理

Spark RDD简介

Spark sql理论简介

Spark学习之简介

Spark MLlib简介

Spark简介及安装

Apache Spark 简介

Spark基础简介

Spark SQL 架构简介

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)