大数据学习(09)--spark学习

目录

1.spark介绍

1.1 spark介绍

在这里插入图片描述
在这里插入图片描述

spark不仅仅是一个计算框架,而是一个大数据处理的平台,或者说生态。

1.2 scale介绍

在这里插入图片描述

1.3 spark和Hadoop比较

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

spark将运行的中间结果写入内存,而不是如MapReduce那样每次都写入磁盘,所以速度非常快,那么肯定就有疑问,内存相比于磁盘来说,那么小,如何解决大数据的中间结果的存储,spark是采用优先写内存,内存写满后,才往磁盘中写入。

2.spark生态系统

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.spark运行框架

3.1 基本概念

在这里插入图片描述

3.2 架构的设计

在这里插入图片描述
在这里插入图片描述

3.3 spark运行基本流程

在这里插入图片描述

3.4 spark运行原理

在这里插入图片描述

3.5 RDD运行原理

3.5.1 设计背景

在这里插入图片描述

3.5.2 RDD概念和特性

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5.3 RDD之间的依赖关系

在这里插入图片描述

3.5.4 stage的划分

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5.5 RDD的运行过程

在这里插入图片描述

4.spark SQL

4.1 shark的介绍

在这里插入图片描述

4.2 spark SQL的介绍

在这里插入图片描述
在这里插入图片描述

5.spark的部署和运行

5.1 三种部署方式

在这里插入图片描述

5.2 从Hadoop+Strom 架构转向spark架构

在这里插入图片描述
在这里插入图片描述

5.3 Hadoop 和spark的统一部署

在这里插入图片描述

6.spark编程实践

参考博客

6.1 spark安装

在这里插入图片描述
在这里插入图片描述

6.2 启动spark shell

在这里插入图片描述

6.3 spark RDD的操作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.4 spark应用程序

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/wangzi11111111/article/details/89175287