spark笔记2之spark粗略运行流程

编程语言 2018-11-22 22:06:55 阅读次数: 0

目录

一、Spark粗略的运行流程

二、代码流程

1、创建一个SparkConf

2、创建一个上下文对象SparkContext

3、创建一个RDD

4、使用transformations类算子进行各种各样的数据转换

5、使用Action类算子触发执行

6、关闭上下文对象

分布式文件系统（File system）--加载RDD

transformations延迟执行--针对RDD的操作

Action触发执行

一、Spark粗略的运行流程

如下图：

Driver：进程；Worker：进程；RAM：运行内存；Input Data：要计算的数据

每个task处理128M的数据量

二、代码流程

1、创建一个SparkConf

val sparkConf = new SparkConf().setAppName("DirectKafkaWordCount").setMaster("local[2]")

1、设置Application名称（在web ui显示）

2、可设置Application运行所需要的资源情况

3、设置Spark的运行模式 local standalone yarn mesos

2、创建一个上下文对象SparkContext

val sc = new SparkContext(conf)

创建SparkContext需要用到spark的配置对象

SparkContext是通往集群的唯一通道

3、创建一个RDD

4、使用transformations类算子进行各种各样的数据转换

5、使用Action类算子触发执行

6、关闭上下文对象

分布式文件系统（File system）--加载RDD

transformations延迟执行--针对RDD的操作

——返回值是RDD

——transformations是某一类算子（函数）

Action触发执行

——action也是一类算子（函数）

——返回值都不是RDD类型

如果你的算子的返回值是RDD类型，那么这个算子就是transformations算子，否则就是Action类算子

猜你喜欢

转载自blog.csdn.net/xiaoliuyiting/article/details/84326041

spark笔记2之spark粗略运行流程

Spark之CacheManager运行流程

spark笔记之Spark运行架构

深入理解Spark之Spark的整体运行流程

spark架构原理之Driver,Master,Worker,Executor,Task执行流程！粗略的见解！

Spark集群的运行流程

spark--运行流程

Spark 的运行流程

Spark应用运行流程

spark的运行流程

Spark运行流程

Spark运行基本流程

Spark作业运行流程

Spark作业运行流程

Spark笔记整理2——Spark架构及执行流程

spark之spark本地运行

Spark学习之路（七）Spark 运行流程

Spark面试：Spark on yarn 运行流程

Spark 学习（七） Spark的运行流程

Spark PI example剖析Spark的运行流程

（2）spark运行模式

spark笔记之Spark SQL

Spark的架构与基本运行流程

spark 2.2.0学习笔记2之LocalWordCountDemo

spark封神之路(2)-spark运行模式

Spark之Spark内核工作流程

Spark学习笔记：二、Spark运行架构

Spark运行模式之Spark on Yarn

[笔记迁移][Spark开发语言][Scala][2]流程控制

spark学习笔记2

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)