Spark深入解析（五）：SparkCore之RDD编程模型 - 代码天地

Spark深入解析（五）：SparkCore之RDD编程模型

其他 2020-04-24 00:08:04 阅读次数: 0

学习目标

编程模型
RDD的创建

编程模型

在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count, collect等)，或者是向存储系统保存数据(saveAsTextFile等)。在Spark中，只有遇到action，才会执行RDD的计算(即延迟计算)，这样在运行时可以通过管道的方式传输多个转换。
要使用Spark，开发者需要编写一个Driver程序，它被提交到集群以调度运行Worker，如下图所示。Driver中定义了一个或多个RDD，并调用RDD上的action，Worker则执行RDD分区计算任务。

在这里插入图片描述

RDD的创建

在Spark中创建RDD的创建方式可以分为三种：

从集合中创建RDD；
从外部存储创建RDD；
从其他RDD创建。

1.由一个已经存在的Scala集合创建
val rdd3 = sc.parallelize(Array(1,2,3,4,5,6,7,8))
或者
val rdd4 = sc.makeRDD(List(1,2,3,4,5,6,7,8))
makeRDD方法底层调用了parallelize方法
在这里插入图片描述

2.由外部存储系统的数据集创建，包括本地的文件系统，还有所有Hadoop支持的数据集，比如HDFS、Cassandra、HBase等
val rdd1 = sc.textFile(“hdfs://node01:8020/wordcount/input/words.txt”)

3.通过已有的RDD经过算子转换生成新的RDD
val rdd2=rdd1.flatMap(_.split(" "))

老王的小知识

发布了74 篇原创文章 · 获赞 15 · 访问量 4318

私信关注

猜你喜欢

转载自blog.csdn.net/wzc8961661/article/details/105719143

Spark深入解析（五）：SparkCore之RDD编程模型

Spark深入解析（四）：SparkCore之RDD概述

SparkCore之RDD编程模型与RDD的创建

Spark学习之路【SparkCore入门解析 ②RDD编程】

Spark深入解析（六）：SparkCore之Spark代码编写WordCount

Spark之SparkCore:RDD-数据核心/API【执行过程、编程模型：创建、转换、输出、运行过程】

【Spark】SparkCore深入解析（一）

Spark深入解析（七）：SparkCore之IDEA编写WordCount

深入解析spark RDD

spark core之RDD编程（五）

Spark学习之路【SparkCore入门解析 ①RDD概念】

大数据计算引擎之Spark(2) SparkCore-RDD

Spark之SparkCore:RDD-数据核心/API【CheckPoint】

Spark之SparkCore:RDD-数据核心/API【缓存】

Spark之SparkCore:RDD-数据核心/API【算子】

Spark深入解析（十一）：RDD的转换之Action动作算子

SparkCore之RDD详解

SparkCore之RDD的缓存

spark编程模型二之RDD的编程接口

SparkCore之RDD编程进阶之累加器

Spark学习---2、SparkCore（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））

Spark之【RDD编程】详细讲解(No1)——《编程模型的理解与RDD的创建》

spark记录（9）SparkCore的调优之Spark内存模型

SparkCore之RDD依赖关系

SparkCore之RDD详细概述

SparkCore之RDD的Checkpoint详解

SparkCore之RDD缓存与RDD CheckPoint

Spark系列(六)SparkCore--RDD简介

【Spark篇】sparkCore初识-RDD相关

Spark之深入理解RDD结构

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)