Spark基础 | RDD编程

其他 2018-05-08 12:32:58 阅读次数: 5

Spark对数据的核心抽象——弹性分布式数据集（Resilient Distributed Dataset,简称RDD）
在Spark中，对数据的所有操作无外乎创建RDD、转化已有RDD以及调用RDD操作进行求值

1 RDD基础

Spark中的RDD就是一个不可变的分布式对象集合

每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。

RDD支持两种类型的操作：
转化操作（transformation）和行动操作（action）

转化操作和行动操作的区别在于Spark计算RDD的方式不同。虽然你可以在任何时候定义新的RDD，但Spark只会惰性计算这些RDD。它们只有第一次在一个行动操作中用到时，才会真正计算

默认情况下，SparkRDD会在你每次对它们进行行动操作时重新计算。
默认不进行持久化对于大规模数据集是很有意义的：如果不会重用该RDD，我们就没有必要浪费存储空间，Spark可以直接遍历一遍数据然后计算结果。

2 创建RDD

两种方式：

读取外部数据集
val lines = sc.textFile(“./README.md”)
在驱动器程序中对一个集合进行并行化
val lines = sc.parallelize(list(“pandas”, “i like it”))

3 RDD操作

转化操作是返回一个新的RDD的操作，比如map() filter()

行动操作是向驱动器程序返回结果或把结果写入外部系统的操作，会触发实际计算，比如count() first()

4 向Spark传递函数

python 可以使用 lambda 表达式

scala 可以把定义的内联函数、方法的引用或静态方法传递给spark
所传递的函数及其引用的数据需要是可序列化的
如果Scala中出现NotSerializableException,通常问题就在于我们传递了一个不可序列化的类中的函数或字段

Java 函数需要作为实现Spark的org.apache.apark.api.java.function包中的任一函数接口的对象来传递。根据不同的返回类型，定义了一些不同的接口。

猜你喜欢

转载自blog.csdn.net/jh_zhai/article/details/79966433

Spark基础 | RDD编程

Spark基础-RDD编程

Spark编程基础_RDD初级编程

RDD编程基础-RDD操作

spark学习笔记[一] —— RDD编程基础

Spark RDD编程基础（Scala版）

Spark学习笔记（二）：RDD编程基础

SPARK RDD编程指南

Spark四 RDD编程

（二）Spark RDD编程

Spark的RDD编程指南

spark RDD编程

Spark-RDD编程

Spark RDD编程(2)

RDD编程--与Spark的链接

Spark编程基础3RDD编程、Spark SQL

spark RDD官网RDD编程指南

Spark（三）Spark RDD编程

Spark Core:RDD编程Transformation

Spark Core:RDD编程Action

3.10 Spark RDD编程案例

3.9 Spark 键值对RDD编程

RDD编程基础学习笔记1_Spark优雅的wordCount

Spark之RDD基础

Spark RDD基础操作

spark基础-rdd特性

spark基础--rdd的生成

Spark基础和RDD

Spark基础学习——RDD

spark编程基本（二）-- RDD编程

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)