spark-RDD(弹性分布式数据集) - 代码天地

spark-RDD(弹性分布式数据集)

其他 2018-07-21 03:35:26 阅读次数: 0

Spark中的RDD是一个不可变的分布式对象集合，每个RDD都会被分为多个分区，这些分区运行在集群中的不同节点上。

创建RDD两种办法:

常用(读取外部数据集) :

testFile

把程序中一个已有的集合传给parallelize，不常用，占内存:

sc.parallelize(List(“a”,”c”))

RDD的持久化也称为缓存(persist):

SparkRDD是惰性求值的，而有时我们希望多次使用同一个RDD，如果简单的对RDD调用行动操作，Spark会重算RDD以及它的所有依赖。这样的消耗格外的大。

例如下面的例子:

我使用了2次Action算子(分别是计算数量。将数据输出成字符串的格式并且以逗号进行分割)这样等于是计算了2次RDD，消耗大。

val result = input.map(x=>x*x)

println(result.count())

println(result.collect().makString(,))

为了避免多次计算同一个RDD，可以让Spark对数据进行持久化。为了避免一个有持久化节点数据的设备发生故障，我们可以将数据备份到多个节点上(存储级别的末尾加上_2)

持久化存储的级别:

MEMORY_ONLY	将数据缓存到内存中。计算超快
MEMORY_ONLY_SER	将数据序列化后保存到内存中，可减少内存占用率。总体也是很快的
MEMORY_AND_DISK	内存占不下，则溢写到硬盘中。计算快
MEMORY_AND_DISK_SER	在内存中存放序列化后的数据，内存占不下，则溢写到硬盘中。计算较快
存储级别末尾_2备份两份

因此可以将上面的代码改成:

Import org.apache.spark.storage.StorageLevel

Val result = input.map(x=>x*x)

Result.persist(StorageLevel.MEMORY_ONLY_2)

Println(result.count())

Println(result.collect().makString(,)

这里是在Action算子之前对数据进行了持久化，此时当我再次调用Action算子的时候就不会重复计算RDD了

手动把持久化的RDD从缓存中移除

unpersist

猜你喜欢

转载自blog.csdn.net/qq_33982605/article/details/79831565

spark-RDD(弹性分布式数据集)

Spark RDD：弹性分布式数据集

Spark学习之弹性分布式数据集RDD

【Spark】弹性分布式数据集RDD及其操作

Spark RDD基础实战(弹性分布式数据集)

Spark之RDD(弹性分布式数据集) 详解

Spark RDD弹性分布式数据集

弹性分布式数据集(RDD)

RDD（弹性分布式数据集）

【Spark】Spark核心之弹性分布式数据集RDD

SparkRDD之弹性分布式数据集RDD

RDD（弹性分布式数据集）的分析

RDD弹性分布式数据集的基本操作

[2] - 弹性分布式数据集RDD

深入理解RDD弹性分布式数据集

RDD---弹性分布式数据集

Spark通过读文件构建DataFrame数据模型(java版)--RDD弹性分布式数据集

spark分布式数据集RDD 的创建

Spark2.X 分布式弹性数据集

spark弹性分布式数据集基本操作

spark三大弹性分布式数据集比较

大数据技术学习：弹性分布式数据集RDD

好程序员大数据学习路线分享弹性分布式数据集RDD

【PySpark学习笔记一】弹性分布式数据集RDD

好程序员分享干货弹性分布式数据集RDD

第1章 RDD概念弹性分布式数据集

大数据：pyspark模块，spark core的RDD，RDD是弹性分布式数据抽象对象，RDD五大特性，wordcount案例展示RDD

弹性式分布数据集RDD——Pyspark基础（二）

新闻实时分析系统 Spark2.X分布式弹性数据集

分布式弹性数据集助力spark，提升运行效率

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)