1.5.1.1 Spark-RDD

其他 2020-04-23 17:45:33 阅读次数: 0

总目录：https://blog.csdn.net/qq_41106844/article/details/105553392

Hadoop - 子目录：https://blog.csdn.net/qq_41106844/article/details/105553369

什么是RDD

在MapReduce中，map会对数据进行切片操作，但是整个过程中充满了序列化，反序列化操作，这回造成大量的磁盘IO占用。
而Spark使用了一种将数据保存在内存中的读写方式，这就大大加快了处理流程，但是大块的数据终究没有小块的消化的快，所以spark也有一个自己的切分数据的操作--RDD。
一个RDD就是一个分布式对象的集合，本质上是一个只读的分区记录的集合。他是一种高度受限的共享内存模型。
他一旦生成，就无法修改，但是可以在转换时发生修改。（将RDD转换成新的RDD）

分布式并行

RDD为什么可以加快运行速度，是因为他把数据分散的存储在了不同的节点上。

RDD的操作类型

RDD有两种操作类型--动作类型操作，转换类型操作。
这两种都是粗粒度的操作，一次作用于一个RDD全集。

粗粒度操作

因为他们是粗粒度操作，所以他不能对数据中一些细微的改变进行操控，这就导致了spark不能进行爬虫操作。

转换操作

RDD典型的执行过程

执行过程

但是这样，如果频繁的对RDD进行读写，也会间接导致RDD执行效率降低，这就引入的了RDD一个关键的机制--惰性机制。

惰性机制

惰性机制是在转换类型过程中，RDD只记录轨迹，不会真正对RDD进行操作，在转换类型过程结束后的动作类型过程中才会发生修改或计算。

流程

我们前面会进行转换，最后才进行动作。

除了惰性机制，还有一个重要的机制--管道化。

管道化

在操作1和操作2中，数据不会写入磁盘，而是直接在内存中完成输入输出。

总结：

高强的容错性

因为spark操作RDD是先记录操作再操作，如果在操作中发生了RDD丢失可以通过寻亲来找到这个RDD的父亲，然后按照记录从新走一遍。

避免不必要的序列化和反序列化

因为RDD是从硬盘中读出，在动作执行完成后再写入磁盘。

RDD的依赖关系

RDD的运行过程为什么要拆分成转换环节和动作环节呢，他拆分的依据是什么，这就是我们RDD的依赖关系。
RDD的依赖关系分为两种，一种叫宽依赖，一种叫窄依赖。

依赖种类

RDD的宽依赖，识别宽依赖很简单，因为宽依赖中有shuffle操作。

所以，发生了shuffle操作的就是宽依赖。

识别方法

RDD阶段划分

为什么需要划分阶段呢？

为什么？

我们先了解一下fork/join机制。

fork单词含义是叉子，他的操作过程也和叉子一样，一个RDD转换成一个新的RDD出来，里面的分区也会转换成相对应的分区。

fork机制

这样出来的效果就好像一把叉子的几个叉，里面分区的转换是并行执行，也就是窄依赖。

在所有的转换操作结束后，我们就需要把所有的RDD汇总起来，这时就不是并行执行而是交叉执行了。

示意图

我们可以看这张图，join过程是多个分区合并成了一个分区，发生了shuffle操作，所以这个过程是宽依赖。

我们来举一个实例：
现在我们有两个班要从北京前往厦门，因为人数众多，分成了男女两队前往，其中男生由班长带头前往，女生由组织委员带领，他们从北京飞到上海中转，在这个过程中，在飞机上的过程是fork，在上海机场汇合的过程是join。

示意图

按照正常情况，我们从北京飞到厦门一共花了5个小时，但是在spark的世界中，我们花了6个小时。因为他们必须在上海和厦门同时完成集结。
这样是可以进行一次优化的，我们没必要非要在上海集结一次。

优化

我们可以把上海集结看做是存磁盘的操作，我们没必要进行这一下。

第一种运输方式就是窄依赖，虽然发生了暂存，但是分区没有发生变化（依旧是男生一组，女生一组），这样就可以进行优化。

窄依赖

而什么时候必须要进行暂存呢，就是下面这种情况，到达上海后，两个班不在分男女，而是按照班级编制飞往厦门，这时的分区发生了改变，就必须暂存一下。

宽依赖

反向解析

寒暄_HX

发布了242 篇原创文章 · 获赞 60 · 访问量 2191

私信关注

猜你喜欢

转载自blog.csdn.net/qq_41106844/article/details/105553359

1.5.1.1 Spark-RDD

Spark-RDD的特点

spark-RDD

Spark-RDD算子

Spark-RDD编程

SPARK-RDD 详解

Spark-RDD懒加载

spark-RDD源码分析

SPARK-RDD持久化

Spark-RDD常用算子

Spark-RDD高级算子

Spark-RDD特点及RDD算子

spark-RDD vs DataFrame vs DataSet

spark-RDD写入数据库

Spark-RDD之Partition源码分析

深入理解spark－rdd详解

Spark-RDD、Dataset、DataFrame互相转换

Spark-RDD 模型以及运行原理

Python Spark-RDD 常用用法

黑哥讲解spark-RDD编程

Spark-RDD编程之持久化操作

Spark-RDD编程之常见转换操作

Spark-RDD编程之常见执行操作

spark-RDD(弹性分布式数据集)

Spark-RDD核心抽象（第二天）

大数据开发-Spark-RDD的持久化和缓存

Spark-RDD论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster 》有感

Spark RDD

[Spark]-RDD

Spark | RDD

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)