spark的一些难以理解和一些冷门知识的解读（面试可能会问！！）（Unit1） - 代码天地

spark的一些难以理解和一些冷门知识的解读（面试可能会问！！）（Unit1）

其他 2018-08-07 02:16:17 阅读次数: 0

这篇文章是对于还没有入门和刚刚入门的spark小白提的，大佬可以给出意见，本人接受！！！

关于RDD部分，首先你要知道什么什么RDD

RDD字面意思就是弹性分布式数据集。。。。。。。（百度一下都是这种字眼很让人反感）

个人感觉应该要分开理解

1。弹性

1. RDD可以在内存和磁盘之间手动或自动切换（后续会仔细讲解）

2. RDD可以通过转换成其他的RDD，即血统（就是转换操作一些算子）

3. RDD可以存储任意类型的数据（不仅是文本数据还可以是音频视频等。。）

4.RDD持久化方式非常多种多样，而且RDD本身就很聪明

这就叫弹性就是什么数据都能玩，而且是想怎么玩就怎么玩！！！

2。分布式：

1.数据可以分散在好几个机器上

2.，一个RDD好几个分区

3数据集

1.初代RDD: 处于血统的顶层，存储的是任务所需的数据的分区信息，还有单个分区数据读取的方法，没有依赖的RDD，因为它就是依赖的开始。

2.子代RDD: 处于血统的下层，存储的东西就是初代RDD到底干了什么才会产生自己，还有就是初代RDD的引用

这就本人眼里的RDD它是看不见摸不到的！！！

什么是宽依赖什么是窄依赖

窄依赖：多对一或者一对一

宽依赖：一对多或者多对多

rdd在进行宽依赖的时候，spark会将中间结果物化到父分区的节点上，可以简化数据恢复的过程，这句话的意思你可以觉得一旦出现宽依赖spark会将一些dataset进行持久化以方便spark运行，这样的好处就是能够极小程度的降低磁盘IO

调度阶段个数等于宽依赖出现次数

对于失败的任务只要对应的父调度阶段信息可用，那么会到其他节点上继续执行，有时候作业执行缓慢系统会在其他节点上执行该任务的副本，先取得结果的结果作为最终结果

rdd三种持久化策略：
1.未序列化的java对象存在内存中   （最优可以直接访问jvm内存里卖弄的RDD对象）
2.序列化的数据存在于内存里面   （比第一种有效但是降低了性能）
3.序列化的数据存在于磁盘   （通常用于RDD数据较大的情况）

猜你喜欢

转载自blog.csdn.net/qq_36968512/article/details/80667354

spark的一些难以理解和一些冷门知识的解读（面试可能会问！！）（Unit1）

[Flutter] 一些面试可能会问基础知识

一些数学小结论（可能会更新）

Python中一些可能会问到的面试题

总结了一些vue面试中可能会提出的问题（未完结）

一些关于JAVA的冷门知识

C++的一些冷门知识

关于java的一些细节问题，笔试可能会问到，整理一下

Spark的转换操作基础知识和一些使用技巧！！！（Unit3）

学Python途中可能会遗漏的一些关键点

C#窗体应用程序可能会遇到的一些奇怪问题

浅谈搭建CobaltStrike云服务器可能会遇到的一些问题

记一些好的可能会用到的博客

一些冷门却有用的小知识

正则基础教程一些冷门的知识

一些冷门的JS技巧顶

一些冷门的js操作

FFT与一些冷门问题

一些冷门小技巧

微信小程序开发过程中可能会遇到的一些“冷”知识（持续更新中.....）

css有趣实用的技巧和一些冷门知识点

记录一些难以记住的命令

学的会一些HashMap知识和疑惑

移植Dlib 到 Android (Dlib + OpenCV2）以及可能会遇到的一些问题

springboot项目引入通用mapper（tk.mybatis.mapper）的时候一些可能会踩的坑

总结一些关于前端面试的一些知识点1

Unit test的一些常见知识

一些理解

JVM工作原理和特点(一些二逼的逼神面试官会问的问题)

转贴：jvm 的工作原理和特点 (一些二逼的逼神面试官会问的问题)

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)