说一下Spark的RDD - 代码天地

说一下Spark的RDD

移动开发 2018-05-05 19:13:25 阅读次数: 4

RDD，弹性分布式数据集：是一种可分区的只读数据集，可以来自内部集合或者外部存储系统，一种是通过转换。RDD是一个粗粒度的操作数据集，每一个RDD分区的多少涉及对这个RDD进行并行计算的粒度，每一个RDD分区的计算操作都在一个单独的任务中被执行。对于每一个RDD的计算都是以分区为单位的。RDD存在两种依赖关系：宽依赖和窄依赖。

宽依赖：每一个父RDD的分区只被子RDD一个分区使用。

窄依赖：每一个父RDD的分区可以被子RDD多个分区使用，会产生shuffle。

Spark中之所以明确指定有窄依赖和宽依赖，是因为：1.窄依赖可以使作业以流水线的形式执行相反的宽依赖，需要获得父RDD上的所有分区进行计算，需要执行类似于mapreduce一样的shuffle操作；2.对于宽依赖，计算节点失效后恢复更加有效，只需要重新计算父节点的一个分区即可，相反，宽依赖需要计算父RDD的多个分区重新计算，代价较大。

RDD的分区函数：HashPatitioner() 与 RangePatitioner()，且patitioner这个属性只存在于KEY, VALUE类型的RDD中。

猜你喜欢

转载自my.oschina.net/134596/blog/1807410

说一下Spark的RDD

说一下acad的bug

说一下HashMap的实现原理

说一下HashMap的Put方法

说一下屏幕自适应

Spark核心 RDD（下）

说一下NIO并简短的说一下和IO的区别？NIO，BIO，AIO

Spark RDD （一）

Spark(一)RDD

spark源码《一》RDD

翻译一下spark sql and dataframes

说一下十维空间

面试：你说一下SpringMVC处理请求流程

说一下线程之间的通信。

简单的说一下S5PV210

说一下 Django， MIDDLEWARES 中间件的作用？

来占个坑说一下写了python的感受

说一下Python项目中的验参

说一下某个服务器的性能

问四：说一下UDP与TCP首部格式？

说一下怎么吃便宜的kfc

说一下C++的返回值优化

请你说一下哈夫曼编码

Python3 - 随便说一下

说一下 HashSet 的实现原理？（未完成）

简单的例子说一下死锁的问题

说一下HTML5与传统HTML的区别

说一下 session 的工作原理？（未完成）

说一下 HashMap 的实现原理？（未完成）

说一下 jvm 有哪些垃圾回收器？

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)