RDD五大特性 - 代码天地

RDD五大特性

其他 2019-12-25 15:01:13 阅读次数: 0

1）A list of partitions
RDD由很多partition构成(block块对应partition)，在spark中，计算式，有多少partition就对应有多少个task来执行。
默认一个块block对应一个split,split的大小和block大小一致。
2）A function for computing each split
对RDD做计算，相当于对RDD的每个split或partition做计算
3）A list of dependencies on other RDDs
RDD之间有依赖关系，可溯源，容错机制
4）Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
如果RDD里面存的数据是key-value形式，则可以传递一个自定义的Partitioner进行重新分区，比如可以按key的hash值分区。
5）Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)
最优的位置去计算，也就是数据的本地性，移动计算而不是移动数据。
计算每个split时，在split所在机器的本地上运行task是最好的，避免了数据的移动；split有多个副本，所以preferred location不止一个。数据在哪里，应优先把作业调度到数据所在机器上，减少数据的IO和网络传输，这样才能更好地减少作业运行时间（木桶原理：作业运行时间取决于运行最慢的task所需的时间），提高性能。

猜你喜欢

转载自www.cnblogs.com/lucas-zhao/p/12096602.html

（RDD）五大特性

RDD的五大特性

RDD五大特性

spark：RDD的五大特性

05-RDD五大特性

Spark之RDD的定义及五大特性

RDD的五大特点

内存计算框架Spark学习笔记（2）—— Spark RDD 五大特性

spark RDD的五大属性

算法的五大特性

SparkRDD的五大特性

大数据：pyspark模块，spark core的RDD，RDD是弹性分布式数据抽象对象，RDD五大特性，wordcount案例展示RDD

算法的概念及五大特性

.NET Framework 4.5 的五大特性

APP设计的五大特性！

APP设计的五大特性！

Unix的五大优秀特性

RDD的5大特性

Android 5.0五大安全特性

Java EE8的五大最新特性

Java EE 8的五大新特性详解

五大微控制器板特性盘点

JDK12的五大重要新特性

面向对象三大基本特性,五大基本原则面向对象三大基本特性,五大基本原则

五大函数

五大查找

五大穴位

AI公司发布人脸抓拍新品，五大特性特性燃爆安防

面向对象三大特性五大原则

面向对象三大基本特性,五大基本原则

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)