RDD的概念和特性 - 代码天地

RDD的概念和特性

其他 2020-10-28 10:37:07 阅读次数: 0

1.RDD是一个抽象分布式数据集，是一个数据描述。RDD是Spark提供的核心抽象，全称为Resillient Distributed Dataset，即弹性分布式数据集。RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。（分布式数据集）

2.并没有真正获取到数据，对元数据信息的存储，提供操作rdd的算子，100多个，常用的有几十多个。

3.有弹性的，从存储方面和数据容错方面体现RDD的弹性。

存储方面：计算时，首选缓存，缓存不够时，可以存储到非缓存（也就是磁盘）。

容错方面：计算过程中，task计算失败，可以恢复。默认是允许四次失败，可恢复。如果是stage失败也可也恢复，分区失败也可也恢复。shuffle之后，某一个分区失败，就得重新计算，因为是多对一的。
分多个分区，是为了提高并行度，提高效率。

4.依赖性，有依赖性才能有容错性，有依赖性才能划分宽依赖和窄依赖，可以形成task。

猜你喜欢

转载自blog.csdn.net/qq_42706464/article/details/108306060

RDD的概念和特性

RDD概念

C++概念和特性

mysql概念特性和优化

Java 多态的特性和概念

RDD的5大特性

RDD特性介绍

spark基础-rdd特性

Spark RDD的特性

Spark基础概念01-初识Spark架构和RDD

Spark RDD的概念

RDD的概念与创建

HDFS基本概念和特性

Zookeeper的基本概念和重要特性

【spring】事务管理的概念和特性

RocketMQ(三)——概念和特性(转)

数据库事务的概念和特性

Apache NiFi 核心概念和关键特性

AngularJS Scope 的概念、特性和用法

spark RDD和RDD算子

RDD和RDD之间的操作

（RDD）五大特性

RDD的五大特性

RDD五大特性

十一、Spark核心概念RDD

Spark之RDD概念详解

Spark三大核心数据结构——RDD的概念、血缘和持久化

Spark基础概念02-缓存机制、RDD血缘和依赖关系

Spark中的RDD是什么？请解释其概念和特点。

spark源码阅读笔记RDD（一）RDD的基本概念

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

事务隔离级及脏读、幻读和不可重复读

rtos：zephyr同步信号量

把对象转换为JSON格式的数据

iOS Dev (56) iTunes Store 销售日报更新时间

Failed to start mongod.service: Unit not found;mongodb in unbuntu

Upgrading PHP on CentOS 6.5 (Final)

（四）王道机试指南___排版问题

TensorFlow之手写体识别

xcode xib报错 Safe Area Layout Guide Before IOS 9.0

【LeetCode】76. Minimum Window Substring（C++）

每日归档

更多

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)