Spark-RDD的特点 - 代码天地

Spark-RDD的特点

其他 2018-07-25 09:56:17 阅读次数: 0

RDD以及其特点
       1、RDD是Spark提供的核心抽象，全称为Resillient Distributed Dataset，即弹性分布式数据集。
       一个RDD，在逻辑上，抽象地代表了一个HDFS文件。
       但是，它实际上是被分区得。分为多个分区。多个分区散落在Spark集群中，不同的节点上。
       比如说，RDD有90万数据。分为9个partition，9个分区。


       2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，
       从而让RDD中的数据可以被并行操作。（分布式数据集）

       3、RDD通常通过Hadoop上的文件，即HDFS文件或者Hive表，来进行创建；有时也可以通过应用程序中的集合来创建。
       答：RDD是一种抽象式的数据集合，可分区，可并行

       4、RDD最重要的特性就是，提供了容错性，可以自动从节点失败中恢复过来。即如果某个节点上的RDD partition，
       因为节点故障，导致数据丢了，那么RDD会自动通过自己的数据来源重新计算该partition。这一切对使用者是透明的。
       5、RDD的数据默认情况下存放在内存中的，但是在内存资源不足时，Spark会自动将RDD数据写入磁盘。（弹性）
什么是Spark开发？
   1、核心开发：离线批处理 / 延迟性的交互式数据处理

猜你喜欢

转载自blog.csdn.net/weixin_41244495/article/details/81134981

Spark-RDD的特点

Spark-RDD特点及RDD算子

spark-RDD

Spark-RDD算子

Spark-RDD编程

SPARK-RDD 详解

1.5.1.1 Spark-RDD

Spark-RDD懒加载

spark-RDD源码分析

SPARK-RDD持久化

Spark-RDD常用算子

Spark-RDD高级算子

spark-RDD vs DataFrame vs DataSet

spark-RDD写入数据库

Spark-RDD之Partition源码分析

深入理解spark－rdd详解

Spark-RDD、Dataset、DataFrame互相转换

Spark-RDD 模型以及运行原理

Python Spark-RDD 常用用法

黑哥讲解spark-RDD编程

Spark RDD特点

Spark-RDD编程之持久化操作

Spark-RDD编程之常见转换操作

Spark-RDD编程之常见执行操作

spark-RDD(弹性分布式数据集)

Spark-RDD核心抽象（第二天）

大数据开发-Spark-RDD的持久化和缓存

1.spark核心RDD特点

Spark-RDD论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster 》有感

《从0到1学习spark》-- RDD特点精讲

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)