Spark之RDD概念详解

其他 2021-03-31 21:22:39 阅读次数: 0

文章目录

概述
五大属性
WordCount中RDD的五大属性

概述

RDD(A Resilient Distributed Dataset)：弹性分布式数据集,是Spark中最基本的数据抽象,用来表示分布式集合,支持分布式操作。

诞生背景
没有RDD/Dataset之前做 Wordcount(大数据计算)可以使用：

原生集合：Java/Scala中的List但是只支持单机版!不支持分布式,如果要做分布式的计算需要做很多额外工作,例如线程/进程通信，容错，自动均衡等，麻烦，所有就诞生了解决这些问题的框架。

MapReduce效率低运行效率低开发效率低)–早就淘汰
所以需要有一个分布式的数据抽象,也就是用该抽象,可以表示分布式的集合,那么基于这个分布式集合进行操作,就可以很方便的完成分布式的Word Count!(该分布式集合底层应该将实现的细节封装好,提供简单易用的API)

五大属性

在RDD对象中，每个RDD都有五个主要的属性：

分区列表: A list of partitions
计算函数: A function for computing each split
依赖关系: A list of dependencies on other RDDs
分区器: Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
计算位置：Optionally, a list of preferred locations to compute each split on (e.g. block locations for
an HDFS file)

WordCount中RDD的五大属性

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/zh2475855601/article/details/115029506

Spark之RDD概念详解

Apache Spark之RDD详解（章节二）

Spark RDD的概念

Spark RDD核心详解

Spark RDD详解

Spark——RDD操作详解

spark的rdd详解1

spark RDD 详解

【Spark】RDD详解

SPARK-RDD 详解

Spark RDD 的详解

Spark Core RDD详解

[Spark学习] Spark RDD详解

十一、Spark核心概念RDD

Spark之RDD基础

spark学习之RDD

[Spark]-RDD之创建

spark之RDD

Spark RDD之Partition

Spark RDD之Partitioner

Spark RDD之Dependency

Spark之RDD的创建

SPARK总结之RDD

Spark之RDD本质

spark 之RDD操作

spark之RDD算子

Spark之RDD创建

Spark函数详解系列之RDD基本转换

Spark RDD API详解之：Map和Reduce

Spark函数详解系列之RDD基本转换+实例

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)