spark学习记录（二、RDD） - 代码天地

spark学习记录（二、RDD）

编程语言 2018-12-29 22:44:31 阅读次数: 0

一、概念

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。

RDD的五大特性：

RDD是由一系列的partition组成
算子（函数）作用在partition上
RDD之间是有依赖关系，某一个RDD丢失时，可以基于依赖关系重新生成
分区器是基于K,V格式的RDD
partition对外提供一系列最佳的计算位置，利于数据处理的本地化

补充：

如果RDD中的每个元素是一个个二元组，那么这个RDD就是K,V格式
sc.textFile()：Spark没有直接读取hdfs文件的方法，textFile()的底层调用的是MR读取HDFS的方法，首先会切分，每一块默认大小为128m，就是一个block大小，每一块对应一个partition
一个partition只能由一个task处理
partition的个数可根据数据量多少而改变，即可分割，合并。启动进程需要时间，所以数据量大时将数据分成多进程处理，但数据量小时，合并partition，减少分区
partition分布在多个节点上处理
RDD中是不存数据的，partition中也不存数据

猜你喜欢

转载自blog.csdn.net/qq_33283652/article/details/85337323

spark学习记录（二、RDD）

Spark学习（二）：RDD详解

Spark学习二——Spark之RDD

Spark学习之RDD编程（二）

Spark2.0学习（二）--------RDD详解

（二）Spark学习笔记之RDD

Spark学习笔记（二）：RDD编程基础

Spark RDD （二）

（二）Spark RDD编程

Spark介绍（二）RDD

Spark（二）----RDD

Spark(二)RDD

Spark RDD (章节二)

spark学习之RDD

Spark学习——RDD

Spark RDD学习笔记

Spark学习（3）RDD

Spark学习---RDD

spark学习 —— RDD入门

Spark基础学习——RDD

[Spark学习] Spark RDD详解

Spark（二）————RDD变换和RDD Action

【Spark】Spark二：Spark RDD初步

spark记录（1）spark Core之RDD

Spark学习记录（二）Spark集群搭建

spark RDD常用算子（二）

Spark优化(二)：复用RDD

【Spark】（二）RDD和算子

畅聊Spark（二）RDD

spark(二) rdd具体介绍

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)