Spark从入门到精通五----RDD的产生背景---创建方式及分区说明 - 代码天地

Spark从入门到精通五----RDD的产生背景---创建方式及分区说明

其他 2019-05-08 12:31:06 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载！

欢迎访问：https://blog.csdn.net/qq_21439395/article/details/83591136

交流QQ: 824203453

弹性分布式数据集RDD
1. RDD概述

RDD论文，中文版：http://spark.apachecn.org/paper/zh/spark-rdd.html

1. 1. 产生背景

为了解决开发人员能在大规模的集群中以一种容错的方式进行内存计算，提出了RDD的概念，而当前的很多框架对迭代式算法场景与交互性数据挖掘场景的处理性能非常差, 这个是 RDDs 的提出的动机。

1. 1. 什么是RDD

RDD是Spark的计算模型。RDD（Resilient Distributed Dataset）叫做弹性的分布式数据集合，是Spark中最基本的数据抽象，它代表一个不可变、只读的，被分区的数据集。

操作RDD 就像操作本地集合一样，有很多的方法可以调用，使用方便，而无需关心底层的调度细节。

1. 创建RDD
集合并行化创建（通过scala集合创建） scala中的本地集合—> spark RDD

val arr = Array(1,2,3,4,5)

val rdd = sc.parallelize(arr)

扫描二维码关注公众号，回复： 6162669 查看本文章

val rdd =sc.makeRDD(arr)

通过集合并行化方式创建RDD，适用于本地测试，做实验

外部文件系统，比如HDFS等

val rdd2 = sc.textFile("hdfs://hdp-01:9000/words.txt")

// 读取本地文件

val rdd2 = sc.textFile(“file:///root/words.txt”)

3）从父RDD转换成新的子RDD

调用Transformation类的方法，生成新的RDD

spark上的所有的方法，有一个专有的名词，叫做算子。

1. RDD的分区

说对rdd进行操作，实际上是操作的rdd中的每一个分区，分区的数量决定了并行的数量。

使用rdd.partitions.size查看分区数量。

如果从外部创建RDD，比如从hdfs中读取数据，正常情况下，分区的数量是和我们读取的文件的block块数量是一致的，但是如果只有一个block 块，那么分区数量是2。也就是说最低的分区数量是2。

如果是集合并行化创建得到的rdd，分区的数量，默认的和最大可用的cores数量相等。

（--total-executor-cores > 可用的cores? 可用的cores:--total-executor-cores）

通过集合并行化创建的rdd是可以任意修改分区的数量的。

版权声明：本文为博主原创文章，未经博主允许不得转载！

欢迎访问：https://blog.csdn.net/qq_21439395/article/details/83591136

交流QQ: 824203453

猜你喜欢

转载自blog.csdn.net/qq_21439395/article/details/83591136

Spark从入门到精通五----RDD的产生背景---创建方式及分区说明

Spark从入门到精通六------RDD的算子

Spark修改RDD分区数的五种方式

Spark算子：RDD创建的方式

Spark之创建RDD的方式

Spark创建RDD的几种方式

Spark入门（五）：键值对RDD

Spark创建RDD分区数量源码详解

Iceberg从入门到精通系列之五：Zeppelin集成iceberg，创建iceberg普通表和分区表，并插入数据

SparkSQL创建RDD：创建DataFrame的方式，配置Spark on Hive【文字说明+关键代码】

Spark SQL:从入门到精通(五)[开窗函数]

Spark SQL:从入门到精通(五)[开窗函数]

Spark 2.0从入门到精通245讲——操作RDD（action案例实战）

Spark 2.0从入门到精通245讲——操作RDD（transformation案例实战）

Spark从入门到精通（一）

最新《Spark从入门到精通》

Spark SQL从入门到精通

spark入门五（RDD高级算子二）

Spark RDD使用详解2--RDD创建方式

spark Rdd的默认分区

【SPARK】- RDD分区

【spark】RDD分区解析

【Spark】RDD分区

Spark的RDD分区器

Spark RDD分区

Spark on Yarn ｜ Spark，从入门到精通

Spark SQL｜Spark，从入门到精通

Hello Spark! | Spark，从入门到精通

Spark Streaming （一）| Spark，从入门到精通

spark-获取RDD的方式以及从分区中获益的操作

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)