Spark编程模型(中) - 代码天地

Spark编程模型(中)

其他 2018-09-18 15:02:40 阅读次数: 0

创建RDD

方式一：从集合创建RDD

makeRDD
Parallelize

注意：makeRDD可以指定每个分区perferredLocations参数parallelize则没有。

方式二：读取外部存储创建RDD

　　Spark与Hadoop完全兼容，所以对Hadoop所支持的文件类型或者数据库类型，Spark同样支持。

1. 多文件格式支持：

2. 多文件系统支持：

　　 1)本地文件系统

　　 2)S3

　　 3)HDFS

3. 数据库

　　 1)JdbcRDD

　　 2)spark-cassandra-connector（datastax/spark-cassandra-connector）

　　 3)org.apache.hadoop.hbase.mapreduce.TableInputFormat(SparkContext.newAPIHadoopRDD)

　　 4)Elasticsearch-Hadoop

控制操作

1. persist操作，可以将RDD持久化到不同层次的存储介质，以便后续操作重复使用。

　　 1)cache:RDD[T]

　　 2)persist:RDD[T]

　　 3)Persist(level:StorageLevel):RDD[T]

2. checkpoint

　　将RDD持久化到HDFS中，与persist操作不同的是checkpoint会切断此RDD之前的依赖关系，而persist依然保留RDD的依赖关系。

　　注意：控制操作的细节会在后续章节专门讲解

转换操作

基本转换操作1

　　（1）RDD的转化操作是返回新的RDD的操作；

　　（2）我们不应该把RDD看作存放着特定数据的数据集，而最好把每个RDD当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。

基本转换操作2

action操作

以上就是博主为大家介绍的这一板块的主要内容，这都是博主自己的学习过程，希望能给大家带来一定的指导作用，有用的还望大家点个支持，如果对你没用也望包涵，有错误烦请指出。如有期待可关注博主以第一时间获取更新哦，谢谢！

猜你喜欢

转载自www.cnblogs.com/zimo-jing/p/9668854.html

Spark中的编程模型

Spark编程模型(中)

Spark 编程模型(中)

Spark 编程模型(上)

Spark 编程模型(下)

Spark Streaming编程模型

spark学习之-----spark编程模型

Spark Core快速入门系列(2) | Spark Core中编程模型的理解与RDD的创建

Spark Streaming编程模型及原理

Spark流式编程介绍 - 编程模型

Spark中内存模型管理

spark架构设计&编程模型 02

Spark编程模型Transformation操作三

Spark编程模型Transformation操作二

Spark编程模型Transformation操作一

Spark核心之编程模型详解

DataFlow编程模型与Spark Structured streaming

[Kafka与Spark集成系列三] Spark编程模型

Spark详解（三）：Spark编程模型（RDD概述）

Kafka与Spark集成系列三Spark编程模型

Spark中文指南(入门篇)-Spark编程模型(一)

Spark编程中函数的传递

10 spark中的DataFrame编程

spark编程模型二之RDD的编程接口

NLP处理-Spark中的HashTF与CountVectorizer模型

Spark编程模型（之莎士比亚文集词频统计实现）

谷歌DataFlow编程模型以及Spark/Flink/StreamCQL的相关实现

spark-sql的概述以及编程模型的介绍

Spark深入解析（五）：SparkCore之RDD编程模型

转载：Spark中文指南(入门篇)-Spark编程模型(一)

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)