Spark中RDD、DataSet、DataFrame的联系与区别 - 代码天地

Spark中RDD、DataSet、DataFrame的联系与区别

其他 2020-03-25 15:50:46 阅读次数: 0

三者的共性
1、RDD、DataFrame、Dataset 全都是 spark 平台下的分布式弹性数据集，为处理超大型数据提供便利

2、三者都有惰性机制，在进行创建、转换，如 map 方法时，不会立即执行，只有在遇到 Action 如 foreach 时，三者才会开始遍历运算。

3、三者都会根据 spark 的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出

4、三者都有 partition 的概念

5、三者有许多共同的函数，如 filter，排序等

6、在对 DataFrame 和 Dataset 进行操作许多操作都需要这个包进行支持

import spark.implicits._

7、DataFrame 和 Dataset 均可使用模式匹配获取各个字段的值和类型

区别

1. RDD:

1）RDD 一般和 spark mlib 同时使用

2）RDD 不支持 sparksql 操作

2. DataFrame:

1）与 RDD 和 Dataset 不同，DataFrame 每一行的类型固定为 Row，每一列的值没法直接访问，只有通过解析才能获取各个字段的值

2）DataFrame 与 Dataset 一般不与 spark mlib 同时使用

3）DataFrame 与 Dataset 均支持 sparksql 的操作，比如 select，groupby 之类，还能注册临时表/视窗，进行 sql 语句操作

4）DataFrame 与 Dataset 支持一些特别方便的保存方式，比如保存成 csv，可以带上表头，这样每一列的字段名一目了然

3. Dataset:

1）Dataset 和 DataFrame 拥有完全相同的成员函数，区别只是每一行的数据类型不同。

2）DataFrame 也可以叫 Dataset[Row]，每一行的类型是 Row，不解析，每一行究竟有哪些字段，各个字段又是什么类型都无从得知，只能用上面提到的 getAS 方法或者共性中的第七条提到的模式匹配拿出特定字段。而 Dataset 中，每一行是什么类型是不一定的，在自定义了 case class 之后可以很自由的获得每一行的信息

猜你喜欢

转载自www.cnblogs.com/gouhaiping/p/12566606.html

Spark中RDD与DataFrame与DataSet的区别与联系

Spark中RDD、DataSet、DataFrame的联系与区别

spark中RDD，DataSet，DataFrame的区别

Spark中RDD、DataFrame和DataSet的区别

spark中 RDD、DataFrame、Dataset的关系及区别

spark 中 RDD、DataFrame、Dataset区别

Spark中RDD,DataFrame和DataSet的区别,联系以及相互转换

Spark中 DataFrame,DataSet,RDD

SparkSQL 中 RDD 、DataFrame 、DataSet 三者的区别与联系

RDD、DataFrame、Dataset的区别与联系（详细）

Spark中RDD和DataFrame、DataSet的区别?---面试题

Spark中RDD、DataFrame和DataSet三者的区别

Spark RDD、DataFrame和DataSet的区别

Spark RDD,DataFrame和DataSet的区别

Spark-DataFrame、DataSet、RDD的区别

spark之DataFrame、DataSet、RDD的区别

spark教程(11)-RDD-DF-DS 汇总 Spark中RDD、DataFrame和DataSet的区别

理解Spark中的RDD、DataFrame和DataSet

Spark中的RDD、DataFrame、Dataset对比

RDD、DataFrame、DataSet的区别

简述SparkSQL中RDD、DataFrame、DataSet三者的区别与联系?

DataFrame、Dataset、RDD的区别与联系及相互之间的转换

APACHE SPARK: RDD, DATAFRAME OR DATASET?

Rdd,DataFrame和DataSet的区别

RDD、DataFrame和DataSet的区别

云栖社区>博客>正文 Spark中的RDD、DataFrame、Dataset对比

spark-RDD vs DataFrame vs DataSet

Spark-RDD、Dataset、DataFrame互相转换

Spark SQL-DataFrame，DataSet与RDD

Spark SQL及RDD、DataFrame、DataSet数据抽象

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)