spark之Dataset - 代码天地

spark之Dataset

其他 2020-09-18 12:49:10 阅读次数: 0

@InterfaceStability.Stable
public class Dataset<T>
extends Object
implements scala.Serializabl

1）Dataset是面向特定领域的强类型集合

2）每个Dataset具有一个称为DataFrame的无类型视图，该视图是类型为Row的Dataset，也就是说DataFrame是Dataset的特例。

3）与RDD类似，DataSet包含Transformation和Action两种操作。

4）两种创建Dataset的方式：

使用SparkSession的read方法：

val people = spark.read.parquet("...").as[Person]  // Scala
Dataset<Person> people = spark.read().parquet("...").as(Encoders.bean(Person.class)); // Java

通过已有的Dataset转换：

val names = people.map(_.name)  // in Scala; names is a Dataset[String]
Dataset<String> names = people.map((Person p) -> p.name, Encoders.STRING)); // in Java 8

5）Dataset、RDD、DataFrame之间的关系：

在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：
RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)

如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。

在后期的Spark版本中，DataSet会逐步取代RDD和DataFrame成为唯一的API接口。

关于三者之间关系的具体总结参考《RDD和DataFrame和DataSet三者间的区别》

猜你喜欢

转载自blog.csdn.net/yuan1164345228/article/details/108606543

spark-dataset

spark之Dataset

Spark SQL之 Dataframe/Dataset

spark api学习之Dataset

spark sql之RDD转换DataSet（十一）

spark之DataFrame、DataSet、RDD的区别

Spark之RDD、DataSet、DataFrame转换

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

11.spark sql之RDD转换DataSet

Spark之【SparkSQL编程】系列(No2)——《DataSet概念入门以及与DataSet的互操作》

Spark之【SparkSQL编程】系列(No2)——《DataSet概念入门以及与DataSet的互操作》

【Spark】（十）详解 Spark DataSet

Spark DataFrame vs Dataset

spark dataframe 转成 dataset

spark RDD 生成 DataSet

快速理解Spark Dataset

Spark SQL与DataSet

Spark DataFrame&DataSet

Spark DataSet介绍

spark使用DataSet

APACHE SPARK: RDD, DATAFRAME OR DATASET?

Spark 06 DataFrame&DataSet

Spark中DataSet的基本使用

Spark的Dataframe（Dataset）转Json

Spark 将dataFrame 转为 DataSet

spark的灵魂：RDD和DataSet

Spark中 DataFrame,DataSet,RDD

Spark复习六：DataSet操作

Spark 2.4.0编程指南--spark dataSet action

Spark2 Dataset之collect_set与collect_list

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)