spark - Spark-sql， DataFrame，DataSet名词解释 - 代码天地

spark - Spark-sql， DataFrame，DataSet名词解释

企业开发 2018-05-09 12:29:45 阅读次数: 0

1.什么是spark-sql？

spark-sql 不是sql，它是spark提供的处理结构化数据的框架，不仅仅是一个sql框架，还支持DataFrame和DataSet
hive on spark 是hive提供的以spark作为计算引擎的计算框架，类似的框架还有hive on tez， mr等，hive1.1版本开始提供的，目前不是稳定版本

2.DataFrame

DataFrame是一个分布式集合，其中数据被组织为命名的列。它概念上等价于关系数据库中的表，但底层做了更多的优化。DataFrame可以从很多数据源构建，比如：已经存在的RDD、结构化文件、外部数据库、Hive表。
DataFrame的前身是SchemaRDD，从Spark 1.3.0开始SchemaRDD更名为DataFrame。与SchemaRDD的主要区别是：DataFrame不再直接继承自RDD，而是自己实现了RDD的绝大多数功能。你仍旧可以在DataFrame上调用.rdd方法将其转换为一个RDD。RDD可看作是分布式的对象的集合，Spark并不知道对象的详细模式信息，DataFrame可看作是分布式的Row对象的集合，其提供了由列组成的详细模式信息，使得Spark SQL可以进行某些形式的执行优化。
支持scala，java，python，R；
在java和scala中DataFrame = DataSet[Row]；
DataFrame和普通的RDD的逻辑框架区别如下所示：

二者对比：

DataFrame有shcema （所以是shcemaRDD）
DataFrame用了压缩 + 列式存储
DataFrame不仅比RDD有更加丰富的算子，更重要的是它可以进行执行计划优化(得益于Catalyst SQL解析器)，另外Tungsten项目给DataFrame的执行效率带来了很大提升(不过Tungsten优化也可能在后续开发中加入到RDD API中)。
但是在有些情况下RDD可以表达的逻辑用DataFrame无法表达，所以后续提出了Dataset API，Dataset结合了RDD和DataFrame的好处。

3.DataSet

分布式数据集，scala和java支持的较好，python支持的一般（慎用）
Dataset是Spark 1.6新添加的一个实验性接口，其目的是想结合RDD的好处(强类型(这意味着可以在编译时进行类型安全检查)、可以使用强大的lambda函数)和Spark SQL的优化执行引擎的好处。可以从JVM对象构造出Dataset，然后使用类似于RDD的函数式转换算子(map/flatMap/filter等)对其进行操作。
Dataset通过Encoder实现了自定义的序列化格式，使得某些操作可以在无需解序列化的情况下直接进行。另外Dataset还进行了包括Tungsten优化在内的很多性能方面的优化。
实际上Dataset是包含了DataFrame的功能的，这样二者就出现了很大的冗余，故Spark 2.0将二者统一：保留Dataset API，把DataFrame表示为Dataset[Row]，即Dataset的子集。

4.spark sql 架构图：

根据架构图可知，任何语言的dataframe的同一个操作，底层的性能都一样，因为都转成logic plan

而rdd的操作是直接作用在jvm上执行，没有logic plan，所以不同语言底层的性能会有些差异

5.spark三大愿景

write less code
read less data
les the optimizer to do hard work

猜你喜欢

转载自coderlxl201209164551.iteye.com/blog/2415878

spark - Spark-sql， DataFrame，DataSet名词解释

Spark-SQL之DataFrame操作大全

Spark-SQL之DataFrame操作

spark-sql应用

Spark-SQL简介

spark-sql

spark-sql剖析

spark-sql实践

spark-SQL理论

Spark-SQL基础

Spark-SQL高级

Spark-SQL详解

Spark-SQL之RDD转换为DataFrame

spark-sql创建DataFrame/DataSets的几种方式

Spark-Sql快速入门系列(1) | RDD, DataFrame和 DataSet 之间的关系

spark-sql执行hivesql

spark-sql 集成 hive

spark-sql配置并优化

spark-sql的进阶案例

Spark-SQL应用解析

spark-sql性能优化

spark-sql相关实践

spark-sql 关联问题

spark-sql的olap函数

Superset连接Spark-SQL

Spark(四): Spark-sql 读hbase

【Spark九十四】spark-sql工具的使用

Spark:Spark-sql 读hbase

Spark SQL之 Dataframe/Dataset

spark on yarn & spark on hive & spark-sql on hive

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)