Spark SQL Join类型 - 代码天地

Spark SQL Join类型

其他 2019-04-15 19:10:53 阅读次数: 0

Spark SQL join工作是通过使用executors 操作DataFrame的多个分区，具体的过程和性能依赖join type和datasets的特征。join的过程中，包含了shuffle join 和broadcast join；

在两个大的datasets join的过程中，进行了 shuffle join，使左右的dataset的分区数据到达executors。如：

当一个大的dataset和一个小的dataset进行join操作时，小的数据集通过广播的方式，广播到executors，过程如：

join 的类型分为：

1.inner 通过左dataset的每一行和右dataset的行进行比较，匹配的行并且都没有null值，结合在一起。

扫描二维码关注公众号，回复： 5899667 查看本文章

2.cross 通过左dataset的每一行和右 dataset的每一行生成一个笛卡尔积运算结果。

3.outer,full,fullouter 左、右dataset所有的行形成一个dataset，若新的dataset的行只包含左或右的dataset的数据时，则补充数据为null。

4.leftanti 结果dataset只包含存在于左dataset，而不包含于右dataset的数据。

5.left，leftouter 结果dataset包含左dataset的所有的加上右dataset的common rows，像inner join一样，不包含于右dataset的填充为null。

6. leftsemi 结果dataset包含左、右数据集common rows，但仅仅包含左dataset的数据。

7.right,rightouter 结果dataset包含右dataset的所有行加上右、左common rows，右dataset的行不存在于左dataset是，填充数据为null。

猜你喜欢

转载自blog.csdn.net/sperospera/article/details/89222841

Spark SQL Join类型

Spark SQL 之 Join

Spark sql的join

[Spark 基础]-- 保持Spark sql join 的字段类型一致

Spark SQL 之 Join 实现

Spark SQL之Join优化

Spark SQL Join原理分析

谈谈Spark Sql中的join

Spark中的Join类型

Spark SQL 测试JoinType中所有join的类型，便于理解

Spark DataFrame中的join类型

Spark SQL中Join常用的几种实现

elasticsearch使用spark sql来实现join

使用Spark SQL进行Cassandra Join (Java)

spark sql 之join等函数用法

使用 spark sql extensions 实现 skew join

Spark-sql Join优化=>(cache+BroadCast)

Spark SQL join的三种实现方式

Spark SQL中出现 CROSS JOIN 问题解决

MR (key,value)排序, hadoop.Spark.sql的join操作

spark join

spark关于join后有重复列的问题（org.apache.spark.sql.AnalysisException: Reference '*' is ambiguous）

Spark SQL

spark笔记-spark sql

【笔记】SQL Join 的类型及实现方法

Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快？那你就错

Spark Sql Dsl Sql

Apache Spark 中支持的七种 Join 类型简介

hive函数返回的数据类型，spark sql

spark sql导出数据到mysql 出现BLOB类型

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)