Spark SQL如何实现mysql的union操作 - 代码天地

Spark SQL如何实现mysql的union操作

其他 2018-12-05 15:10:55 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/rlnLo2pNEfx9c/article/details/84801335

简介

今天聊了聊一个小小的基础题，union和union all的区别：

union all是直接连接，取到得是所有值，记录可能有重复
union 是取唯一值，记录没有重复
1、UNION 的语法如下：

[SQL 语句 1]
      UNION
[SQL 语句 2]

2、UNION ALL 的语法如下：

[SQL 语句 1]
      UNION ALL
[SQL 语句 2]

对比总结：

UNION和UNION ALL关键字都是将两个结果集合并为一个，但这两者从使用和效率上来说都有所不同。

1、对重复结果的处理：UNION在进行表链接后会筛选掉重复的记录，Union All不会去除重复记录。

2、对排序的处理：Union将会按照字段的顺序进行排序；UNION ALL只是简单的将两个结果合并后就返回。

从效率上说，UNION ALL 要比UNION快很多，所以，如果可以确认合并的两个结果集中不包含重复数据且不需要排序时的话，那么就使用UNION ALL。

Spark SQL

实际上Spark SQL的DataSet的API是没有union all操作的，只有union操作，而且其union操作就是union all操作。

此时要实现union操作，需要在union之后加上distinct操作。

sales.union(sales).show()

输出结果是有重复数据的

640?wx_fmt=png

需要将操作更改为：

sales.union(sales).distinct().show()

推荐阅读：

Spark SQL的几个里程碑！

Table API&SQL的基本概念及使用介绍

Spark SQL用UDF实现按列特征重分区

640?wx_fmt=png

猜你喜欢

转载自blog.csdn.net/rlnLo2pNEfx9c/article/details/84801335

Spark SQL如何实现mysql的union操作

【Spark】Spark SQL 连接操作 Mysql

Spark union

spark笔记-spark sql

如何让spark sql写mysql的时候支持update操作

【Spark】Spark基本操作

Spark SQL 函数操作

Spark sql操作Hive

Spark SQL操作

Spark SQL

Spark Streaming与Spark SQL结合操作详解

【Spark】MySQL使用Spark SQL实现多表关联

【Spark】Spark SQL写入Mysql优化

Hive on Spark 与Spark SQL比较

Spark之spark.sql

Spark基础：（六）Spark SQL

Spark 03 Spark SQL 概述

Spark 04 Spark SQL 使用

spark基础六 spark SQL

Spark-Spark SQL and DataFrame

Spark SQL与Hive on Spark的比较

Spark学习之Spark SQL

Spark学习笔记：Spark SQL

spark笔记之Spark SQL

Spark -- Spark SQL初体验

【Spark】Spark Web UI - SQL

【Spark九十五】Spark Shell操作Spark SQL

[Spark][spark_streaming]#5_spark_streaming&spark_sql

Spark（四）Spark 键值对操作

Spark复习七：Spark 连接并操作Mysql

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)