spark groupbykey、join、cogroup算子的区别 - 代码天地

spark groupbykey、join、cogroup算子的区别

其他 2021-03-28 19:05:23 阅读次数: 0

区别：
groupbykey：按key进行聚合，同一个RDD中进行聚合。理解为一个表中进行group by
cogroup：多个RDD进行group by（聚合）。理解为两张表中做group by
join；RDD之间的连接操作。相当于SQL中的join操作
cogroup与groupbykey的区别是groupbykey是一个RDD中做聚合（同一个表中），cogroup是不同RDD中做聚合（分组），理解为两个表中。

cogroup与join的区别

官网对join和cogroup解释

cogroup类似于SQL中的一个全连接两个RDD的记录都会返回，但是与连接的数据结构不一致，cogroup返回的是一个元组，但value是List的集合，如[key,(Iterable(V),Iterable(W))]，注意到结果的两个迭代器，第一个迭代器装第一个RDD里面key相同的value,第二个迭代器装的是第二个RDD里面的key相同的value,元组中Value位置是各个RDD，同一个key对应value值的迭代器。join返回的也是元组，元组中value位置返回的是所有单值的集合，相当于对cogroup中迭代器去皮后的结果，将迭代器的值迭代出后的结果，类似于对cogroup中元组的value做了一个flatmap后的结果。

cogroup算子业务场景中很少遇到，他往往是其他很多算子的基础算子，作为一个中间结果呈现，如join算子的实现基础算子就是cogroup。

具体区别可参考下面两张图，一目了然。

猜你喜欢

转载自blog.csdn.net/godlovedaniel/article/details/114936888

spark groupbykey、join、cogroup算子的区别

Spark算子groupbykey与reducebykey区别

spark 算子之 reduceByKey与groupByKey的区别

Spark算子：transformation之键值转换join、cogroup

spark cogroup算子

spark:join与cogroup

用JAVA简单实现Spark转换算子实例（reduceByKey,sortByKey,join,cogroup）

【Spark】Spark groupByKey，reduceByKey，sortByKey 算子比较

spark:reducebykey与groupbykey的区别

10.3 spark算子例子map,filter,flatMap,mapPartitions,groupByKey,join,distinct

6 spark入门键值对操作sortByKey、groupByKey、groupBy、cogroup

spark算子join操作

spark join算子

Spark常用的算子总结（5）—— groupByKey

java实现spark常用算子之groupbykey

Spark常用算子的区别

3.3 Spark RDD 键值转换操作4-cogroup、join

Spark学习笔记 --- ReduceByKey与GroupByKey的区别

【菜鸟系列】spark常用算子总结（scala、java）--groupByKey，reduceByKey

Spark算子：transformation之键值转换groupByKey、reduceByKey、reduceByKeyLocally

spark函数讲解：cogroup

spark中cogroup用法

spark常用的算子总结（7）—— join

java实现spark常用算子之join

Spark中join算子详解介绍

spark算子

【Spark】算子

spark 算子

spark transform系列__groupByKey

Spark之reduceByKey与GroupByKey

今日推荐

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

周排行

010-题目：利用条件运算符的嵌套来完成此题：学习成绩>=90分的同学用A表示，60-89分之间的用B表示，60分以下的用C表示。

接口测试-工作心得记录八（使用locust库书写接口并发）

物理分页和逻辑分页

Hive建表语句详解--CREATE TABLE

爬虫学习----学习get和post请求

PDF生成类库

POJ 2139

前端路由基本原理

I/O多路转接之epoll

.NET开源项目 QuarkDoc 一款自带极简主义属性的文档管理系统

每日归档

更多

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)