reduceByKey与groupByKey的区别 - 代码天地

reduceByKey与groupByKey的区别

其他 2021-01-23 16:06:20 阅读次数: 0

（1）当采用reduceByKeyt时，Spark可以在每个分区移动数据之前将待输出数据与一个共用的key结合。借助下图可以理解在reduceByKey里究竟发生了什么。注意在数据对被搬移前同一机器上同样的key是怎样被组合的(reduceByKey中的lamdba函数)。然后lamdba函数在每个区上被再次调用来将所有值reduce成一个最终结果。整个过程如下：
在这里插入图片描述

ReduceByKey

（2）当采用groupByKey时，由于它不接收函数，spark只能先将所有的键值对(key-value pair)都移动，这样的后果是集群节点之间的开销很大，导致传输延时。整个过程如下：
在这里插入图片描述
groupByKey

因此，在对大数据进行复杂计算时，reduceByKey优于groupByKey。
另外，如果仅仅是group处理，那么以下函数应该优先于 groupByKey ：

（1）combineByKey 组合数据，但是组合之后的数据类型与输入时值的类型不一样。

（2）foldByKey合并每一个 key 的所有值，在级联函数和“零值”中使用。

猜你喜欢

转载自blog.csdn.net/weixin_43614067/article/details/106924926

groupByKey与reduceByKey区别

groupByKey 和reduceByKey 的区别：

reduceByKey和groupByKey的区别

spark:reducebykey与groupbykey的区别

reduceByKey与groupByKey的区别

reduceByKey和groupByKey区别与用法

reduceByKey、groupByKey以及combineByKey的区别

转载-reduceByKey和groupByKey的区别

Spark算子groupbykey与reducebykey区别

spark 算子之 reduceByKey与groupByKey的区别

Spark学习笔记 --- ReduceByKey与GroupByKey的区别

关于spark当中的reducebykey 和groupbykey两者的区别

【Spark系列2】reduceByKey和groupByKey区别与用法

[Spark RDD_add_1] groupByKey & reduceBykey 的区别

Spark中的groupByKey,reduceByKey,combineBykey,和aggregateByKey的比较和区别

【spark】二 reduceByKey、reduceByKeyLocally、groupByKey、combineByKey、aggregateByKey 区别 [待补充]

【转载】Spark中:reduceByKey和groupByKey区别与用法

reduceByKey与groupByKey进行对比

reduceByKey、groupByKey和combineByKey

Spark之reduceByKey与GroupByKey

reduceByKey与GroupByKey，为什么尽量少用GroupByKey

Spark | reduceByKey 和 groupByKey 对比

尽量使用reduceByKey代替groupByKey

32、reduceByKey和groupByKey对比

GroupBykey 和ReduceBykey 的效率比较

[Apache Spark API][GroupByKey Vs ReduceByKey]

Spark groupByKey、sortByKey、reduceByKey Java实现

【Spark】Spark groupByKey，reduceByKey，sortByKey 算子比较

spark(十)RDD的groupByKey和reduceByKey实现

【菜鸟系列】spark常用算子总结（scala、java）--groupByKey，reduceByKey

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

tensorflow 笔记：二（北大）

fork函数详解

unity单利模板

mac下的特殊键位指引（转自apple）

c语言入门-注释

Python--多任务[线程，进程，协程]

深度对抗学习在图像分割和超分辨率中的应用

【转】【Maven】Project configuration is not up-to-date with pom.xml错误解决方法

基本数据类型与常量池

部署自己的Intell项目的经历

每日归档

更多

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)