【Spark】spark使用aggregateByKey替代groupBeKey

其他 2020-01-29 18:33:48 阅读次数: 0

spark使用aggregateByKey替代groupBeKey

使用aggregateByKey需要确定下面三个参数：

zeroValue ：初始值
seqOp : 对于key相同的元素的操作方法
combOp : 对于key不同的元素的操作方法

听起来很难懂，看个例子就明白了：

val data=List((1,3),(1,2),(1,4),(2,3))
val rdd=sc.parallelize(data )
//合并不同partition中的值，a，b得数据类型为zeroValue的数据类型
def combOp(a:List[Int],b:List[Int]):List[Int] ={
  a ++ b
}
def seqOp(a:List[Int],b:Int):List[Int]={
  a.::(b)
}

val aggregateByKeyRDD=rdd.aggregateByKey(List(0))(seqOp, combOp)
aggregateByKeyRDD.foreach(println)
val groupbykeyRDD=rdd.groupByKey()
groupbykeyRDD.foreach(println)

输出结果为：

(1,List(4, 2, 3, 0))
(2,List(3, 0))
(1,CompactBuffer(3, 2, 4))
(2,CompactBuffer(3))

发布了97 篇原创文章 · 获赞 55 · 访问量 13万+

私信关注

猜你喜欢

转载自blog.csdn.net/voidfaceless/article/details/103557558

【Spark】spark使用aggregateByKey替代groupBeKey

spark 使用aggregateByKey 代替groupbyKey

Spark部分：调优【reduceByKey/aggregateByKey替代groupByKey，mapPartitions替代普通map，foreachPartitions替代foreach】

spark-aggregateByKey

对spark算子aggregateByKey的理解

spark aggregateByKey与aggregate

Spark——aggregateByKey 案例

Spark操作—aggregate、aggregateByKey详解

Spark算子之aggregateByKey详解

Spark core算子aggregateByKey实例

Spark编程：combineByKey与aggregateByKey异同

【Spark九十七】RDD API之aggregateByKey

spark-聚合算子aggregatebykey

由aggregateByKey看到spark的性能调优

Spark高级算子：mapPartitionsWithIndex，aggregate，aggregateByKey

Spark中aggregateByKey算子详解介绍

Spark算子中aggregateByKey算子的理解【Java版纯代码】

Spark中的groupByKey,reduceByKey,combineBykey,和aggregateByKey的比较和区别

【spark】二 reduceByKey、reduceByKeyLocally、groupByKey、combineByKey、aggregateByKey 区别 [待补充]

Spark为何使用Netty通信框架替代Akka

aggregateByKey的使用

Spark是否会替代Hadoop?

Spark 使用

HADOOP和spark的关系？ spark能否替代Hadoop？？？

spark aggregateByKey 时 java.lang.OutOfMemoryError: GC overhead limit exceeded

Spark代码可读性与性能优化——示例六（groupBy、reduceByKey、aggregateByKey）

Spark 04 Spark SQL 使用

Spark集群中使用spark。

spark

spark：

今日推荐

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

周排行

mongodb 下载与安装与初步使用

20190530

iOS录制回放神器AutoTouch使用介绍

同心圆猜数字游戏

mamp pro安装redis扩展各个步骤截图

windows10下安装docker报错：error during connect

跨域授权 Federated Identity Pattern

js时间比较大小

pandas to_csv()使用方法

从JDK源码角度看Byte

每日归档

更多

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)