aggregate，aggregateByKey - 代码天地

aggregate，aggregateByKey

其他 2018-10-31 18:10:19 阅读次数: 0

翻译过来就是：aggregate先对每个分区的元素做聚集，然后对所有分区的结果做聚集，聚集过程中，使用的是给定的聚集函数以及初始值”zero value”。这个函数能返回一个与原始RDD不同的类型U，因此，需要一个合并RDD类型T到结果类型U的函数，还需要一个合并类型U的函数。这两个函数都可以修改和返回他们的第一个参数，而不是重新新建一个U类型的参数以避免重新分配内存。
参数zeroValue：seqOp运算符的每个分区的累积结果的初始值以及combOp运算符的不同分区的组合结果的初始值 - 这通常将是初始元素（例如“Nil”表的列表连接或“0”表示求和）

参数seqOp：每个分区累积结果的聚集函数。
参数combOp：一个关联运算符用于组合不同分区的结果

val list = List(1,2,3,4,5,6,7,8,9)
val (mul, sum, count) = sc.parallelize(list, 2).aggregate((1, 0, 0))(
    (acc, number) => (acc._1 * number, acc._2 + number, acc._3 + 1),
    (x, y) => (x._1 * y._1, x._2 + y._2, x._3 + y._3)
        )
    (sum / count, mul)

在常见的求均值的基础上稍作了变动，sum是求和，count是累积元素的个数，mul是求各元素的乘积。
解释一下具体过程：
1.初始值是(1, 0 ,0)
2.number是函数中的T，也就是List中的元素，此时类型为Int。而acc的类型为(Int, Int, Int)。acc._1 * num是各元素相乘(初始值为1)，acc._2 + number为各元素相加。
3.sum / count为计算平均数。

aggregate是针对序列的操作，aggregateByKey则是针对k,v对的操作。顾名思义，aggregateByKey则是针对key做aggregate操作。

---------------------
作者：bitcarmanlee
来源：CSDN
原文：https://blog.csdn.net/bitcarmanlee/article/details/78088304
版权声明：本文为博主原创文章，转载请附上博文链接！

猜你喜欢

转载自blog.csdn.net/hanyong4719/article/details/83270061

aggregate，aggregateByKey

spark aggregateByKey与aggregate

Spark操作—aggregate、aggregateByKey详解

Spark高级算子：mapPartitionsWithIndex，aggregate，aggregateByKey

aggregate

aggregateByKey的使用

spark-aggregateByKey

Operator_AggregateByKey

SparkRDD之aggregateByKey

对spark算子aggregateByKey的理解

aggregat和aggregateByKey用法

aggregateByKey的使用及案例

Spark——aggregateByKey 案例

MongoDB——aggregate。

mongo aggregate

The aggregate functions are:

feature aggregate

Aggregate Services

aggregate聚合

aggregate(聚合)

aggregate函数

Spark算子之aggregateByKey详解

Spark core算子aggregateByKey实例

spark 使用aggregateByKey 代替groupbyKey

Spark编程：combineByKey与aggregateByKey异同

MongoDB聚合(aggregate) MongoDB聚合(aggregate)

【Spark九十七】RDD API之aggregateByKey

spark-聚合算子aggregatebykey

【SparkAPI JAVA版】JavaPairRDD——aggregateByKey（二）

由aggregateByKey看到spark的性能调优

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)