理解sparkRDD的fold()和aggregate()算子 - 代码天地

理解sparkRDD的fold()和aggregate()算子

其他 2018-10-17 13:37:07 阅读次数: 0

1、fold()

函数原型：fold(self, zeroValue, op)

示例：求序列[1,2,3,4,5]的元素累加和

>>> nums = sc.parallelize([1,2,3,4,5])

>>> sumCnt = nums.fold(0, lambda x, y: x + y)
>>> print sumCnt
15

zeroValue意义：1、初值；2、保存中间结果

执行累加过程分解：

1、[1,2,3,4,5], zeroValue = 0

2、currentVal = 1， zeroValue = 0

3、currentVal = 2， zeroValue = 1

4、currentVal = 3， zeroValue = 3

5、currentVal = 4， zeroValue = 6

6、sumCnt = 4 + 6 = 10

2、aggregate()

函数原型：aggregate(self, zeroValue, seqOp, combOp)

seqOp：针对每个分区（节点）的操作函数

combOp：在seqOp对每个分区操作完成之后，将每个分区的结果进行整合，从而求出最后的结果

示例：求序列[1,2,3,4,5]的均值

>>> nums = sc.parallelize([1,2,3,4,5])
>>> sumCnt = nums.aggregate((0, 0), (lambda partSumAndNum, zeroVal: (partSumAndNum[0] + zeroVal, partSumAndNum[1] + 1)), (lambda part1Ret, part2Ret: (part1Ret[0] + part2Ret[0], part1Ret[1] + part2Ret[1])))
>>> print sumCnt[0] / float(sumCnt[1])
3.0

partSumAndNum：某分区（节点）的元素累加和以及元素个数，如part1的元素序列为[1,2,3,4,5]，则part1的partSumAndNum=(15, 5)

猜你喜欢

转载自blog.csdn.net/u011376563/article/details/79045525

理解sparkRDD的fold()和aggregate()算子

SparkRDD之aggregate

sparkRDD操作，转换算子和行动算子

SparkRDD算子初识

sparkRDD算子系列-treeAggregate算子

spark算子之Aggregate

SparkRDD简单理解

sparkRDD高级算子 combineByKey函数详解

sparkRdd driver和excuter

基于OneFlow实现Unfold、Fold算子

Spark中fold算子详解介绍

Spark算子中combineByKey算子的理解（包含mapPartitionsWithIndex算子和parallelizePairs算子）【Java版纯代码】

sparkRDD

Spark高级算子aggregate所遇到的坑

Spark高级算子：mapPartitionsWithIndex，aggregate，aggregateByKey

Spark中aggregate算子详解介绍

常用SparkRDD容易混淆的算子区别（Scala版本）

sparkRDD：第3节 RDD常用的算子操作

SparkRDD之cogroup和groupWith

SparkRDD之mapPartitions和mapPartitionsWithIndex

SparkRDD之coalesce和repartition

SparkRDD之countByKey和countByValue

SparkRDD之countApproxDistinct和countApproxDistinctByKey

95-140-124-源码-transform-算子fold

对mongodb的aggregate管道用法的理解

reduce,aggregate和groupBy

treeAggregate和Aggregate的区别

aggregate和annotate使用

django annotate和aggregate

8 spark之基本的Action操作 first, take, collect, count, countByValue, reduce, aggregate, fold,top

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)