sparkRDD高级算子 combineByKey函数详解 - 代码天地

sparkRDD高级算子 combineByKey函数详解

其他 2018-10-30 23:21:19 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_25908611/article/details/80491659

spark中高级算子：combineByKey函数详解

combineByKey函数源码如下：

  def combineByKey[C](
      createCombiner: V => C,        //当前值作为参数，可被认为初始化操作
      mergeValue: (C, V) => C,       //在分区中操作，把当前的元素V合并到上次结果的C中
      mergeCombiners: (C, C) => C): RDD[(K, C)] = self.withScope {    //把每个分区的结果进行最终的计算
    combineByKeyWithClassTag(createCombiner, mergeValue, mergeCombiners)(null)
  }

以下两个示例来讲解combineByKey函数：

示例1：实现wordCount

   val conf = new SparkConf().setAppName("combineByKey")
   conf.setMaster("local")
   val sc = new SparkContext(conf)
   //读取hdfs文件并创建rdd对象 hello.txt文件如下：
   val rdd = sc.textFile("hdfs://master:9000/user/hadoop/spark/xxx.txt")
   val result = rdd.flatMap(_.split(" ")).map((_,1)).combineByKey(x=>x,(m:Int,n:Int)=>(m+n),(a:Int,b:Int)=>(a+b)).collect
   println(result.toBuffer)

执行结果如下：

(m:Int,n:Int) => (m+n)是对每个分区中元素进行的操作，(a:Int,b:Int) => a+b 得到每个分区的结果进行最后的累加。

示例2：将数组中的1的放入一个集合中，2的放到一个集合中

  利用并行化方式创建rdd
  val rdd2 = sc.parallelize(Array((1, "dog"), (2, "gnu"), (2, "salmon"), (2, "rubbit"), (1, "turkey"), (2, "wolf"), (2, "bear"), (2, "bee")), 3)
  val result2 = rdd2.combineByKey(List(_),(m:List[String],n:String)=>m:+n,(a:List[String],b:List[String])=>a:::b).collect()
  println(result2.toBuffer)

执行结果如下：

1、List(_):初始化一个List集合。

2、(m:List[String],n:String) => m:+n,其中m:List[String]是分区中的第一个元素，所以创建一个list，n为当前的元素，执行m:+n,把n元素放到m集合中。

3、(a:List[String],b:List[String]) => a:::b,每个分区的结果都是一个List，a:::b则把他们连接一起。

猜你喜欢

转载自blog.csdn.net/qq_25908611/article/details/80491659

sparkRDD高级算子 combineByKey函数详解

spark的combineByKey算子原理详解

Spark高级函数应用【combineByKey】

Spark中combineByKey算子详解介绍

SparkRDD之combineByKey

Scala中高级算子，combineByKey

SparkRDD函数详解

SparkRDD算子初识

sparkRDD算子系列-treeAggregate算子

Spark核心RDD：combineByKey函数详解

Spark算子篇-combineByKey实战

java实现spark算子combineByKey

RDD算子源码《二》基于combineByKey()的算子

讲明白combineByKey()算子，不是谈源码

理解sparkRDD的fold()和aggregate()算子

Spark部分：CombineByKey 算子和foldByKey算子【待处理】

sparkRDD操作，转换算子和行动算子

Spark算子中combineByKey算子的理解（包含mapPartitionsWithIndex算子和parallelizePairs算子）【Java版纯代码】

spark中的combineByKey函数的用法

CombineByKey

sparkRDD编程常用函数方法

sparkRDD

spark通过combineByKey算子实现条件性聚合的方法

Spark算子：transformation之键值转换combineByKey、foldByKey

常用SparkRDD容易混淆的算子区别（Scala版本）

sparkRDD：第3节 RDD常用的算子操作

spark的RDD高级算子

spark高级算子(一)

Key-Value类型RDD转换算子1——partitionBy、groupByKey & reduceByKey、aggregateByKey & foldByKey & combineByKey

图像边缘检测之sobel算子详解——opencv sobel函数

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)