Spark高级函数应用【combineByKey】 - 代码天地

Spark高级函数应用【combineByKey】

其他 2019-09-07 17:32:41 阅读次数: 0

一.combineByKey算子简介

　　功能：实现分组自定义求和及计数。

　　特点：用于处理(key,value)类型的数据。

　　实现步骤：

　　　　1.对要处理的数据进行初始化，以及一些转化操作

　　　　2.检测key是否是首次处理，首次处理则添加，否则则进行分区内合并【根据自定义逻辑】

　　　　3.分组合并，返回结果

二.combineByKey算子代码实战

 1 package big.data.analyse.scala.arithmetic
 2 
 3 import org.apache.spark.sql.SparkSession
 4 /**
 5   * Created by zhen on 2019/9/7.
 6   */
 7 object CombineByKey {
 8   def main (args: Array[String]) {
 9     val spark = SparkSession.builder().appName("CombineByKey").master("local[2]").getOrCreate()
10     val sc = spark.sparkContext
11     sc.setLogLevel("error")
12 
13     val initialScores = Array((("hadoop", "R"), 1), (("hadoop", "java"), 1),
14                               (("spark", "scala"), 1), (("spark", "R"), 1), (("spark", "java"), 1))
15 
16     val d1 = sc.parallelize(initialScores)
17 
18     val result = d1.map(x => (x._1._1, (x._1._2, x._2))).combineByKey(
19       (v : (String, Int)) => (v : (String, Int)), // 初始化操作，当key首次出现时初始化以及执行一些转化操作
20       (c : (String, Int), v : (String, Int)) => (c._1 + "," + v._1, c._2 + v._2), // 分区内合并，非首次出现时进行合并
21       (c1 : (String,Int),c2 : (String,Int)) => (c1._1 + "," + c2._1, c1._2 + c2._2)) // 分组合并
22       .collect()
23 
24     result.foreach(println)
25   }
26 }

三.combineByKey算子执行结果

　　

猜你喜欢

转载自www.cnblogs.com/yszd/p/11481923.html

Spark高级函数应用【combineByKey】

spark中的combineByKey函数的用法

Spark核心RDD：combineByKey函数详解

spark combineByKey

sparkRDD高级算子 combineByKey函数详解

Spark API 之combineByKey

spark combineByKey的使用

spark的combineByKey算子原理详解

Spark算子篇-combineByKey实战

java实现spark算子combineByKey

Spark编程：combineByKey与aggregateByKey异同

Spark入门（六）--Spark的combineByKey、sortBykey

CombineByKey

【Spark九十六】RDD API之combineByKey

4 spark入门键值对聚合操作combineByKey

Spark中combineByKey算子详解介绍

Scala中高级算子，combineByKey

Python——函数的高级应用

python函数的高级应用

Spark SQL内置函数应用

spark学习笔记5 spark高级应用与持久化

spark通过combineByKey算子实现条件性聚合的方法

Spark部分：CombineByKey 算子和foldByKey算子【待处理】

Spark2.1.1<通俗易懂理解combineByKey-combineByKeyWithClassTag>

Spark算子：transformation之键值转换combineByKey、foldByKey

3.3 Spark RDD 键值转换操作2-combineByKey、foldByKey

Spark中的groupByKey,reduceByKey,combineBykey,和aggregateByKey的比较和区别

【spark】二 reduceByKey、reduceByKeyLocally、groupByKey、combineByKey、aggregateByKey 区别 [待补充]

Spark高级

Spark-Core应用详解之高级篇

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)