spark 相同的key的value聚合成一个 - 代码天地

spark 相同的key的value聚合成一个

其他 2020-01-22 13:25:17 阅读次数: 0

wordcount例子

val conf = new SparkConf().setAppName("GroupAndReduce").setMaster("local")
val sc = new SparkContext(conf)
val words = Array("one", "two", "two", "three", "three", "three")
val wordsRDD = sc.parallelize(words).map(row => (row, 1))
val wordsCountWithGroup = wordsRDD.
groupByKey().  // 其实groupByKey之后下面的 pair._2 已经成了一个value的list
map(pair => (pair._1, pair._2.sum)). // pair._1 和 pair._2 代表 word 和 list(里面都是1)
collect().
foreach(println)

如果是要把string（“abc”）聚合成一个

val conf = new SparkConf().setAppName("GroupAndReduce").setMaster("local")
val sc = new SparkContext(conf)
val words = Array("one", "two", "two", "three", "three", "three")
val wordsRDD = sc.parallelize(words).map(row => (row, "abc"))
val wordsCountWithGroup = wordsRDD.
groupByKey().  
map(pair => {
  val onestr = pair._2.toArray.sorted.mkString("@@@")
  (pair._1, onestr)
collect().
foreach(println)

发布了1142 篇原创文章 · 获赞 196 · 访问量 260万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/guotong1988/article/details/104010337

spark 相同的key的value聚合成一个

Spark（一）Spark概述

【Spark】(一) Spark入门

Spark Key-Value类型

Spark（一）

spark实现将相同用户（key）所有item列表聚合

Spark 系列（一）—— Spark 简介

Spark 系列（一）—— Spark简介

【Spark100】Spark Streaming Checkpoint的一个坑

spark wordcount 第一个spark 程序

Spark(四): spark第一个编程(JAVA)

spark基础---->spark的第一个程序

【Spark】Spark ML 机器学习的一个案例

spark value $ is not a member of StringContext

第一个Spark程序

一个Spark job的生命历程

Spark的一个小Demo

Spark第一个程序

Spark第一个程序

Spark，一个奇迹的诞生！

【Spark】Spark一：Spark伪分布式安装

【Spark七十九】Spark RDD API一

Spark运行模式（一）－－－－－Spark独立模式

Spark（一）————Spark介绍以及集群搭建

Spark一 Spark概念和特征

Spark学习（一）——Spark运行架构

Spark学习笔记：一、Spark简介

Spark学习笔记（一）——Spark编程

[Kafka与Spark集成系列一] Spark入门

spark入门一（spark集群的安装）

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)