spark学习 —— 键值对操作

其他 2020-04-29 11:29:05 阅读次数: 0

文章目录

创建键值对RDD
键值对RDD上的变换

单个RDD上的变换
两个RDD间的变换
wordcount

创建键值对RDD

map

>>> lines = sc.textFile("/input/README.md")
>>> lines.count()
104
>>> pairs = lines.map(lambda x: (x.split(" ")[0], x))

键值对RDD上的变换

除了普通RDD上的变换：map, filter等等，

>>> pairs = pairs.filter(lambda kv: len(kv[1]) < 20 and len(kv[1])>0)
>>> pairs.take(10)
[(u'#', u'# Apache Spark'), (u'##', u'## Building Spark'), (u'', u'    ./bin/pyspark'), (u'##', u'## Example Programs'), (u'##', u'## Running Tests'), (u'can', u'can be run using:'), (u'', u'    ./dev/run-tests'), (u'##', u'## Configuration'), (u'##', u'## Contributing')]

主要还有和 key、value相关的变换：

单个RDD上的变换

reduceByKey(func)
groupByKey()
combineByKey ( createCombiner, mergeValue, mergeCombiners, partitioner )
mapValues(func)
= map(lambda x, y: (x, func(y)))
flatMapValues(func)
keys()
values()
sortByKey()
…

两个RDD间的变换

subtractByKey
join
rightOuterJoin
leftOuterJoin
cogroup
…

wordcount

>>> rdd = sc.textFile('/input/README.md')
>>> rdd
/input/README.md MapPartitionsRDD[12] at textFile at NativeMethodAccessorImpl.java:0
>>> rdd.count()
104
>>> words = rdd.flatMap(lambda x: x.split(' '))
>>> words.take(10)
[u'#', u'Apache', u'Spark', u'', u'Spark', u'is', u'a', u'fast', u'and', u'general']
>>> result = words.map(lambda x: (x,1)).reduceByKey(lambda x,y: x+y)
>>> result.take(10)
[(u'', 72), (u'when', 1), (u'R,', 1), (u'including', 4), (u'computation', 1), (u'Kubernetes', 1), (u'using:', 1), (u'guidance', 2), (u'Scala,', 1), (u'environment', 1)]

or

>>> wordcount = rdd.flatMap(lambda x: x.split(' ')).countByValue()
>>> zip(wordcount.keys(), wordcount.values())[:10]
[(u'', 72), (u'project.', 1), (u'help', 1), (u'storage', 1), (u'Once', 1), (u'Hadoop', 3), (u'not', 1), (u'./dev/run-tests', 1), (u'including', 4), (u'same', 1)]

`

颹蕭蕭

原创文章 338 获赞 621 访问量 50万+

关注他的留言板

猜你喜欢

转载自blog.csdn.net/itnerd/article/details/105490080

spark学习 —— 键值对操作

Spark 键值对RDD操作

（三）Spark 键值对操作

Spark学习笔记：（3、键值对操作）

Spark（四）Spark 键值对操作

Spark中的键值对操作 JavaPairRDD

Spark中的键值对操作-scala

Spark 杂记--- 键值对操作RDD

Spark键值对RDD的转化操作

Redis之学习-键值操作

4 spark入门键值对聚合操作combineByKey

spark core之键值对操作（六）

6.spark core之键值对操作

Spark之键值对操作-Java篇（三）

Spark编程--键值对RDD转换操作

7 spark入门键值对操作subtractByKey, join, rightOuterJoin, leftOuterJoin

6 spark入门键值对操作sortByKey、groupByKey、groupBy、cogroup

Spark由浅到深(3)-- 键值对型数据操作

3.3 Spark RDD 键值转换操作2-combineByKey、foldByKey

3.3 Spark RDD 键值转换操作4-cogroup、join

Spark RDD常用算子操作（八）键值对关联操作 subtractByKey, join,fullOuterJoin, rightOuterJoin, leftOuterJoin

键值对操作

3.3 Spark RDD 键值转换操作1-partitionBy、mapValues、flatMapValues

3.3 Spark RDD 键值转换操作3-groupByKey、reduceByKey、reduceByKeyLocally

3.3 Spark RDD键值转换操作5-leftOuterJoin、rightOuterJoin、subtractByKey

Spark学习笔记-HBase操作

Spark学习——RDD基本操作

5 spark入门键值对foldByKey

Spark入门（五）：键值对RDD

Spark——键值对 RDD 数据分区

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)