Spark常用算子总结 - 代码天地

Spark常用算子总结

其他 2018-06-12 17:02:50 阅读次数: 0

Spark 算子大致可以分为以下两类:

1）Transformation 变换/转换算子：这种变换并不触发提交作业。

　　　　　这种操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD的转换的操作并不会马上执行，而是要等到有 Action 操作的时候才会触发。

2）Action 行动算子：这类算子会触发 SparkContext 提交 Job 作业。

　　　　Action 算子会触发 Spark 提交作业（Job），并将数据输出 Spark系统。

　　而Transformation算子有可以分为2类：

　　1）Value数据类型的Transformation算子，针对处理的数据项是Value型的数据。
　　2）Key-Value数据类型的Transfromation算子，针对处理的数据项是Key-Value型的数据对。

1. Transformations 算子
　map

　　将原来 RDD 的每个数据项通过 map 中的用户自定义函数 f 映射转变为一个新的元素。

flatMap
将原来 RDD 中的每个元素通过函数 f 转换为新的元素，并将生成的 RDD 的每个集合中的元素合并为一个集合。

groupBy
　　groupBy ：将元素通过函数生成相应的 Key，数据就转化为 Key-Value 格式，之后将 Key 相同的元素分为一组。

filter
filter 函数功能是对元素进行过滤，对每个元素应用 f 函数，返回值为 true 的元素在RDD 中保留，返回值为 false 的元素将被过滤掉。

foreach
　　foreach 对 RDD 中的每个元素都应用 f 函数操作，不返回 RDD 和 Array，而是返回Uint。

saveAsTextFile
　　函数将数据输出，存储到 HDFS 的指定目录。

collect
　　collect 将分布式的 RDD 返回为一个单机的 scala Array 数组。在这个数组上运用 scala 的函数式操作。

count
　　count 返回整个 RDD 的元素个数。

saveAsHadoopDataset

　　把task中的数据通过指定的output format写入到hadoop的实现接口中

猜你喜欢

转载自www.cnblogs.com/mycd/p/9173914.html

Spark常用算子总结

spark 常用算子总结

Spark常用算子总结大全

Spark常用的算子总结——Map

Spark RDD 常用算子总结

Spark32个常用算子总结

Spark常用的算子总结（5）—— groupByKey

Spark常用的算子总结（4）—— reduceByKey

Spark常用的算子总结（3）—— flatMapValues

spark常用的算子总结（8）—— filter

spark常用的算子总结（7）—— join

Spark常用的算子总结（2）——flatMap

spark常用的算子总结（6）—— sortByKey

Spark常用算子详解

Spark常用算子练习

spark常用算子

Spark RDD 常用算子

Spark常用算子讲解

Spark 常用算子

Spark常用的action算子

Spark常用的transformation算子

Spark 常用Action算子

Spark常用算子的区别

Spark常用Actions算子

Spark算子总结

spark RDD算子总结

【菜鸟系列】spark常用算子总结（scala、java）--groupByKey，reduceByKey

Spark，总结和帮助记忆常用action算子和Transformation算子

spark常用算子的简单使用

Spark RDD常用算子整理

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)