常见的transformation、action算子及其用途 - 代码天地

常见的transformation、action算子及其用途

其他 2019-12-18 15:50:49 阅读次数: 0

RDD：RDD分区数，若从HDFS创建RDD，RDD的分区就是和文件块一一对应，若是集合并行化形式创建，RDD分区数可以指定，一般默认值是CPU的核数。

task：task数量就是和分区数量对应。

1、transformation：

（1）map(func)：将函数应用于RDD中的每一个元素，将返回值构成新的RDD。

rdd.map(x=>x+1)

如：{1，2，3，3} 结果为 {2，3，4，4}

（2）mapPartitions(func)：函数中传入的参数是迭代器，迭代器里面保存的是一个分区里面的数据。

/**

* makeRDD方法的第一个参数代表的是RDD中的 元素

* 第二个参数：RDD的分区数

* rdd[Int]

*/

val rdd = sc.makeRDD(1 to 10,3)

/**

* mapPartitions这个算子遍历的单位是partition

* 会将一个partition的数据量全部加载到一个集合里面

*/

val mapPartitonsRDD = rdd.mapPartitions(iterator=>{

val list = new ListBuffer[Int]()

//创建一个数据库连接

while(iterator.hasNext){

val num = iterator.next()

list.+=(num+100)

}

//批量插入数据库

list.iterator

}, false)

/**

* 想要执行，必须有action类的算子

* collect算子会将集群中计算的结果回收到Driver端，慎用

*/

val resultArr = mapPartitonsRDD.collect()

resultArr.foreach { println }

map和mapPartition的异同：

　　mapPartition function一次处理一个分区的数据，性能比较高；

　　map的function一次只处理一条数据。

　　如果在map过程中需要频繁创建额外的对象(例如将rdd中的数据通过jdbc写入数据库,map需要为每个元素创建一个链接而mapPartition为每个partition创建一个链接),则mapPartitions效率比map高的多。

SparkSql或DataFrame默认会对程序进行mapPartition的优化。

参考博客：https://blog.csdn.net/wuxintdrh/article/details/80278479

（3）reduceByKey（func，[numTask]）：找到相同的key，对其进行聚合，聚合的规则由func指定。

reduce任务的数量可以由numTask指定

goodsSaleRDD.reduceByKey((x,y) => x+y)

参考博客：https://www.jianshu.com/p/af175e66ce99

（4）

2、action：

猜你喜欢

转载自www.cnblogs.com/guoyu1/p/12060075.html

常见的transformation、action算子及其用途

常见的action算子

spark 算子（Transformation and Action）

Transformation算子，action算子，产生shuffle的算子

transformation和action的算子简介

SparkCore中的常见Transformations算子和Action算子

Spark RDD中两种算子之一：常见Transformation算子小结

Spark中transformation和Action的RDD算子

Spark_Transformation和Action算子

总结常用的Transformation算子和Action算子，及基本用法

转换算子(TransFormation)和执行算子(Action)

【协议】常见的应用层协议及其用途

Spark RDD中两种算子之一：常见Action算子小结

Spark Transformation和Action算子速查表

大数据教程：Transformation和Action算子演示

Spark -- RDD两种算子：Transformation 和 Action

JavaScript —— 常见用途

Spark常见算子

flink 常见算子

spark笔记第二天（RDD、wordcount，transformation算子、action算子）

Spark，总结和帮助记忆常用action算子和Transformation算子

spark -- RDD-API （创建RDD RDD的方法/算子分类 Transformation转换算子 Action动作算子统计操作）

Java中常见的jar包及其主要用途

spark常见算子操作

StrutsTestCase配置的常见问题及其多级Action的处理方式

spark transformation算子

Spark transformation算子案例

Spark常用的transformation算子

图解Spark Transformation算子

Spark之transformation算子

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)