spark transform系列__mapPartitions - 代码天地

spark transform系列__mapPartitions

企业开发 2018-05-10 12:05:38 阅读次数: 1

mapPartitions/mapPartitionsWithIndex

这两个transform中:mapPartitions与map的区别是map中是对每个partition中的iterator执行map操作,对 map过程中的每一条record进行传入的function的处理,而mapPartitions是把partition中整个iterator传给 function进行处理.如果是map操作,你并不能知道这个iterator什么时候结束,但mapPartitions时给你的是一个 iterator,所以你的函数中知道这个iterator什么时候会结束.而mapPartitionsWithIndex的函数是在 mapPartitions的基础上,多了一个传入参数,这个传入参数就是对应的partition的index.

mapPartitions的函数定义:

def mapPartitions[U: ClassTag](

这个函数的定义部分为一个参数,是对应partition的数据的iterator,
f: Iterator[T] => Iterator[U],

这个参数false表示在生成的MapPartitionsRDD中不包含partitioner算子.
preservesPartitioning: Boolean = false): RDD[U] = withScope {
val cleanedF = sc.clean(f)

直接生成一个MapPartitionsRDD,在生成这个rdd时,通过传入的function,这个function与map对应的function不同的是,function直接拿到一个iterator进行操作.
  new MapPartitionsRDD(
    this,
    (context: TaskContext, index: Int, iter: Iterator[T]) => cleanedF(iter),
    preservesPartitioning)
}

mapPartitionsWithIndex的函数定义:

这个函数的处理方法可以看到与mapPartitions基本上相同,不同的地方是f(function)的定义部分,此部分多出一个int类型的参数,这个参数是对应的iterator所在的partition的index.

def mapPartitionsWithIndex[U: ClassTag](
    f: (Int, Iterator[T]) => Iterator[U],
    preservesPartitioning: Boolean = false): RDD[U] = withScope {
  val cleanedF = sc.clean(f)
  new MapPartitionsRDD(
    this,
    (context: TaskContext, index: Int, iter: Iterator[T]) => cleanedF(index, iter),
    preservesPartitioning)
}

猜你喜欢

转载自hongs-yang.iteye.com/blog/2274856

spark transform系列__mapPartitions

spark transform系列__groupByKey

spark transform系列__sample

spark transform系列__reduceByKey

spark transform系列__sortByKey

Spark mapPartitions()操作

Spark mapPartitions和map

[Spark进阶]--map vs mapPartitions

spark中map与mapPartitions区别

spark map和mapPartitions区别

【Spark学习笔记】5、Java版-算子系列之mapPartitions(f:Iterator[T] => Iterator[U]) : RDD[T] => RDD[U]

Spark Streaming算子:transform

Spark transform 与action算子

Spark中foreachPartition和mapPartitions的区别

spark部分：map，flatmap，mapPartitions,mapPartitionswithindex算子

Spark Rdd map和mapPartitions效率问题

Spark-Core之map与mapPartitions

spark算子调优一：mapPartitions

spark中map和mapPartitions算子的区别

【spark】map和mapPartitions区别-代码示例

Learning Spark——Spark连接Mysql、mapPartitions高效连接HBase

Spark 系列

[Spark][spark_streaming]#4_Transform

Spark系列--Spark调优

Spark 系列（一）—— Spark 简介

Spark 系列（一）—— Spark简介

Spark002-transform&action

Spark API 之 map、mapPartitions、mapValues、flatMap、flatMapValues详解

spark map flatMap flatMapToPair mapPartitions 的区别和用途

spark中的常用算子区别（map、mapPartitions、foreach、foreachPartition）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)