spark RDD的map方法和mapPartitionsWithIndex方法的区别 - 代码天地

spark RDD的map方法和mapPartitionsWithIndex方法的区别

其他 2019-03-24 10:01:04 阅读次数: 0

RDD的map方法，是Executor中执行时，是一条一条的将数据拿出来处理

mapPartitionsWithIndex 一次拿出一个分区（分区中并没有数据，而是记录要读取哪些数据，真正生成的Task会读取多条数据），并且可以将分区的编号取出来

先来看一下mapPartitionsWithIndex 方法的源码：

/**
   * Return a new RDD by applying a function to each partition of this RDD, while tracking the index
   * of the original partition.
   *
   * `preservesPartitioning` indicates whether the input function preserves the partitioner, which
   * should be `false` unless this is a pair RDD and the input function doesn't modify the keys.
   */
  def mapPartitionsWithIndex[U: ClassTag](
      f: (Int, Iterator[T]) => Iterator[U],
      preservesPartitioning: Boolean = false): RDD[U] = withScope {
    val cleanedF = sc.clean(f)
    new MapPartitionsRDD(
      this,
      (context: TaskContext, index: Int, iter: Iterator[T]) => cleanedF(index, iter),
      preservesPartitioning)
  }

解释：通过对这个RDD的每个分区应用一个函数来返回一个新的RDD，同时跟踪原始分区的索引。
通过这个源码可以看出，mapPartitionsWithIndex方法要传入一个函数，还要在传入一个布尔类型的值，这个布尔类型的值默认是false。传入的这个函数也接受两个参数，一个是Int类型的，他代表分区的索引，一个是迭代器，代表对应分区中的数据。

下面写一个方法：
功能：取分区中对应的数据时，还可以将分区的编号取出来，这样就可以知道数据是属于哪个分区的（哪个分区对应的Task的数据）

val func = (index: Int, iter: Iterator[Int]) => {
  iter.map(x => "[partID:" +  index + ", val: " + x + "]")
}

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43866709/article/details/88641820

spark RDD的map方法和mapPartitionsWithIndex方法的区别

Spark map、mapPartitions、mapPartitionsWithIndex算子的区别和使用

Spark mapPartition方法与map方法的区别

spark RDD的aggregate（聚合）方法

spark RDD 的map与flatmap区别说明

spark部分：map，flatmap，mapPartitions,mapPartitionswithindex算子

Spark RDD算子之RDD 分区操作 -- mapPartitions、mapPartitionsWithIndex、glom

Spark Rdd map和mapPartitions效率问题

3.2 Spark RDD 基本转换操作5-mapPartitions、mapPartitionsWithIndex

Spark RDD、DataFrame和DataSet的区别

Spark RDD,DataFrame和DataSet的区别

Spark中RDD、DataFrame和DataSet的区别

Spark RDD中repartition和coalesce的区别

spark map和mapPartitions区别

Spark的map和flatmap的区别

Spark入门(四)——Spark RDD算子使用方法

Spark基础和RDD

spark map flatmap collect方法

spark RDD和RDD算子

Spark RDD :Spark API--Spark RDD

Spark RDD

[Spark]-RDD

Spark | RDD

spark --RDD

spark==RDD

spark的RDD

【Spark】RDD

【Spark】Spark二：Spark RDD初步

spark-dataframe与rdd的区别

Spark：map与flatMap区别

今日推荐

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

对话Kaldi之父、小米首席语音科学家Daniel Povey：开源环境比金钱和荣誉更吸引我 | AGI技术50人...

Hugging Face全攻略：轻松下载Llama 3模型，探索NLP的无限可能！【实操】

阅读送书抽奖？玩转抽奖游戏，js-tool-big-box工具库新上抽奖功能

百度发布Comate代码知识增强2.0，国内首个支持实时检索智能代码助手

黑客利用扫雷游戏 Python 克隆隐藏恶意脚本，攻击欧洲和美国金融机构

微软对开源字体 Cascadia Code 进行重大更新

好书推荐《ChatGPT原理与架构：大模型的预训练、迁移和中间件编程》

Baidu Comate 智能编码助手：编程新伙伴，效率新飞跃

AI时代：人工智能大模型引领科技创造新时代

百篇博客 · 千里之行

周排行

Python模块之shelve

勇于承担责任

Hikyuu 1.1.0 发布，量化交易研究框架

字节跳动Java3面“凉凉”~不负韶华，努力复习备战“金三银四”

Linux下静态链接库与动态链接库的区别

spring boot架构改造

怎么理解AOP

文件不同步 --本地和eclipse

在linux配置nginx负载均衡

Linux Shell基础命令

每日归档

更多

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)