spark RDD中foreachPartition和foreach说明 - 代码天地

spark RDD中foreachPartition和foreach说明

编程语言 2018-05-10 09:08:38 阅读次数: 0

主题：RDD的foreachPartition/foreach的操作

说明：这两个action主要用于对每个partition中的iterator时行迭代的处理.通过用户传入的function对iterator进行内容的处理.

一、foreach的操作:

foreach中,传入一个function,这个函数的传入参数就是每个partition中,每次的foreach得到的一个rdd的kv实例,也就是具体的内容,

这种处理你并不知道这个iterator的foreach什么时候结果,只能是foreach的过程中,你得到一条数据,就处理一条数据.

由下面的红色部分可以看出,foreach操作是直接调用了partition中数据的foreach操作：

def foreach(f: T => Unit): Unit = withScope {
val cleanF = sc.clean(f)
sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF))
}

示例说明:

val list = new ArrayBuffer()

Rdd.foreach(record => {

list += record

If (list.size >= 10000) {

list.flush

}

})

上面这段示例代码中,如果会存在一个问题,迭代的最后,list的结果可能还没有达到10000条,这个时候,

你在内部的处理的flush部分就不会执行,也就是迭代的最后如果没有达到10000的数据就会丢失.

所以在foreach中,一般就是拿到一条数据进行下处理Rdd.foreach(record => {record._1 == a return})

二、foreachPartition操作:

这个函数也是根据传入的function进行处理,但不同之处在于,这里function的传入参数是一个partition对应数据的iterator.

而不是直接使用iterator的foreach,这种情况下,如果是上面foreach的示例代码中list这个片段在这个action中就能够正常的去处理.

def foreachPartition(f: Iterator[T] => Unit): Unit = withScope {
val cleanF = sc.clean(f)
sc.runJob(this, (iter: Iterator[T]) => cleanF(iter))
}

示例代码:

Val list = new ArrayBuffer

rdd.foreachPartition(it => {

It.foreach(r => {

List += r

If (list.size > 10000) flush

})

If (list.size > 0) flush

})

最后说下这两个action的区别:

Foreach与ForeachPartition都是在每个partition中对iterator进行操作,

不同的是,foreach是直接在每个partition中直接对iterator执行foreach操作,而传入的function只是在foreach内部使用,

而foreachPartition是在每个partition中把iterator给传入的function,让function自己对iterator进行处理（可以避免内存溢出）.

参考文章：http://blog.csdn.NET/u014393917/article/details/50607437

猜你喜欢

转载自m635674608.iteye.com/blog/2375666

spark RDD中foreachPartition和foreach说明

Spark foreach和foreachPartition的区别

Spark之foreach和foreachPartition的区别

spark foreachPartition foreach

spark 学习记录 -- Spark中foreachPartition和partitions.foreach的区别

Rdd的 foreach 和 foreachPartition

spark中的常用算子区别（map、mapPartitions、foreach、foreachPartition）

Spark中foreachPartition和mapPartitions的区别

3.4 Spark RDD Action操作4-countByKey、foreach、foreachPartition、sortBy

RDD 中foreach与foreachPartition区别

Spark Java使用DataFrame的foreach/foreachPartition

Spark Streaming之妙用foreachRDD和foreachPartition —— 在foreachPartition去中去创建socket是明智的做法，直接rdd是有问题的

Spark中的RDD和DataFrame

Spark简介及RDD说明

RDD之foreach和foreachPartition方法

Spark中RDD的理解

Spark Streaming之妙用foreachRDD和foreachPartition

【Spark Java API】Action(3)—foreach、foreachPartition、lookup

spark RDD和RDD算子

Spark基础和RDD

spark中的foreach算子

关于Spark中RDD的思考和总结

转载 spark中的rdd Broadcast 和accumulator

Spark 中RDD和DataSet之间的转换

Spark中RDD、DataFrame和DataSet的区别

理解Spark中的RDD、DataFrame和DataSet

spark中RDD和DataFrame之间的转换

Spark中RDD的transformation和action

Spark中transformation和Action的RDD算子

Spark RDD中repartition和coalesce的区别

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)