查看spark RDD 各分区内容

其他 2018-12-31 19:57:58 阅读次数: 0

mapPartitionsWithIndex
def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U]

函数作用同mapPartitions，不过提供了分区的索引（代码中partid）。

val rdd = sc.parallelize(1 to 8,3)
rdd.mapPartitionsWithIndex{
(partid,iter)=>{
var part_map = scala.collection.mutable.Map[String,List[Int]]()
var part_name = "part_" + partid
part_map(part_name) = List[Int]()
while(iter.hasNext){
part_map(part_name) :+= iter.next()//:+= 列表尾部追加元素
}
part_map.iterator
}
}.collect

OUTPUT

res0: Array[(String, List[Int])] = Array((part_0,List(1, 2)), (part_1,List(3, 4, 5)), (part_2,List(6, 7, 8)))

转自：https://blog.csdn.net/jasonwang_/article/details/80369222

猜你喜欢

转载自www.cnblogs.com/harvey888/p/10203066.html

查看spark RDD 各分区内容

spark 中如何查看单个RDD分区的内容（创建分区，查看分区数）

[Spark RDD_add_2] Spark RDD 分区补充内容

spark Rdd的默认分区

【SPARK】- RDD分区

【spark】RDD分区解析

【Spark】RDD分区

Spark的RDD分区器

Spark RDD分区

Spark RDD的默认分区数

spark rdd分区与任务的关系

Spark中的RDD以及分区

Spark——键值对 RDD 数据分区

【Spark练习】RDD分区操作

Spark RDD的默认分区数：（spark 2.1.0）

Spark RDD算子之RDD 分区操作 -- mapPartitions、mapPartitionsWithIndex、glom

Spark2.0-RDD分区原理分析

影响Spark输出RDD分区的操作函数

Spark中键值对RDD数据分区

Spark创建RDD分区数量源码详解

Spark RDD

[Spark]-RDD

Spark | RDD

spark==RDD

spark --RDD

spark的RDD

【Spark】RDD

spark学习（2）---打印RDD内容

spark RDD和RDD算子

RDD分区

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)