Spark RDD中repartition和coalesce的区别 - 代码天地

Spark RDD中repartition和coalesce的区别

其他 2020-06-28 11:28:15 阅读次数: 0

1、repartition

repartition会根据用户传入的分区数重新通过网络分区所有数据，它会产生shuffle过程，所以是一个重型操作。

    val kv1: RDD[(String, Int)] = sc.parallelize(List(
      ("zhangsan", 11),
      ("zhangsan", 12),
      ("lisi", 13),
      ("wangwu", 14)
    ))
    val kv2: RDD[(String, Int)] = sc.parallelize(List(
      ("zhangsan", 21),
      ("zhangsan", 12),
      ("zhangsan", 22),
      ("lisi", 23),
      ("zhaoliu", 28)
    ))
    
    val value1: RDD[(String, Int)] = kv1.repartition(3)  ##结果：3
    println(value1.partitions.length)

2、coalesce

coalesce同样对用户传入的分区数进行分区，但是它不会产生shuffle过程。我们知道，DAGScheduler创建Task的数量取决于Stage的最后一个RDD的分区数，如果不进行shuffle，那么coalesce根本无法精准控制分区数。

    val kv1: RDD[(String, Int)] = sc.parallelize(List(
      ("zhangsan", 11),
      ("zhangsan", 12),
      ("lisi", 13),
      ("wangwu", 14)
    ))
    val kv2: RDD[(String, Int)] = sc.parallelize(List(
      ("zhangsan", 21),
      ("zhangsan", 12),
      ("zhangsan", 22),
      ("lisi", 23),
      ("zhaoliu", 28)
    ))
    val value: RDD[(String, Int)] = kv1.coalesce(5)
    println(value.partitions.length)  ##结果：1

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_37163925/article/details/106225249

Spark RDD中repartition和coalesce的区别

Spark中repartition和coalesce的用法

Spark RDD 之 repartition/coalesce 源码浅谈

Spark源码系列:RDD repartition、coalesce 对比

spark部分：改变rdd的分区数coalesce，repartition，glom,randomSplit的区别

Spark学习-Coalesce()方法和rePartition()方法

Spark部分：重新分区（repartition和coalesce）

spark的coalesce和repartition算子管理分区

Spark中repartition和partitionBy的区别

[Spark基础]--repartition vs coalesce

Spark:DataFrame repartition、coalesce 对比

Spark基础 repartition vs coalesce

Spark 重分区coalesce和repartition,合并小文件

3.2 Spark RDD 基本转换操作2-分区：coalesce、repartition

coalesce和repartition的区别

spark中reparation和coalesce的用法和区别

Spark repartition与coalesce对分区的操作

Spark transformation算子之coalesce&&repartition

Spark中RDD、DataFrame和DataSet的区别

【spark】存储数据到hdfs，自动判断合理分块数量（repartition和coalesce）（二）

【spark】存储数据到hdfs，自动判断合理分块数量（repartition和coalesce）（一）

使用COALESCE和REPARTITION解决SPARK SQL（hadoop）小文件过多的问题

spark reparation和coalesce

repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int，shuffle:Boolean=false):RDD[T]的区别

spark教程(11)-RDD-DF-DS 汇总 Spark中RDD、DataFrame和DataSet的区别

Spark中的RDD和DataFrame

spark中cache和persist的区别，rdd缓存源码解析

Spark中RDD和DataFrame、DataSet的区别?---面试题

Spark中RDD、DataFrame和DataSet三者的区别

Spark中RDD与DataFrame与DataSet的区别与联系

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)