spark Rdd的默认分区 - 代码天地

spark Rdd的默认分区

服务端 2018-06-06 15:42:12 阅读次数: 5

sparkRdd的默认分区有两大因素决定：

1.spark.default.parallelism
2.文件块的大小

spark.default.parallelism：（默认的并发数）

本地模式下spark.default.parallelism ：

spark-shell                             和spark-default.conf相关默认为4


spark-shell --master local[N] spark.default.parallelism = N （使用N个核）

伪集群模式下：

spark-shell --master local-cluster[x,y,z] spark.default.parallelism = x * y
x为本机上启动的executor数，
y为每个executor使用的core数，
z为每个 executor使用的内存

mesos 细粒度模式：

 Mesos fine grained mode  spark.default.parallelism = 8

1

Yarn模式stand模式：

spark.default.parallelism =  max（所有executor使用的core总数， 2）

影响默认分区的因素还有spark.files.maxPartitionBytes = 128 M，分区的数量必须（文件size/12M）

在不同的文件系统中默认分区方式计算方式如下:

从本地文件读取：

rdd的分区数 = max（本地file的分片数， sc.defaultMinPartitions）

从hdfs分布式文件系统：

rdd的分区数 = max（hdfs文件的block数目， sc.defaultMinPartitions）

从HBase的数据表：

RDD的分区数为该Table的region数。

从kafka:
待续。。。。

引用自：https://www.jianshu.com/p/4b7d07e754fa

猜你喜欢

转载自my.oschina.net/xiaominmin/blog/1825291

spark Rdd的默认分区

Spark RDD的默认分区数

Spark RDD的默认分区数：（spark 2.1.0）

Spark 创建RDD、DataFrame各种情况的默认分区数

【SPARK】- RDD分区

【spark】RDD分区解析

【Spark】RDD分区

Spark的RDD分区器

Spark RDD分区

spark rdd分区与任务的关系

Spark中的RDD以及分区

Spark——键值对 RDD 数据分区

【Spark练习】RDD分区操作

[Spark RDD_add_2] Spark RDD 分区补充内容

Spark2.0-RDD分区原理分析

影响Spark输出RDD分区的操作函数

查看spark RDD 各分区内容

Spark中键值对RDD数据分区

Spark创建RDD分区数量源码详解

Spark RDD算子之RDD 分区操作 -- mapPartitions、mapPartitionsWithIndex、glom

Spark RDD

[Spark]-RDD

Spark | RDD

spark==RDD

spark --RDD

spark的RDD

【Spark】RDD

Spark RDD :Spark API--Spark RDD

Spark算子：统计RDD分区中的元素及数量

spark-获取RDD的方式以及从分区中获益的操作

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)