Spark Transformation —— randomSplit - 代码天地

Spark Transformation —— randomSplit

其他 2018-09-30 04:00:12 阅读次数: 0

def randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RDD[T]]

该函数根据weights权重，将一个RDD切分成多个RDD。该权重参数为一个Double数组,第二个参数为random的种子，基本可忽略。

scala> var rdd = sc.makeRDD(1 to 10,10)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[16] at makeRDD at :21

scala> rdd.collect
res6: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)  

scala> var splitRDD = rdd.randomSplit(Array(0.1,0.2,0.3,0.4))
splitRDD: Array[org.apache.spark.rdd.RDD[Int]] = Array(MapPartitionsRDD[17] at randomSplit at :23, 
MapPartitionsRDD[18] at randomSplit at :23, 
MapPartitionsRDD[19] at randomSplit at :23, 
MapPartitionsRDD[20] at randomSplit at :23)

//这里注意：randomSplit的结果是一个RDD数组
scala> splitRDD.size
res8: Int = 4
//由于randomSplit的第一个参数weights中传入的值有4个，因此，就会切分成4个RDD,
//把原来的rdd按照权重0.1,0.2,0.3,0.4，随机划分到这4个RDD中，权重高的RDD，划分到//的几率就大一些。
//注意，权重的总和加起来为1，否则会不正常

scala> splitRDD(0).collect
res10: Array[Int] = Array(1, 4)

scala> splitRDD(1).collect
res11: Array[Int] = Array(3)                                                    

scala> splitRDD(2).collect
res12: Array[Int] = Array(5, 9)

scala> splitRDD(3).collect
res13: Array[Int] = Array(2, 6, 7, 8, 10)

猜你喜欢

转载自blog.csdn.net/shujuelin/article/details/82794271

Spark Transformation —— randomSplit

【Spark】spark randomSplit glom函数操作详解

python spark RDD randomSplit 参数解释与使用详解

3.2 Spark RDD 基本转换操作3-randomSplit、glom

spark transformation算子

Spark transformation算子案例

Spark RDD的Transformation操作

Spark Java API：Transformation

Spark- Transformation实战

spark 算子（Transformation and Action）

Spark常用的transformation算子

图解Spark Transformation算子

Spark之transformation算子

Spark-transformation操作

Spark transformation和action的区别

Spark 的transformation和action操作

Spark Core:RDD编程Transformation

Spark（4）——transformation、action、persist

Spark,常用Transformation类算子

spark记录（3）spark算子之Transformation

spark部分：改变rdd的分区数coalesce，repartition，glom,randomSplit的区别

spark中RDD的transformation&action

spark 几种transformation 的计算逻辑和测试

spark scala-transformation基础操作

Spark编程模型Transformation操作一

Spark编程模型Transformation操作三

Spark编程模型Transformation操作二

Spark常用transformation算子操作 —— Scala版

Spark常用transformation算子操作 —— Java版

spark2的transformation和action操作

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)