Spark读取内存数据创建RDD

在这里插入图片描述


一、内存数据创建RDD

由于Spark是由Scala语言编写的,所以有时我们的项目中会存在Scala类型的集合数据类型,比如集合、元组、数组等,这时我们可以将这些集合转化成Spark中的数据类型RDD,常用方式有两种,分别是:makeRDD()parallelize

1、parallelize

在 Spark 中,parallelize 是 SparkContext 的一个方法,用于从一个已存在的集合(如数组或列表)创建一个分布式的 RDD(Resilient Distributed Dataset)。这个方法将集合中的元素分割成多个分区,并将分区分布在集群的不同节点上进行并行处理。

在 Spark 中,parallelizeSparkContext 的一个方法,用于从一个已存在的集合(如数组或列表)创建一个分布式的 RDD(Resilie

猜你喜欢

转载自blog.csdn.net/m0_47256162/article/details/132282472