Spark之RDD的创建

要使用Spark,开发者需要编写一个Driver程序,它被提交到集群以调度运行Worker

 RDD的创建

在Spark中创建RDD的创建方式可以分为三种:从集合中创建RDD;从外部存储创建RDD;从其他RDD创建。

从集合中创建

从集合中创建RDDSpark主要提供了两种函数:parallelizemakeRDD

1)使用parallelize()从集合创建

2)使用makeRDD()从集合创建

由外部存储系统的数据集创建

包括本地的文件系统,还有所有Hadoop支持的数据集,比如HDFS、Cassandra、HBase等,我们会在第4章详细介绍。

scala> val rdd2= sc.textFile("hdfs://hadoop102:9000/RELEASE")

rdd2: org.apache.spark.rdd.RDD[String] = hdfs:// hadoop102:9000/RELEASE MapPartitionsRDD[4] at textFile at <console>:24

从其他RDD创建

猜你喜欢

转载自blog.csdn.net/qq_43193797/article/details/89226418