spark RDD算子 parallelize,makeRDD,textFile

- parallelize

将一个存在的集合,变成一个RDD。这种方式试用于学习spark和做一些spark的测试

  1. 第一个参数一是一个 Seq集合
  2. 第二个参数分区数
	var array = List(1, 2, 3, 4, 5, 6, 7, 8)
	var rdd = sc.parallelize(array,3)

- makeRDD

只有scala版本的才有makeRDD ,跟parallelize类似。

	var array = List(1, 2, 3, 4, 5, 6, 7, 8)
	var rdd = sc.makeRDD(array)

- textFile

从外部存储中读取数据来创建 RDD ,如读取本地D:\log\system.log。

	var lines = sc.textFile("file:\\D:\log\system.log") 

猜你喜欢

转载自blog.csdn.net/u010020897/article/details/83538516