- parallelize
将一个存在的集合,变成一个RDD。这种方式试用于学习spark和做一些spark的测试
- 第一个参数一是一个 Seq集合
- 第二个参数分区数
var array = List(1, 2, 3, 4, 5, 6, 7, 8) var rdd = sc.parallelize(array,3)
- makeRDD
只有scala版本的才有makeRDD ,跟parallelize类似。
var array = List(1, 2, 3, 4, 5, 6, 7, 8) var rdd = sc.makeRDD(array)
- textFile
从外部存储中读取数据来创建 RDD ,如读取本地D:\log\system.log。
var lines = sc.textFile("file:\\D:\log\system.log")