(2)pyspark建立RDD以及读取文件成dataframe

1、启动spark

2、建立RDD:


3、从text中读取,read.text

4、从csv中读取:read.csv

5、从json中读取:read.json


7、RDD与Dataframe的转换 

(1)dataframe转换成rdd:

法一:datardd = dataDataframe.rdd

法二:datardd = sc.parallelize(_)

(2)rdd转换成dataframe:

dataDataFrame = spark.createDataFrame(datardd)

猜你喜欢

转载自www.cnblogs.com/Lee-yl/p/9759657.html