pyspark之rdd

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/jancywen/article/details/87996005

rdd:弹性分布数据集

创建

1.sc.parallelize(...)

2.引用文件 sc.textFile(...)

转换

.map(...)

.filter(...)

.flatMap(...)

.distinct(...) 去重

.sample(...) 随机样本

.leftOuterJoin(...)

.repartition(...) 分区

.take()

.collect(...) 将rdd的元素返回给驱动程序

.reduce(...)

.reduceByKey(...)

.count(...)

.saveAsTextFile(...)

.foreach(...)

猜你喜欢

转载自blog.csdn.net/jancywen/article/details/87996005