Spark学习之RDD操作使用(pyspark)

版权声明:本文为博主原创学习笔记,如需转载请注明来源: https://blog.csdn.net/wugenqiang/article/details/81239174

两种常用的RDD类型:

1. 并行集合(Parallelized Collections): 来自于分布式化的数据对象,比如用户自己键入的数据

 2. 文件系统数据集: Hadoop Datasets 或文本文件,比如通过SparkContext.textFile()读取的数据

因为RDD的俩种不同类型,所以我们使用文件有不同方式

猜你喜欢

转载自blog.csdn.net/wugenqiang/article/details/81239174