《Spark快速大数据分析》总结--(3)

第3章 RDD编程

3.1 RDD基础

1、Spark中的RDD是一个不可变的分布式对象集合。

2、两种方式创建RDD:读取一个外部数据集、在驱动器程序里分发驱动器程序中的对象集合。

3、RDD支持两种类型的操作

(1)转化操作:由一个RDD生成一个新的RDD。

(2)行动操作:对RDD计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部存储系统中。

Tips:区别两个操作的方法是观察两者的返回值类型,转化操作返回的是RDD,而行动操作返回的是其他数据类型。

猜你喜欢

转载自blog.csdn.net/qq_28900249/article/details/83154263