Spark_RDD之RDD基础

1.什么是RDD

RDD(resilient distributed dataset)弹性分布式数据集,每一个RDD都被分为多个分区,分布在集群的不同节点上。

2.RDD的操作

Spark对于数据的操作都是基于对RDD的操作,其中包括一些创建RDD操作、转化RDD操作(将一个RDD转化为一个新的RDD)以及调用RDD的行动操作。我们可以使用Java、Scala、Python语言来操作它。

3.基本步骤

a.从外部数据创建出输入RDD

b.进行一些转化操作,例如filter

c.持久化RDD,使用persist()方法

d.执行一些行动操作,进行计算,得到想要的数据结果

猜你喜欢

转载自www.cnblogs.com/dj-blog/p/9290573.html