RDD的概念和特性

1.RDD是一个抽象分布式数据集,是一个数据描述。RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分布式数据集)

2.并没有真正获取到数据,对元数据信息的存储,提供操作rdd的算子,100多个,常用的有几十多个。

3.有弹性的,从存储方面和数据容错方面体现RDD的弹性。

存储方面:计算时,首选缓存,缓存不够时,可以存储到非缓存(也就是磁盘)。

容错方面:计算过程中,task计算失败,可以恢复。默认是允许四次失败,可恢复。如果是stage失败也可也恢复,分区失败也可也恢复。shuffle之后,某一个分区失败,就得重新计算,因为是多对一的。
分多个分区,是为了提高并行度,提高效率。

4.依赖性,有依赖性才能有容错性,有依赖性才能划分宽依赖和窄依赖,可以形成task。

猜你喜欢

转载自blog.csdn.net/qq_42706464/article/details/108306060