Spark RDD：弹性分布式数据集

文／牛肉圆粉不加葱（简书作者）
原文链接：http://www.jianshu.com/p/207607888767
著作权归作者所有，转载请联系作者获得授权，并标注“简书作者”。

程序员还可以从两个方面控制RDD，即持久化和分区。用户可以请求将RDD缓存，这样运行时将已经计算好的RDD分区存储起来，以加速后期的重用。缓存的RDD一般存储在内存中，但如果内存不够，可以写到磁盘上
RDD还允许用户根据关键字（key）指定分区顺序，这是一个可选的功能。目前支持哈希分区和范围分区。分区的多少涉及对这个RDD进行并行计算的粒度，因为每一个分区的计算都在一个单独的任务上执行
通过备份任务的拷贝，RDD还可以处理落后任务（即运行很慢的节点）
与DSM（分布式共享内存）相比，RDD有两个好处：
- 对于RDD中的批量操作，运行时将根据数据存放的位置来调度任务，从而提高性能
- 对于基于扫描的操作，如果内存不足以缓存整个RDD，就进行部分缓存。把内存放不下的分区存储到磁盘上，此时性能与现有的数据流系统差不多
当然也可以在创建RDD的时候不指定分区，这时就采用默认的分区数，即程序所分配到的资源的CPU核的个数

RDD优先位置属性与Spark中的调度相关，返回的是此RDD的每个partition所存储的位置，按照“移动数据不如移动计算”的理念，在Spark进行任务调度的时候，尽可能地将任务分配到数据块所存储的位置（如果一个partition对应的数据块存储了多份，也会返回多份地址）

在Spark中，存在两种类型的依赖：
- 窄依赖：每一个父RDD的分区至多只被子RDD的一个分区所使用
- 宽依赖：每一个父RDD的分区会被子RDD的多个分区所使用
窄依赖和宽依赖的区别：
- 窄依赖可以在集群的一个节点上如流水线一般地执行，可以计算所有父RDD的分区，相反的，宽依赖需要取得父RDD所有分区上的数据进行计算，将会执行MapReduce一样的shuffle操作
- 对于窄依赖来说，节点计算失败后的恢复会更加有效，相反的，在有宽依赖的继承关系中，一个节点的失败将会导致其父RDD的多个分区重新计算，代价非常高