spark 缓存篇

spark数据集市RDD，这里有个很重要的特性是RDD可以选择存储起来让另外的action操作，下面是各种缓存级别

存储方式：RDD的持久化或缓存选项是通过persist()或cache()

备注：1.RDD中的数据具有容错性； 2.Shuffle操作是不需要指定cache()或者persist()的，会自动缓存rdd结果，避免因为节点故障等问题重新计算

RDD具有容错性，rdd只支持粗粒度转换（单个块上执行的单个操作，如是从哪个rdd-map过来的），如果出了问题，也不用全部重新执行，只需要读取之前是从哪个rdd转换过来的，怎么转换的，即可以将数据重新生成----------所以这种方式也成为“血统（Lineage）”容错
RDD的这种容错分为窄依赖和宽依赖，窄依赖效率高，主要是针对父rdd只有一个的情况（Transformation）
宽依赖父RDD来自很多个片，需要重新计算
我的理解是涉及到shuffle操作的大部分都宽依赖，Transformation操作都是窄依赖

每一次action调用，Spark都会从最初的输入RDD开始，重新执行一遍所有的tranformation, 对于批处理任务，这样做固然没有问题，但是对于反复操作操作同一数据的交互式(interactive)任务, 重复执行相同的计算显得很低效。

Spark提供缓存API来解决这一问题，用户可以通过cache()或persist()方法，将中间计算结果缓存到内存或者硬盘，下次执行相同计算时，可直接读取缓存来提高效率。persist()和cache()的区别在于，persist()提供了更多的参数，来支持不同级别的缓存机制。

MEMORY_ONLY 默认选项，RDD的（分区）数据直接以Java对象的形式存储于JVM的内存中，如果内存空间不足，某些分区的数据将不会被缓存，需要在使用的时候根据世代信息重新计算。
MYMORY_AND_DISK RDD的数据直接以Java对象的形式存储于JVM的内存中，如果内存空间不中，某些分区的数据会被存储至磁盘，使用的时候从磁盘读取。
MEMORY_ONLY_SER RDD的数据（Java对象）序列化之后存储于JVM的内存中（一个分区的数据为内存中的一个字节数组），相比于MEMORY_ONLY能够有效节约内存空间（特别是使用一个快速序列化工具的情况下），但读取数据时需要更多的CPU开销；如果内存空间不足，处理方式与MEMORY_ONLY相同。
MEMORY_AND_DISK_SER 相比于MEMORY_ONLY_SER，在内存空间不足的情况下，将序列化之后的数据存储于磁盘。
DISK_ONLY 仅仅使用磁盘存储RDD的数据（未经序列化）。
"MEMORY_ONLY_2,
MEMORY_AND_DISK_2, etc." 以MEMORY_ONLY_2为例，MEMORY_ONLY_2相比于MEMORY_ONLY存储数据的方式是相同的，不同的是会将数据备份到集群中两个不同的节点，其余情况类似。
OFF_HEAP(experimental) RDD的数据序例化之后存储至Tachyon。相比于MEMORY_ONLY_SER，OFF_HEAP能够减少垃圾回收开销、使得Spark Executor更“小”更“轻”的同时可以共享内存；而且数据存储于Tachyon中，Spark集群节点故障并不会造成数据丢失，因此这种方式在“大”内存或多并发应用的场景下是很有吸引力的。需要注意的是，Tachyon并不直接包含于Spark的体系之内，需要选择合适的版本进行部署；它的数据是以“块”为单位进行管理的，这些块可以根据一定的算法被丢弃，且不会被重建。

猜你喜欢