Spark-RDD核心抽象（第二天）

一、RDD核心概念

RDD（Resilient Distributed DataSet）弹性分布式数据集，是一种数据结构类型，不可变、可分区、里面的元素可进行并行计算的集合。
弹性：指计算结果可保存在内存或磁盘中。

二、RDD五大属性

每一个RDD都满足这五大属性。

1、分区列表是数据集的基本组成单位，一个RDD可以有多个分区（分区列表），每个分区拥有RDD的部分数据。一个分区对应一个task任务。默认的最小分区数是2，读取HDFS文件，RDD分区数和block块的数量相等。
2、函数：一个计算每个分区的函数function，作用于每个分区上。
3、依赖关系：一个RDD会依赖于其他多个RDD
4、分区函数（可选）:hashPartitioner和rangePartitioner，一般产生shuffle才会有分区函数
5、数据列表（可选）：存储每个Partition的优先位置，数据的本地性计算，任务调度优先考虑数据的节点开启计算任务，减少网络传输，提高计算效率。

三、RDD创建方式

val rdd1 = sc.parallelize(List(1,2,3,4))
val rdd2 = sc.parallelize(Array(1,2,3,4))
val rdd3 = sc.makeRDD(集合)

四、RDD的算子分类

1、transformation（转换算子）

转换	含义
map(func)	返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成
filter(func)	返回一个新的RDD，该RDD由经过func函数计算后返回值为true的输入元素组成
flatMap(func)	类似于map，但是每一个输入元素可以被映射为0或多个输出元素（所以func应该返回一个序列，而不是单一元素）
mapPartitions(func)	类似于map，但独立地在RDD的每一个分片上运行，因此在类型为T的RDD上运行时，func的函数类型必须是Iterator[T] => Iterator[U]
mapPartitionsWithIndex(func)	类似于mapPartitions，但func带有一个整数参数表示分片的索引值，因此在类型为T的RDD上运行时，func的函数类型必须是(Int, Interator[T]) => Iterator[U]
union(otherDataset)	对源RDD和参数RDD求并集后返回一个新的RDD
intersection(otherDataset)	对源RDD和参数RDD求交集后返回一个新的RDD
distinct([numTasks]))	对源RDD进行去重后返回一个新的RDD
groupByKey([numTasks])	在一个(K,V)的RDD上调用，返回一个(K, Iterator[V])的RDD
reduceByKey(func, [numTasks])	在一个(K,V)的RDD上调用，返回一个(K,V)的RDD，使用指定的reduce函数，将相同key的值聚合到一起，与groupByKey类似，reduce任务的个数可以通过第二个可选的参数来设置
sortByKey([ascending], [numTasks])	在一个(K,V)的RDD上调用，K必须实现Ordered接口，返回一个按照key进行排序的(K,V)的RDD
sortBy(func,[ascending], [numTasks])	与sortByKey类似，但是更灵活
join(otherDataset, [numTasks])	在类型为(K,V)和(K,W)的RDD上调用，返回一个相同key对应的所有元素对在一起的(K,(V,W))的RDD
cogroup(otherDataset, [numTasks])	在类型为(K,V)和(K,W)的RDD上调用，返回一个(K,(Iterable,Iterable))类型的RDD
coalesce(numPartitions)	减少 RDD 的分区数到指定值。
repartition(numPartitions)	重新给 RDD 分区
repartitionAndSortWithinPartitions(partitioner)	重新给 RDD 分区，并且每个分区内以记录的 key 排序

2、action（执行算子）

动作	含义
reduce(func)	reduce将RDD中元素前两个传给输入函数，产生一个新的return值，新产生的return值与RDD中下一个元素（第三个元素）组成两个元素，再被传给输入函数，直到最后只有一个值为止。
collect()	在驱动程序中，以数组的形式返回数据集的所有元素
count()	返回RDD的元素个数
first()	返回RDD的第一个元素（类似于take(1)）
take(n)	返回一个由数据集的前n个元素组成的数组
takeOrdered(n, [ordering])	返回自然顺序或者自定义顺序的前 n 个元素
saveAsTextFile(path)	将数据集的元素以textfile的形式保存到HDFS文件系统或者其他支持的文件系统，对于每个元素，Spark将会调用toString方法，将它装换为文件中的文本
saveAsSequenceFile(path)	将数据集中的元素以Hadoop sequencefile的格式保存到指定的目录下，可以使HDFS或者其他Hadoop支持的文件系统。
saveAsObjectFile(path)	将数据集的元素，以 Java 序列化的方式保存到指定的目录下
countByKey()	针对(K,V)类型的RDD，返回一个(K,Int)的map，表示每一个key对应的元素个数。
foreach(func)	在数据集的每一个元素上，运行函数func
foreachPartition(func)	在数据集的每一个分区上，运行函数func

五、RDD依赖关系

RDD依赖关系分为两类：窄依赖和宽依赖
窄依赖的父RDD只被一个子RDD的一个partition使用。
宽依赖的多个子RDD的partition会依赖同一个父RDD，宽依赖存在shuffle过程。
如果RDD有相同的partitioner分区器，不会引起shuffle过程。

六、lineage血统

RDD只支持粗粒度转换，即单个块上执行单个操作。
lineage血统会计算RDD转换的元数据和转换行为，保存RDD的依赖关系，方便RDD丢失数据时进行恢复，也就是常说的容灾机制

七、RDD缓存机制

RDD缓存的两种方法：cache和persist，cache默认是调用的persist方法。cache默认是采用内存进行缓存，而persist可以设置缓存级别persist(StorageLevel.XXXX)，（包括内存，磁盘，序列化等）。

RDD.cache
RDD.persist(StorageLevel.MEMORY-ONLY)

缓存不是立即执行，而是通过action算子触发缓存的行为
清除缓存两种方式：一、自动清除，当job执行完退出后；二、手动清除，RDD.unpersist()

八、RDD的checkpoint机制

数据持久化到HDFS上

sc.setCheckpointDir("HDFS_path")
RDD.checkpoint

checkpoint操作也需要action算子触发

缓存方式	区别
cache/persist	数据缓存到内存或磁盘，一个action对应一个job,不会改变RDD的依赖关系，程序运行结束会马上清除缓存。
checkpoint	数据缓存到HDFS，一个action对应一个job，但是checkpoint操作会开启一个新的job，会改变RDD的依赖关系，很难通过lineage血统进行恢复，程序运行结束缓存不会被清除。

建议：在进行checkpoint前，先就行cache，可以提高效率

九、DAG有向无环图

DAG有向无环图代表着数据的流向。指RDD一系列的转换过程。

stage的划分，从最后一个RDD加入一个stage，往前推，遇见窄依赖就加入stage中，遇见宽依赖就切开，成为一个新的stage。
一个job被划分为多组task，一个stage是一组任务task。
stage分为两类：shuffleMapStage（shuffle操作之前的所有操作）和resultStage（shuffle之后的操作）
根据RDD之间的依赖关系不同就行stage的划分。
在一个stage中只有窄依赖，没有宽依赖。同一个stage中有很多并行运行的task，且算子相同。
每一个stage中的task封装到一个taskSet中，交给worker节点上的executor进程中运行

十、spark任务调度

Driver端创建SparkContext对象，在其内部一次构建DAGScheduler和TaskScheduler对象。
按照RDD的一系列操作顺序，生成DAG有向无环图。
DAGScheduler拿到DAG有向无环图之后，按照宽依赖进行stage划分，每个stage内部有很多并行运行的task，最后封装到一个个taskSet，然后把taskSet发送到TaskScheduler。
TaskScheduler遍历taskSet集合后，取出每一个task提交到worker节点的executor进程中运行。
所有task运行结束，程序退出。

果不其燃

发布了44 篇原创文章 · 获赞 0 · 访问量 1414

私信关注