Spark-RDD核心抽象(第二天)
一、RDD核心概念
RDD(Resilient Distributed DataSet)弹性分布式数据集,是一种数据结构类型,不可变、可分区、里面的元素可进行并行计算的集合。
弹性:指计算结果可保存在内存或磁盘中。
二、RDD五大属性
每一个RDD都满足这五大属性。
- 1、分区列表是数据集的基本组成单位,一个RDD可以有多个分区(分区列表),每个分区拥有RDD的部分数据。一个分区对应一个task任务。默认的最小分区数是2,读取HDFS文件,RDD分区数和block块的数量相等。
- 2、函数:一个计算每个分区的函数function,作用于每个分区上。
- 3、依赖关系:一个RDD会依赖于其他多个RDD
- 4、分区函数(可选):hashPartitioner和rangePartitioner,一般产生shuffle才会有分区函数
- 5、数据列表(可选):存储每个Partition的优先位置,数据的本地性计算,任务调度优先考虑数据的节点开启计算任务,减少网络传输,提高计算效率。
三、RDD创建方式
val rdd1 = sc.parallelize(List(1,2,3,4))
val rdd2 = sc.parallelize(Array(1,2,3,4))
val rdd3 = sc.makeRDD(集合)
四、RDD的算子分类
- 1、transformation(转换算子)
转换 | 含义 |
---|---|
map(func) | 返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 |
filter(func) | 返回一个新的RDD,该RDD由经过func函数计算后返回值为true的输入元素组成 |
flatMap(func) | 类似于map,但是每一个输入元素可以被映射为0或多个输出元素(所以func应该返回一个序列,而不是单一元素) |
mapPartitions(func) | 类似于map,但独立地在RDD的每一个分片上运行,因此在类型为T的RDD上运行时,func的函数类型必须是Iterator[T] => Iterator[U] |
mapPartitionsWithIndex(func) | 类似于mapPartitions,但func带有一个整数参数表示分片的索引值,因此在类型为T的RDD上运行时,func的函数类型必须是(Int, Interator[T]) => Iterator[U] |
union(otherDataset) | 对源RDD和参数RDD求并集后返回一个新的RDD |
intersection(otherDataset) | 对源RDD和参数RDD求交集后返回一个新的RDD |
distinct([numTasks])) | 对源RDD进行去重后返回一个新的RDD |
groupByKey([numTasks]) | 在一个(K,V)的RDD上调用,返回一个(K, Iterator[V])的RDD |
reduceByKey(func, [numTasks]) | 在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用指定的reduce函数,将相同key的值聚合到一起,与groupByKey类似,reduce任务的个数可以通过第二个可选的参数来设置 |
sortByKey([ascending], [numTasks]) | 在一个(K,V)的RDD上调用,K必须实现Ordered接口,返回一个按照key进行排序的(K,V)的RDD |
sortBy(func,[ascending], [numTasks]) | 与sortByKey类似,但是更灵活 |
join(otherDataset, [numTasks]) | 在类型为(K,V)和(K,W)的RDD上调用,返回一个相同key对应的所有元素对在一起的(K,(V,W))的RDD |
cogroup(otherDataset, [numTasks]) | 在类型为(K,V)和(K,W)的RDD上调用,返回一个(K,(Iterable,Iterable))类型的RDD |
coalesce(numPartitions) | 减少 RDD 的分区数到指定值。 |
repartition(numPartitions) | 重新给 RDD 分区 |
repartitionAndSortWithinPartitions(partitioner) | 重新给 RDD 分区,并且每个分区内以记录的 key 排序 |
- 2、action(执行算子)
动作 | 含义 |
---|---|
reduce(func) | reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。 |
collect() | 在驱动程序中,以数组的形式返回数据集的所有元素 |
count() | 返回RDD的元素个数 |
first() | 返回RDD的第一个元素(类似于take(1)) |
take(n) | 返回一个由数据集的前n个元素组成的数组 |
takeOrdered(n, [ordering]) | 返回自然顺序或者自定义顺序的前 n 个元素 |
saveAsTextFile(path) | 将数据集的元素以textfile的形式保存到HDFS文件系统或者其他支持的文件系统,对于每个元素,Spark将会调用toString方法,将它装换为文件中的文本 |
saveAsSequenceFile(path) | 将数据集中的元素以Hadoop sequencefile的格式保存到指定的目录下,可以使HDFS或者其他Hadoop支持的文件系统。 |
saveAsObjectFile(path) | 将数据集的元素,以 Java 序列化的方式保存到指定的目录下 |
countByKey() | 针对(K,V)类型的RDD,返回一个(K,Int)的map,表示每一个key对应的元素个数。 |
foreach(func) | 在数据集的每一个元素上,运行函数func |
foreachPartition(func) | 在数据集的每一个分区上,运行函数func |
五、RDD依赖关系
RDD依赖关系分为两类:窄依赖和宽依赖
窄依赖的父RDD只被一个子RDD的一个partition使用。
宽依赖的多个子RDD的partition会依赖同一个父RDD,宽依赖存在shuffle过程。
如果RDD有相同的partitioner分区器,不会引起shuffle过程。
六、lineage血统
RDD只支持粗粒度转换,即单个块上执行单个操作。
lineage血统会计算RDD转换的元数据和转换行为,保存RDD的依赖关系,方便RDD丢失数据时进行恢复,也就是常说的容灾机制
七、RDD缓存机制
RDD缓存的两种方法:cache和persist,cache默认是调用的persist方法。cache默认是采用内存进行缓存,而persist可以设置缓存级别persist(StorageLevel.XXXX),(包括内存,磁盘,序列化等)。
RDD.cache
RDD.persist(StorageLevel.MEMORY-ONLY)
缓存不是立即执行,而是通过action算子触发缓存的行为
清除缓存两种方式:一、自动清除,当job执行完退出后;二、手动清除,RDD.unpersist()
八、RDD的checkpoint机制
数据持久化到HDFS上
sc.setCheckpointDir("HDFS_path")
RDD.checkpoint
checkpoint操作也需要action算子触发
缓存方式 | 区别 |
---|---|
cache/persist | 数据缓存到内存或磁盘,一个action对应一个job,不会改变RDD的依赖关系,程序运行结束会马上清除缓存。 |
checkpoint | 数据缓存到HDFS,一个action对应一个job,但是checkpoint操作会开启一个新的job,会改变RDD的依赖关系,很难通过lineage血统进行恢复,程序运行结束缓存不会被清除。 |
建议:在进行checkpoint前,先就行cache,可以提高效率
九、DAG有向无环图
DAG有向无环图代表着数据的流向。指RDD一系列的转换过程。
stage的划分,从最后一个RDD加入一个stage,往前推,遇见窄依赖就加入stage中,遇见宽依赖就切开,成为一个新的stage。
一个job被划分为多组task,一个stage是一组任务task。
stage分为两类:shuffleMapStage(shuffle操作之前的所有操作)和resultStage(shuffle之后的操作)
根据RDD之间的依赖关系不同就行stage的划分。
在一个stage中只有窄依赖,没有宽依赖。同一个stage中有很多并行运行的task,且算子相同。
每一个stage中的task封装到一个taskSet中,交给worker节点上的executor进程中运行
十、spark任务调度
- Driver端创建SparkContext对象,在其内部一次构建DAGScheduler和TaskScheduler对象。
- 按照RDD的一系列操作顺序,生成DAG有向无环图。
- DAGScheduler拿到DAG有向无环图之后,按照宽依赖进行stage划分,每个stage内部有很多并行运行的task,最后封装到一个个taskSet,然后把taskSet发送到TaskScheduler。
- TaskScheduler遍历taskSet集合后,取出每一个task提交到worker节点的executor进程中运行。
- 所有task运行结束,程序退出。