Spark-RDD核心抽象(第二天)

Spark-RDD核心抽象(第二天)

一、RDD核心概念

RDD(Resilient Distributed DataSet)弹性分布式数据集,是一种数据结构类型,不可变、可分区、里面的元素可进行并行计算的集合。
弹性:指计算结果可保存在内存或磁盘中。

二、RDD五大属性

每一个RDD都满足这五大属性。

  • 1、分区列表是数据集的基本组成单位,一个RDD可以有多个分区(分区列表),每个分区拥有RDD的部分数据。一个分区对应一个task任务。默认的最小分区数是2,读取HDFS文件,RDD分区数和block块的数量相等
  • 2、函数:一个计算每个分区的函数function,作用于每个分区上。
  • 3、依赖关系:一个RDD会依赖于其他多个RDD
  • 4、分区函数(可选):hashPartitioner和rangePartitioner,一般产生shuffle才会有分区函数
  • 5、数据列表(可选):存储每个Partition的优先位置,数据的本地性计算,任务调度优先考虑数据的节点开启计算任务,减少网络传输,提高计算效率。

三、RDD创建方式

val rdd1 = sc.parallelize(List(1,2,3,4))
val rdd2 = sc.parallelize(Array(1,2,3,4))
val rdd3 = sc.makeRDD(集合)

四、RDD的算子分类

  • 1、transformation(转换算子)
转换 含义
map(func) 返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成
filter(func) 返回一个新的RDD,该RDD由经过func函数计算后返回值为true的输入元素组成
flatMap(func) 类似于map,但是每一个输入元素可以被映射为0或多个输出元素(所以func应该返回一个序列,而不是单一元素)
mapPartitions(func) 类似于map,但独立地在RDD的每一个分片上运行,因此在类型为T的RDD上运行时,func的函数类型必须是Iterator[T] => Iterator[U]
mapPartitionsWithIndex(func) 类似于mapPartitions,但func带有一个整数参数表示分片的索引值,因此在类型为T的RDD上运行时,func的函数类型必须是(Int, Interator[T]) => Iterator[U]
union(otherDataset) 对源RDD和参数RDD求并集后返回一个新的RDD
intersection(otherDataset) 对源RDD和参数RDD求交集后返回一个新的RDD
distinct([numTasks])) 对源RDD进行去重后返回一个新的RDD
groupByKey([numTasks]) 在一个(K,V)的RDD上调用,返回一个(K, Iterator[V])的RDD
reduceByKey(func, [numTasks]) 在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用指定的reduce函数,将相同key的值聚合到一起,与groupByKey类似,reduce任务的个数可以通过第二个可选的参数来设置
sortByKey([ascending], [numTasks]) 在一个(K,V)的RDD上调用,K必须实现Ordered接口,返回一个按照key进行排序的(K,V)的RDD
sortBy(func,[ascending], [numTasks]) 与sortByKey类似,但是更灵活
join(otherDataset, [numTasks]) 在类型为(K,V)和(K,W)的RDD上调用,返回一个相同key对应的所有元素对在一起的(K,(V,W))的RDD
cogroup(otherDataset, [numTasks]) 在类型为(K,V)和(K,W)的RDD上调用,返回一个(K,(Iterable,Iterable))类型的RDD
coalesce(numPartitions) 减少 RDD 的分区数到指定值。
repartition(numPartitions) 重新给 RDD 分区
repartitionAndSortWithinPartitions(partitioner) 重新给 RDD 分区,并且每个分区内以记录的 key 排序
  • 2、action(执行算子)
动作 含义
reduce(func) reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。
collect() 在驱动程序中,以数组的形式返回数据集的所有元素
count() 返回RDD的元素个数
first() 返回RDD的第一个元素(类似于take(1))
take(n) 返回一个由数据集的前n个元素组成的数组
takeOrdered(n, [ordering]) 返回自然顺序或者自定义顺序的前 n 个元素
saveAsTextFile(path) 将数据集的元素以textfile的形式保存到HDFS文件系统或者其他支持的文件系统,对于每个元素,Spark将会调用toString方法,将它装换为文件中的文本
saveAsSequenceFile(path) 将数据集中的元素以Hadoop sequencefile的格式保存到指定的目录下,可以使HDFS或者其他Hadoop支持的文件系统。
saveAsObjectFile(path) 将数据集的元素,以 Java 序列化的方式保存到指定的目录下
countByKey() 针对(K,V)类型的RDD,返回一个(K,Int)的map,表示每一个key对应的元素个数。
foreach(func) 在数据集的每一个元素上,运行函数func
foreachPartition(func) 在数据集的每一个分区上,运行函数func

五、RDD依赖关系

RDD依赖关系分为两类:窄依赖和宽依赖
窄依赖的父RDD只被一个子RDD的一个partition使用。
宽依赖的多个子RDD的partition会依赖同一个父RDD,宽依赖存在shuffle过程
如果RDD有相同的partitioner分区器,不会引起shuffle过程。

六、lineage血统

RDD只支持粗粒度转换,即单个块上执行单个操作。
lineage血统会计算RDD转换的元数据和转换行为,保存RDD的依赖关系,方便RDD丢失数据时进行恢复,也就是常说的容灾机制

七、RDD缓存机制

RDD缓存的两种方法:cache和persist,cache默认是调用的persist方法。cache默认是采用内存进行缓存,而persist可以设置缓存级别persist(StorageLevel.XXXX),(包括内存,磁盘,序列化等)。

RDD.cache
RDD.persist(StorageLevel.MEMORY-ONLY)

缓存不是立即执行,而是通过action算子触发缓存的行为
清除缓存两种方式:一、自动清除,当job执行完退出后;二、手动清除,RDD.unpersist()

八、RDD的checkpoint机制

数据持久化到HDFS上

sc.setCheckpointDir("HDFS_path")
RDD.checkpoint

checkpoint操作也需要action算子触发

缓存方式 区别
cache/persist 数据缓存到内存或磁盘,一个action对应一个job,不会改变RDD的依赖关系,程序运行结束会马上清除缓存。
checkpoint 数据缓存到HDFS,一个action对应一个job,但是checkpoint操作会开启一个新的job,会改变RDD的依赖关系,很难通过lineage血统进行恢复,程序运行结束缓存不会被清除。

建议:在进行checkpoint前,先就行cache,可以提高效率

九、DAG有向无环图

DAG有向无环图代表着数据的流向。指RDD一系列的转换过程。

stage的划分,从最后一个RDD加入一个stage,往前推,遇见窄依赖就加入stage中,遇见宽依赖就切开,成为一个新的stage。
一个job被划分为多组task,一个stage是一组任务task。
stage分为两类:shuffleMapStage(shuffle操作之前的所有操作)和resultStage(shuffle之后的操作)
根据RDD之间的依赖关系不同就行stage的划分。
在一个stage中只有窄依赖,没有宽依赖。同一个stage中有很多并行运行的task,且算子相同。
每一个stage中的task封装到一个taskSet中,交给worker节点上的executor进程中运行

十、spark任务调度

  • Driver端创建SparkContext对象,在其内部一次构建DAGScheduler和TaskScheduler对象。
  • 按照RDD的一系列操作顺序,生成DAG有向无环图。
  • DAGScheduler拿到DAG有向无环图之后,按照宽依赖进行stage划分,每个stage内部有很多并行运行的task,最后封装到一个个taskSet,然后把taskSet发送到TaskScheduler。
  • TaskScheduler遍历taskSet集合后,取出每一个task提交到worker节点的executor进程中运行。
  • 所有task运行结束,程序退出。
发布了44 篇原创文章 · 获赞 0 · 访问量 1414

猜你喜欢

转载自blog.csdn.net/weixin_44872254/article/details/105192337