Spark(26)-RDD运行原理及操作以及特性

为什么会有RDD呢

        MR的迭代运算不太行,磁盘读写短板太大,它在数据挖掘,图计算,机器学习啥的,结果许多要重用,写磁盘导致磁盘开销很大,还有许多序列化和反序列化。 

        DAG有向无环图管道化的处理,不需要写入磁盘。

RDD设计背景

 RDD是什么 

Spark提供了许多转换操作,动作操作

RDD操作

 

RDD执行过程

惰性机制及DAG图

转换操作和动作操作,转换操作只记录轨迹,不真正计算,所以是懒加载,

而进行动作方法时,才会发生转换,这是一个惰性机制。

 

RDD特性

RDD的高效的容错性 

典型的系统容错方式:检查点,日志方式

在大规模分布式系统中:通常不会用检查点的方式来搞,日志方式代价也挺高

而RDD采用DAG记录轨迹的方式,任何一个RDD出现问题了,直接找他的父级节点,回滚。

很细了

[3.11]--RDD依赖关系和运行过程_哔哩哔哩_bilibili

猜你喜欢

转载自blog.csdn.net/qq_52128187/article/details/131106927