为什么会有RDD呢
MR的迭代运算不太行,磁盘读写短板太大,它在数据挖掘,图计算,机器学习啥的,结果许多要重用,写磁盘导致磁盘开销很大,还有许多序列化和反序列化。
DAG有向无环图管道化的处理,不需要写入磁盘。
RDD设计背景
RDD是什么
Spark提供了许多转换操作,动作操作
RDD操作
RDD执行过程
惰性机制及DAG图
转换操作和动作操作,转换操作只记录轨迹,不真正计算,所以是懒加载,
而进行动作方法时,才会发生转换,这是一个惰性机制。
RDD特性
RDD的高效的容错性
典型的系统容错方式:检查点,日志方式
在大规模分布式系统中:通常不会用检查点的方式来搞,日志方式代价也挺高
而RDD采用DAG记录轨迹的方式,任何一个RDD出现问题了,直接找他的父级节点,回滚。
很细了