Spark好在哪里

RDD的几种存储方式的选择

RDD是内存迭代,MapReduce每轮迭代要读写磁盘;

通过记录数据集的一些列转换方式来执行这些task,这样一来,某一分片若是丢失,则可以从该RDD的记录中去就近恢复该分片,而不是从头执行!

1、RDD是一个只读的、有分区的分布式数据集。其分类主要有两种:transformations和action。这两种RDD负责不同的业务。transformations负责数据分片的转换,而action负责激活整个计算链条的实际计算。
2、RDD运转方式
RDD只需知道自己是怎么诞生的就可以了,这就是RDD的实际工作方式。

RDD的好处

为什么分区:1. 为了并行计算;2. 容错更好,挂一个分区后,只需要计算这一个分区;

为什么只读:1. 容错更好,便于从之前的checkpoint恢复之后的数据;2. 可以和 MapReduce 一样来运行执行很慢任务的备份任务来达到缓解计算很慢的节点的问题;

只有丢掉了数据的分区才会需要重新计算, 并不需要回滚整个程序。

发布了98 篇原创文章 · 获赞 10 · 访问量 7万+

猜你喜欢

转载自blog.csdn.net/smartcat2010/article/details/104071839