Spark好在哪里 - 代码天地

Spark好在哪里

编程语言 2020-01-22 19:05:03 阅读次数: 0

RDD的几种存储方式的选择

RDD是内存迭代，MapReduce每轮迭代要读写磁盘；

通过记录数据集的一些列转换方式来执行这些task，这样一来，某一分片若是丢失，则可以从该RDD的记录中去就近恢复该分片，而不是从头执行！

1、RDD是一个只读的、有分区的分布式数据集。其分类主要有两种：transformations和action。这两种RDD负责不同的业务。transformations负责数据分片的转换，而action负责激活整个计算链条的实际计算。
2、RDD运转方式
RDD只需知道自己是怎么诞生的就可以了，这就是RDD的实际工作方式。

RDD的好处

为什么分区：1. 为了并行计算；2. 容错更好，挂一个分区后，只需要计算这一个分区；

为什么只读：1. 容错更好，便于从之前的checkpoint恢复之后的数据；2. 可以和 MapReduce 一样来运行执行很慢任务的备份任务来达到缓解计算很慢的节点的问题；

只有丢掉了数据的分区才会需要重新计算, 并不需要回滚整个程序。

发布了98 篇原创文章 · 获赞 10 · 访问量 7万+

私信关注

猜你喜欢

转载自blog.csdn.net/smartcat2010/article/details/104071839

Spark好在哪里

Java Mybatis好在哪里

MyBatis比Hibernate好在哪里

thinkphp的商城好在哪里

BBR到底好在哪里？

GIT比SVN好在哪里

对象比数组好在哪里？

JAVA笔记（一）Java好在哪里？

实现Runnable接口好在哪里？

艾米粒瘦瘦包究竟好在哪里

Spring中的IOC容器比New对象的好在哪里？

远程调用中，rpc到底比http好在哪里

在线培训比传统培训到底好在哪里？

作为服务注册中心，Eureka比Zookeeper好在哪里

作为服务注册中心，Eureka 比 Zookeeper 好在哪里

thinkphp商城系统有什么优势好在哪里

最近大火的云桌面到底好在哪里

【Eureka】作为服务注册中心，Eureka比Zookeeper好在哪里

大数据中台之Kafka，到底好在哪里？

基于云技术的云CRM系统到底好在哪里？

协程相比线程到底好在哪里？

解密：好多人参与私募的UGI币到底好在哪里？

浅谈:高端定制网站建设比模板网站好在哪里？

用数据揭秘《一出好戏》好在哪里

万树IT：人人都说Java好，究竟好在哪里呢？

为什么要用thinkphp的商城，他又好在哪里，大家来看一下

火遍全世界的Python好在哪里？为啥这么牛？

链游玩家：链游究竟比传统游戏好在哪里

半导体 | 基于PXI的半导体测试系统好在哪里？

全员编程时代，C站云原生工程师能力认证到底好在哪里？

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)