Spark相比Hadoop MapReduce的优势 - 代码天地

Spark相比Hadoop MapReduce的优势

其他 2020-04-24 13:02:14 阅读次数: 0

（1）中间结果输出
基于MapReduce的计算引擎通常会将中间结果输出到磁盘上，进行存储和容错。出于任
务管道承接的考虑，当一些查询翻译到MapReduce任务时，往往会产生多个Stage，而这些
串联的Stage又依赖于底层文件系统（如HDFS）来存储每一个Stage的输出结果。
Spark将执行模型抽象为通用的有向无环图执行计划（DAG），这可以将多Stage的任务
串联或者并行执行，而无须将Stage中间结果输出到HDFS中。类似的引擎包括Dryad、
Tez
（2）数据格式和内存布局
由于MapReduce Schema on Read处理方式会引起较大的处理开销。 Spark抽象出分布
式内存存储结构弹性分布式数据集RDD，进行数据的存储。 RDD能支持粗粒度写操作，但对
于读取操作，RDD可以精确到每条记录，这使得RDD可以用来作为分布式索引。 Spark的特
性是能够控制数据在不同节点上的分区，用户可以自定义分区策略，如Hash分区等。 Shark
和Spark SQL在Spark的基础之上实现了列存储和列存储压缩。
（3）执行策略
MapReduce在数据Shuffle之前花费了大量的时间来排序，Spark则可减轻上述问题带来
的开销。因为Spark任务在Shuffle中不是所有情景都需要排序，所以支持基于Hash的分布式
聚合，调度中采用更为通用的任务执行计划图（DAG），每一轮次的输出结果在内存缓存。
（4）任务调度的开销
传统的MapReduce系统，如Hadoop，是为了运行长达数小时的批量作业而设计的，在
某些极端情况下，提交一个任务的延迟非常高。
Spark采用了事件驱动的类库AKKA来启动任务，通过线程池复用线程来避免进程或线程
启动和切换开销。

Jeremy-D

发布了29 篇原创文章 · 获赞 4 · 访问量 6581

私信关注

猜你喜欢

转载自blog.csdn.net/qq_42913729/article/details/81530201

Spark相比Hadoop MapReduce的优势

Storm与Spark，Hadoop相比是否有优势

大数据Storm相比于Spark、Hadoop有哪些优势(摘录)

大数据Storm相比于Spark、Hadoop有哪些优势

Spark与Hadoop MapReduce相比，有哪些优点你知道吗？

spark的特性和mapreduce和spark相比

Spark与Hadoop相比的优点

浅析hadoop之MapReduce架构及相关特点、优势

从Hadoop MapReduce到Spark

Spark：超越Hadoop MapReduce

Kylin 与 Spark SQL相比，有哪些差异和优势

spark和hadoop mapreduce的异同

preparedStatement相比statement的优势

ConcurrentHashMap 相比于 HashMap 的优势

Hadoop、MapReduce、YARN和Spark的区别与联系

Hadoop，MapReduce，YARN和Spark的区别与联系

Hadoop MapReduce vs. Apache Spark

谈谈Hadoop MapReduce和Spark MR实现

云小课 | MRS和自建Hadoop相比，有哪些优势？

Python+Spark2.0+hadoop学习笔记——Hadoop MapReduce

spark的优势

PostgreSQL 与 MySQL 相比，优势何在？

Spark是什么，与Hadoop相比，有什么不同之处？

Hadoop mapreduce

hadoop的MapReduce

Hadoop - MapReduce

Hadoop（MapReduce）

Hadoop—MapReduce

hadoop --- MapReduce

Hadoop MapReduce Task的进程模型与Spark Task的线程模型

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)