Spark与MR异同 - 代码天地

Spark与MR异同

其他 2019-07-22 20:01:36 阅读次数: 0

Spark是借鉴了mapreduce并在其基础上发展起来的，继承了其分布式计算的优点并改进了mapreduce明显的缺陷，但是二者也有不少的差异具体如下：

1、spark把运算的中间数据存放在内存，迭代计算效率更高；mapreduce的中间结果需要落地，需要保存到磁盘，这样必然会有磁盘io操做，影响性能

2、spark容错性高，它通过弹性分布式数据集RDD来实现高效容错，RDD是一组分布式的存储在节点内存中的只读性质的数据集，这些集合是弹性的，某一部分丢失或者出错，可以通过整个数据集的计算流程的血缘关系来实现重建；mapreduce的话容错可能只能重新计算了，成本较高

3、spark更加通用，spark提供了transformation和action这两大类的多个功能api；mapreduce只提供了map和reduce两种操作

4、spark框架和生态更为复杂，首先有RDD、血缘lineage、执行时的有向无环图DAG、stage划分等，很多时候spark作业都需要根据不同业务场景的需要进行调优已达到性能要求；mapreduce框架及其生态相对较为简单，对性能的要求也相对较弱，但是运行较为稳定，适合长期后台运行

总结，spark生态更为丰富，功能更为强大、性能更佳，适用范围更广；mapreduce更简单、稳定性好、适合离线海量数据挖掘计算

猜你喜欢

转载自www.cnblogs.com/xiangyuguan/p/11227971.html

Spark与MR异同

spark和mr的区别

Spark 和与MR的区别

MR与Spark的区别

Hadoop 和 Spark异同

Hadoop和Spark的异同

Spark和Hadoop的异同

Spark与Hadoop的shuffle的异同

MapReduce与Spark的异同

Livy submit mr、spark job

sparksql\hive on spark\hive on mr

MR，Spark提交任务的方式

MR和SPARK ON YARN 区别

spark框架体系及spark和MR的区别

【Spark】Spark 与 Hadoop MR 之间的区别

spark和hadoop mapreduce的异同

Spark编程：combineByKey与aggregateByKey异同

Spark与MR输出文件排序比较

MR的shuffle和Spark的shuffle之间的区别

spark为什么比hadoop的mr要快？

大数据框架Spark与Hadoop MR的区别

谈谈Hadoop MapReduce和Spark MR实现

大数据框架 Hadoop 和 Spark 的异同

hadoop和spark的shuffle异同点

Hadoop和Spark的前世今生 & MR、Yarn、Spark架构原理

MR

YARN, MR History Server和Spark History Server

KNN在MR和Spark下实现的IO操作比较

mr和spark的shuffer过程详解及对比优化

Spark-概述，核心模块介绍，与Hadoop MR的差异

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)