Hadoop-MapReduc 和 Spark的比较 - 代码天地

Hadoop-MapReduc 和 Spark的比较

其他 2019-02-28 21:10:49 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qichangjian/article/details/87948450

首先Spark是借鉴了mapreduce并在其基础上发展起来的，继承了其分布式计算的优点并改进了mapreduce明显的缺陷。
但是二者也有不少的差异具体如下：ApacheSpark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行计算框架，Spark拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存****中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

1、spark把运算的中间数据存放在内存，迭代计算效率更高，Spark中除了基于内存计算外，还有DAG有向无环图来切分任务的执行先后顺序；mapreduce的中间结果需要落地，需要保存到磁盘，这样必然会有磁盘io操做，影响性能。

2、spark容错性高，它通过弹性分布式数据集RDD来实现高效容错，RDD是一组分布式的存储在节点内存中的只读性质的数据集，这些集合是弹性的，某一部分丢失或者出错，可以通过整个数据集的计算流程的血缘关系来实现重建；mapreduce的话容错可能只能重新计算了，成本较高。

3、spark更加通用，spark提供了transformation和action这两大类的多个功能api，另外还有流式处理sparkstreaming模块、图计算GraphX等等；mapreduce只提供了map和reduce两种操作，流计算以及其他模块的支持比较缺乏。

4、spark框架和生态更为复杂，首先有RDD、血缘lineage、执行时的有向无环图DAG、stage划分等等，很多时候spark作业都需要根据不同业务场景的需要进行调优已达到性能要求；mapreduce框架及其生态相对较为简单，对性能的要求也相对较弱，但是运行较为稳定，适合长期后台运行。

猜你喜欢

转载自blog.csdn.net/qichangjian/article/details/87948450

Hadoop-MapReduc 和 Spark的比较

Hadoop-MapReduc Shuffle过程

Hadoop、storm和Spark的区别、比较

Hadoop和spark的性能比较

Hadoop-MapReduc入门（代码编写流程，运行流程，并行度决定机制）

Hadoop、Storm和Spark 三者的区别、比较

Spark和Hadoop的异同点比较分析（很详细哦！！！）

Hadoop Storm Spark比较

Hadoop与Spark比较

Hadoop与Spark之间的比较

Spark与Hadoop的比较

strom和spark比较

Hadoop、Storm、Spark的区别与比较

大数据计算架构Hadoop、Spark和Storm 三者技术比较

Hadoop，Spark和Storm三大分布式计算系统简介及比较

大数据架构Hadoop、Spark和Storm 三者技术比较

好程序员技术解析Hadoop和spark的性能比较

Hadoop与spark性能比较试验

spark和hive storm mapreduce的比较

Spark Streaming之updateStateByKey和mapWithState比较

Hadoop 和 Spark异同

Hadoop和Spark的异同

Hadoop，Spark和Storm

Hadoop和Spark的区别

Spark和Hadoop关系

Hadoop、Spark和Storm

Spark和Hadoop的异同

spark和hadoop的区别

Hadoop和Spark区别

Spark和Hadoop优劣

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)