从Hadoop MapReduce到Spark - 代码天地

从Hadoop MapReduce到Spark

其他 2018-09-16 10:32:43 阅读次数: 0

回顾MapReduce的计算过程

Spark对比MapReduce

Spark是借鉴了MapReduce的思想并在其基础上发展起来的，继承了其分布式计算的优点并改进其缺陷，但两者也有不少的差异如下：

1.spark更快，spark把运行的之间数据存放在内存，迭代计算效率高；mapreduce的之间结果需要落地，保存到磁盘，会产生大量IO操作，影响性能。

2.spark容错性高，通过弹性分布式数据集RDD来实现高效容错，某一部分丢失或出错，可通过计算流程的血缘关系来重建；而mapreduce只能重新计算，成本较高。

3.spark更加通用，提高了丰富的算子（如Transformation和Action），还有流计算Streaming和图计算GraphX等；而mapreduce只有map和reduce两种操作，并不是所有的问题都可以简单地分成map和reduce两步模型来处理。

4.spark采用的是多线程，任务都在一个进程中有利于内存共享，但容易产生资源竞争，难以细粒度地控制资源占用；mapreduce是多进程，进程启动时间要比线程慢，时效不高，但比spark更稳定，值适合批处理操作。

最终总结：

spark生态更为丰富，功能更强大，性能更佳，使用范围广；mapreduce更简单，稳定性好，适合长期后台运行，适合离线海量数据（挖掘）处理。

猜你喜欢

转载自www.cnblogs.com/liujian-8492/p/9655155.html

从Hadoop MapReduce到Spark

Spark：超越Hadoop MapReduce

spark和hadoop mapreduce的异同

Spark相比Hadoop MapReduce的优势

Hadoop、MapReduce、YARN和Spark的区别与联系

Hadoop，MapReduce，YARN和Spark的区别与联系

Hadoop MapReduce vs. Apache Spark

谈谈Hadoop MapReduce和Spark MR实现

Python+Spark2.0+hadoop学习笔记——Hadoop MapReduce

从Hadoop到Spark的架构实践

Hadoop mapreduce

hadoop的MapReduce

Hadoop - MapReduce

Hadoop（MapReduce）

Hadoop—MapReduce

hadoop --- MapReduce

远程提交mapreduce到hadoop集群

通过MapReduce程序导出Hbase到Hadoop

Hadoop从入门到放弃系列------MapReduce

Hadoop -spark

Hadoop与Spark

Hadoop & Spark

Hadoop MapReduce Task的进程模型与Spark Task的线程模型

hadoop的mapReduce和Spark的shuffle过程的详解与对比及优化

Hadoop，Spark，Storm，Docker，Mapreduce，Kafka深入解析

Hadoop、HDFS、MapReduce、Habse、Spark、Yarn是干什么的？

大数据框架学习：从 Hadoop 到 Spark

从大数据到Hadoop，Spark，Storm

用Hadoop mapreduce将json导入到elasticserch

hadoop中mapreduce提交作业到集群运行报错ClassNotFoundException

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)