从Hadoop框架讨论大数据生态 - 代码天地

从Hadoop框架讨论大数据生态

其他 2020-04-20 10:55:17 阅读次数: 0

一、Hadoop的优势

（1）高可靠性：

因为Hadoop假设计算元素和存储会出现故障，它维护多个工作数据副本，故障时可以对失败的节点重新分布处理。

（2）高可扩展性

在集群间分配任务数据，可方便的扩展数以千计的节点。

（3）高效性

在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。

（4）高容错性

自动保存多份副本数据，并且能够自动将失败的任务重新分配。

二、Hadoop组成

在这里插入图片描述
（1）Hadoop HDFS:

一个高可靠、高吞吐量的分布式文件系统

（2）Hadoop MapReduce:

一个分布式的离线并行计算框架

（3）Hadoop YARN:

作业调度与集群资源管理的框架

（4）Hadoop Common:

支持其他模块的工具模块（Configuration、RPC、序列化机制、日志操作）

三、HDFS 架构概述

（1）Namenode：

存储元数据

（2）Datanode：

存储数据的节点，会对数据进行校验

（3）Secondarynamenode：

监控namenode 的元数据，每隔一定的时间进行元数据的合并

四、YARN架构概述

（1） ResourceManager(rm)：

处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度

（2）NodeManager(nm)：

单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令

（3）ApplicationMaster：

数据切分、为应用程序申请资源，并分配给内部任务、任务监控与容错

（4）Container：

对任务运行环境的抽象，封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息

五、MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce

Map阶段并行处理输入数据
Reduce阶段对Map结果进行汇总

发布了50 篇原创文章 · 获赞 15 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43520450/article/details/105388984

Hadoop框架讨论大数据生态

从Hadoop框架讨论大数据生态

从Hadoop框架讨论大数据

尚硅谷大数据技术之Hadoop（入门）第2章从Hadoop框架讨论大数据生态

从Hadoop框架浅谈大数据生态

Hadoop的组成——大数据生态

大数据-Hadoop生态(3)-Hadoop介绍

大数据学习笔记：大数据技术框架和Hadoop生态系统

大数据 Hadoop生态系统

Hadoop生态圈——大数据

大数据-Hadoop生态(5)-HDFS概述

大数据技术与Apache Hadoop生态的进化

大数据Hadoop生态圈：Pig

大数据——Hadoop生态系统

大数据学习(三)Hadoop生态简介

大数据系列（8）Hadoop生态简介

大数据核心——Hadoop生态圈

大数据Hadoop生态圈介绍

大数据hadoop生态技术简介

最全面的Hadoop框架以及整个大数据生态介绍

大数据-Hadoop生态(15)-MapReduce框架原理-自定义FileInputFormat

大数据-Hadoop生态(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区

大数据-Hadoop生态(18)-MapReduce框架原理-WritableComparable排序和GroupingComparator分组

大数据-Hadoop生态(14)-MapReduce框架原理-切片机制

大数据框架Hadoop生态系统各组件与Yarn的兼容性如何？

大数据框架Hadoop生态圈第五集

大数据框架Hadoop生态圈第四集

大数据框架Hadoop生态圈第三集

大数据框架Hadoop生态圈第二集

大数据框架Hadoop生态圈第一集

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)