Hadoop HDFS, YARN ,MAPREDUCE,MAPREDUCE ON YARN - 代码天地

Hadoop HDFS, YARN ,MAPREDUCE,MAPREDUCE ON YARN

其他 2019-04-22 14:41:22 阅读次数: 0

HDFS 系统架构图

NameNode 是主节点，存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。NameNode将这些信息加载到内存并进行拼装，就成为了一个完整的元数据信息

DataNode在本地文件系统存储文件块数据，以及块数据的校验

Secondary NameNode（上图没有显示出来）用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照

HDFS的基本存储单元(block)，文件在HDFS上被分成若干个block块，, 默认的bocksize=128M , 若文件258M，则共有block=3，实际占有存储258M,最后一块只占用2M。如果设置的副本数为3的话，则整个集群上存在9个block，放置位置随机。

YARN 架构图

ResourceManager:

处理客户端请求

启动/监控ApplicationMaster

监控NodeManager

资源分配和调度

NodeManager:

单个节点上的资源管理n

处理来自ResouceManager 的命令

处理来自ApplicationMaster的命令

ApplicationMaster：

数据切分

为应用程序申请资源，并分配给内部任务

任务监控与容错

Container:

对任务运行环境的抽象，封装了CPU,内存等多维资源以及环境变量，启动命令等任务运行相关的信息

离线计算框架 MapReduce

将计算过程分为两个阶段，Map和Reduce

*Map 阶段并行处理输入数据

*Reduce 阶段对Map结果进行汇总

Shuffle 连接Map和Reduce 两个阶段

*Map Task 将数据写到本地磁盘

*Reduce Task从每个Map Task 上读取一份数据

仅适合离线批处理

*具有很好的容错性和扩展性

*适合简单的批处理任务

缺点明显

*启动开销大，过多使用磁盘导致效率低下等

mapReduce 运行原理参考以下博文：

https://www.cnblogs.com/sharpxiajun/p/3151395.html

MapReduce On Yarn

猜你喜欢

转载自www.cnblogs.com/pickKnow/p/10749877.html

Hadoop HDFS, YARN ,MAPREDUCE,MAPREDUCE ON YARN

Hadoop(HDFS、MapReduce、Yarn)总结

Hadoop - HDFS - MapReduce - YARN - HA详解

Hadoop下的HDFS和Yarn上的MapReduce

整合Hadoop(包括:hdfs,mapreduce,yarn)

Hadoop关于HDFS、MapReduce、Yarn的总结

Hadoop学习_HDFS，MapReduce （wordcount例子）和 YARN资源调度

hadoop之HDFS、yarn、MapReduce执行原理分析

hadoop学习记（2）--HDFS+yarn+MapReduce关系与原理

Hadoop核心架构体系（HDFS+MapReduce+Hbase+Hive+Yarn）

Hadoop基础——HDFS、MapReduce、Yarn的运行原理和机制

hadoop框架三大组件hdfs、mapreduce、yarn 内容

Hadoop、HDFS、MapReduce、Habse、Spark、Yarn是干什么的？

Hadoop MapReduce和Yarn的关系

Hadoop基于Yarn的MapReduce架构

Hadoop MapReduce2.0（Yarn）

Hadoop 的核心（2）—— MapReduce & YARN

Mapreduce & yarn

MapReduce与Yarn

MapReduce on Yarn

Hadoop 新 MapReduce 框架 Yarn 详解

Hadoop 新 MapReduce 框架 Yarn 详解（转载）

Hadoop、MapReduce、YARN和Spark的区别与联系

Hadoop2.7.6_05_mapreduce-Yarn

Hadoop，MapReduce，YARN和Spark的区别与联系

hadoop之MapReduce架构及Yarn环境搭建

Hadoop之旅（4）— MapReduce 与 YARN 原理讲解

Hadoop/Yarn/MapReduce内存分配（配置）方案

hadoop MapReduce Yarn运行机制

Hadoop YARN上运行MapReduce程序

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)