hadoop（详细见word） - 代码天地

hadoop（详细见word）

其他 2019-06-30 11:48:10 阅读次数: 0

HDFS

框架和使用场景

分布式文件系统。一次写入，多次读取；容量可线性扩展，存储高可靠。

运行机制

读数据流程（见word文档）

写数据流程（见word文档）

NN工作机制（见word文档）

　　1.响应客户端响应 2.维护目录树 3.管理元数据

异常处理

RPC机制（网络通信）

Mapreduece

框架和使用场景

API使用

运行机制

shuffle机制：map和reduce中间的数据调度机制，包含缓存，分区，排序。

reduce task数量决定机制

业务逻辑需要（有些场景只能有一个，比如统计某一个单词出现的次数）

数据量大小 job.setnumberReduceTsks(n)

如果重写了分区，就必须使任务数大于等于分区数。

map task数量决定

完全取决于数据量的大小

split

默认的切片机制：

Textinputformat.getsplit(“path”)做切片规划

1. 定义切片大小，可以通过参数调节，但是默认情况等于hdfs中的设置的blocksize

2. 获取数据目录下所有待处理文件list

3. 遍历文件list，逐个文件进行切片

For(file:list)

对file从0偏移量开始切，每128M构成一个切片

比如a.txt（200M），就会切成 a.txt0-128M，a.txt128M-256M

b.txt 切成1个 b.txt 0-80M

如果要处理的数据是大量的小文件？？？，使用上述切片机制导致大量的切片，但是每个切片非常小，导致map task进程多，但数据量很小，效率很低。

解决：将多个小文件划分为1和切片，自定义inputfoemat子类，重写split

Mapreduce自带实现类：combinefileinputformat

Yarn

框架和使用场景

Resourcemanager 主节点master 只需要1个来工作

Nodemanager 从节点根据集群规模可以有很多个

心跳通信？

1. yarn只负责资源的分配，不参与job具体的运行机制

2. mapreduce有一个进程mrappmaster来负责程序的运行流程控制

3. yarn可以为各种应用程序提供资源服务（类似于操作系统平台）

4. 可以把各种分布式框架整合到hadoop集群

猜你喜欢

转载自www.cnblogs.com/NeverGiveUp0/p/11109093.html

hadoop（详细见word）

详细版hadoop平台搭建常见问题总结（三）——hadoop的安装

hadoop的hello word

Word常见错误

详细版hadoop平台搭建常见问题总结（二）——jdk的安装

详细版hadoop平台搭建常见问题总结（一）

详细版hadoop平台搭建常见问题总结（四）—— 一些漏掉的问题

windows配置hadoop（详细）

hadoop详细配置

Hadoop的HA的详细解说

hadoop 集群搭建（详细）

## 详细搭建Hadoop集群

Hadoop 安装详细步骤

Hadoop详细入门知识

hadoop常见错误

hadoop 常见错误

Hadoop常见端口

poi 详细demo,操作word

word常见操作检索

Hadoop-从0到1详细步骤编译源码，常见错误及解决方案-连载中

【Hadoop五】Word Count实例结果分析

附录E Hadoop的word count例子

Word Count Example of Hadoop V1.0 – Hadoop Job的启动

hadoop详细文档(二) 什么是hadoop(附带详细讲解视频)

hadoop 2.0 详细配置教程

hadoop详细安装和配置

Hadoop 集群安装详细步骤

最详细的Hadoop集群搭建

hadoop集群安装详细步骤

Hadoop集群搭建教程（详细）

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)